中新經(jīng)緯3月17日電 (宋亞芬)你從AI大模型中查詢到的“權(quán)威答案”很可能已經(jīng)被商業(yè)灰產(chǎn)定向污染。
據(jù)央視3·15晚會(huì)報(bào)道,一款叫GEO的軟件,宣稱可通過給“AI投毒”“讓AI聽話”,讓客戶產(chǎn)品在AI回答中排名靠前,成為“推薦爆款”。
語料污染,AI不可承受之重
這款軟件的操作邏輯并不復(fù)雜:通過持續(xù)大量投喂與客戶相關(guān)的推廣軟文,讓AI平臺(tái)去刷錄、輸入、抓取。由于AI大模型的核心機(jī)制是機(jī)器學(xué)習(xí),這種定向投喂會(huì)直接影響模型的輸出結(jié)果。
在專家眼中,這種投機(jī)取巧無異于在動(dòng)搖AI的根基。國研新經(jīng)濟(jì)研究院創(chuàng)始院長朱克力對(duì)中新經(jīng)緯表示,這種行為會(huì)從底層動(dòng)搖AI大模型的可信度根基,對(duì)其技術(shù)價(jià)值與社會(huì)應(yīng)用價(jià)值造成多重不可逆的傷害。
“AI大模型的核心競爭力在于基于海量真實(shí)、多元的語料進(jìn)行學(xué)習(xí)與推理,其回答的客觀性、準(zhǔn)確性是立足之本,而此類定向的語料污染行為,會(huì)讓模型的信息庫中混入大量虛假、低質(zhì)、同質(zhì)化的商業(yè)信息,打破模型語料的真實(shí)平衡,導(dǎo)致模型在推理過程中難以分辨信息的真?zhèn)闻c價(jià)值,進(jìn)而輸出帶有明顯商業(yè)偏向的非客觀內(nèi)容。”朱克力補(bǔ)充說。
更值得警惕的是,這種傷害不會(huì)止步于單次回答。它會(huì)隨著信息的反復(fù)輸入形成傳導(dǎo),一層層累積,逐步透支用戶對(duì)AI的信任。
朱克力表示,“一旦用戶多次發(fā)現(xiàn)AI模型的‘標(biāo)準(zhǔn)答案’實(shí)則是商業(yè)廣告,會(huì)逐步喪失對(duì)AI模型的信任,進(jìn)而影響AI大模型在資訊查詢、決策輔助、知識(shí)普及等諸多場景的應(yīng)用落地?!?/p>
若語料污染行為形成規(guī)模,還會(huì)引發(fā)行業(yè)的不良跟風(fēng)。朱克力強(qiáng)調(diào),“大量虛假信息涌入AI訓(xùn)練與推理環(huán)節(jié),將導(dǎo)致不同平臺(tái)的AI模型均出現(xiàn)回答失真問題,最終讓整個(gè)AI大模型產(chǎn)業(yè)陷入可信度危機(jī)。”
AI“中毒”怎么辦?
事實(shí)上,AI數(shù)據(jù)污染問題并非伴隨大模型而產(chǎn)生,但大模型的興起顯著放大了其規(guī)模、影響與復(fù)雜性。為此,《生成式人工智能服務(wù)管理暫行辦法》和新版《數(shù)據(jù)安全法》已經(jīng)將AI訓(xùn)練數(shù)據(jù)納入監(jiān)管。
在工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林看來,AI大模型的可信度存在問題,一方面是因?yàn)榛ヂ?lián)網(wǎng)上存在虛假信息,另一方面是因?yàn)锳I本身也存在幻覺,會(huì)自己編造數(shù)據(jù)。
不過,這種數(shù)據(jù)污染,在技術(shù)層面并非無計(jì)可施。
朱克力指出,現(xiàn)有技術(shù)體系已具備相應(yīng)的反制手段,且可通過技術(shù)迭代與體系化設(shè)計(jì),建立起全流程的防御機(jī)制,有效識(shí)別和阻斷此類不正當(dāng)行為。
朱克力進(jìn)一步分析,可通過優(yōu)化AI大模型的語料篩選與權(quán)重計(jì)算算法,建立多維度的語料價(jià)值評(píng)估體系,從內(nèi)容真實(shí)性、原創(chuàng)性、信息密度、傳播場景等多個(gè)維度對(duì)語料進(jìn)行動(dòng)態(tài)評(píng)分,對(duì)批量出現(xiàn)的同質(zhì)化、低價(jià)值、強(qiáng)商業(yè)屬性的軟文內(nèi)容進(jìn)行降權(quán)甚至剔除,從源頭減少虛假語料對(duì)模型的干擾。
“還可引入實(shí)時(shí)的語料溯源與異常監(jiān)測技術(shù),對(duì)短時(shí)間內(nèi)集中出現(xiàn)的、帶有相同關(guān)鍵詞與商業(yè)信息的內(nèi)容進(jìn)行溯源追蹤,”朱克力強(qiáng)調(diào),通過識(shí)別其發(fā)布主體與傳播路徑,可對(duì)異常發(fā)布行為進(jìn)行實(shí)時(shí)預(yù)警。
此外,避免單一信息源的定向誤導(dǎo)也很重要。朱克力建議可通過強(qiáng)化AI模型的推理校驗(yàn)?zāi)芰Γ屇P驮谏苫卮饡r(shí),對(duì)核心信息進(jìn)行多源交叉驗(yàn)證。
盤和林則認(rèn)為,技術(shù)上反制是不夠的。“我們要治理的,可能不是GEO,而是整個(gè)中文互聯(lián)網(wǎng)的信息真實(shí)性問題,這是個(gè)大的生態(tài)型問題,只要這些互聯(lián)網(wǎng)的虛假信息還存在,那么AI還是會(huì)不斷抓取有害信息?!?/p>
在盤和林看來,根本解決之道還是在于治理互聯(lián)網(wǎng)信息環(huán)境,建立權(quán)威信息發(fā)布渠道。比如,在美國,F(xiàn)DA(美國食品藥品監(jiān)督管理局)會(huì)對(duì)保健品的很多問題發(fā)布報(bào)告,若設(shè)定AI優(yōu)先從FDA去獲取這類科學(xué)數(shù)據(jù),就會(huì)形成客觀的觀點(diǎn)。
朱克力建議構(gòu)建“源頭篩查—過程監(jiān)測—結(jié)果校驗(yàn)—閉環(huán)治理”的全鏈條體系?!翱勺尫烙鶛C(jī)制與違規(guī)行為的技術(shù)迭代同頻,從根本上遏制語料污染行為,守護(hù)AI大模型的內(nèi)容真實(shí)性與可信度?!?中新經(jīng)緯APP)
中新經(jīng)緯版權(quán)所有,未經(jīng)授權(quán),不得轉(zhuǎn)載或以其他方式使用。