AI大模型的成功帶來了前所未有的“智能涌現(xiàn)”,人們對即將到來的AI時代充滿期待。
然而,在科技巨頭們涌向AI賽道、人們樂此不疲地實驗和討論AI的強大功能,并由此感嘆其是否可能取代人類勞動時,AI幻覺問題也越來越不容忽視,成為AI進一步發(fā)展的阻礙。Yann LeCun——世界深度學(xué)習(xí)三巨頭之一,“卷積神經(jīng)網(wǎng)之絡(luò)父”——在此前的一次演講中,甚至斷言“GPT模型活不過5年”。
隨著AI幻覺爭議四起,大模型到底能夠在行業(yè)中發(fā)揮多大作用,是否會產(chǎn)生副作用,也成為一個焦點問題。AI幻覺究竟是什么?是否真的無解?
AI大模型的“胡言亂語”
人類會胡言亂語,人工智能也會。一言以蔽之,人工智能的胡言亂語,就是所謂的“機器幻覺”。
具體來看,AI幻覺就是大模型生成的內(nèi)容在表面上看起來是合理的、有邏輯的,甚至可能與真實信息交織在一起,但實際上卻存在錯誤的內(nèi)容、引用來源或陳述。這些錯誤的內(nèi)容以一種有說服力和可信度的方式被呈現(xiàn)出來,使人們在沒有仔細(xì)核查和事實驗證的情況下很難分辨出其中的虛假信息。
AI幻覺可以分為兩類:內(nèi)在幻覺(Intrinsic Hallucination)和外在幻覺(Extrinsic Hallucination)。
所謂內(nèi)在幻覺,就是指AI大模型生成的內(nèi)容與其輸入內(nèi)容之間存在矛盾,即生成的回答與提供的信息不一致。這種錯誤往往可以通過核對輸入內(nèi)容和生成內(nèi)容來相對容易地發(fā)現(xiàn)和糾正。
舉個例子,我們詢問AI大模型“人類在哪年登上月球”?(人類首次登上月球的年份是1969年)然而,盡管AI大模型可能處理了大量的文本數(shù)據(jù),但對“登上”、“月球”等詞匯的理解存在歧義,因此,可能會生成一個錯誤的回答,例如“人類首次登上月球是在1985年”。
相較于內(nèi)在幻覺,外在幻覺則更為復(fù)雜,它指的是生成內(nèi)容的錯誤性無法從輸入內(nèi)容中直接驗證。這種錯誤通常涉及模型調(diào)用了輸入內(nèi)容之外的數(shù)據(jù)、文本或信息,從而導(dǎo)致生成的內(nèi)容產(chǎn)生虛假陳述。外在幻覺難以被輕易識別,因為雖然生成的內(nèi)容可能是虛假的,但模型可以以邏輯連貫、有條理的方式呈現(xiàn),使人們很難懷疑其真實性。通俗的講,也就是AI在“編造信息”。
想象一下,我們在AI聊天,向其提問:“最近有哪些關(guān)于環(huán)保的新政策?”AI迅速回答了一系列看起來非常合理和詳細(xì)的政策,這些政策可能是真實存在的。但其中卻有一個政策是完全虛構(gòu)的,只是被AI編造出來。這個虛假政策可能以一種和其他政策一樣有邏輯和說服力的方式被表述,使人們很難在第一時間懷疑其真實性。
這就是外在幻覺的典型例子。盡管我們可能會相信AI生成的內(nèi)容是基于輸入的,但實際上它可能調(diào)用了虛構(gòu)的數(shù)據(jù)或信息,從而混入虛假的內(nèi)容。這種錯誤類型之所以難以識別,是因為生成的內(nèi)容在語言上是連貫的,模型可能會運用上下文、邏輯和常識來構(gòu)建虛假信息,使之看起來與其他真實信息沒有明顯區(qū)別。
AI為什么會產(chǎn)生幻覺?
人工智能的幻覺問題,其實并不是一個新問題,只不過,以ChatGPT為代表的AI大模型的火爆讓人們開始注意AI幻覺問題。那么,AI幻覺究竟從何而來?又將帶來什么危害?
以ChatGPT為例,本質(zhì)上,ChatGPT只是通過概率最大化不斷生成數(shù)據(jù)而已,而不是通過邏輯推理來生成回復(fù):ChatGPT的訓(xùn)練使用了前所未有的龐大數(shù)據(jù),并通過深度神經(jīng)網(wǎng)絡(luò)、自監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)和提示學(xué)習(xí)等人工智能模型進行訓(xùn)練。目前披露的ChatGPT的上一代GPT-3模型參數(shù)數(shù)目高達(dá)1750億。
在大數(shù)據(jù)、大模型和大算力的工程性結(jié)合下,ChatGPT才能夠展現(xiàn)出統(tǒng)計關(guān)聯(lián)能力,可洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子等之間的關(guān)聯(lián)性,體現(xiàn)了語言對話的能力。正是因為ChatGPT是以“共生則關(guān)聯(lián)”為標(biāo)準(zhǔn)對模型訓(xùn)練,才會導(dǎo)致虛假關(guān)聯(lián)和東拼西湊的合成結(jié)果。許多可笑的錯誤就是缺乏常識下對數(shù)據(jù)進行機械式硬匹配所致。
不久前,兩項來自頂刊的研究就表明:GPT-4可能完全沒有推理能力。第一項研究來自麻省理工的校友 Konstantine Arkoudas。8 月 7 日,畢業(yè)于美國麻省理工學(xué)院的 Konstantine Arkoudas 撰寫了一篇標(biāo)題為《GPT-4 Can't Reason》(GPT-4 不能推理)的預(yù)印本論文,論文指出,雖然GPT-4 與 GPT 3.5 相比有了全面的實質(zhì)性改進,但基于21種不同類型的推理集對GPT-4進行評估后,研究人員發(fā)現(xiàn),GPT-4完全不具備推理能力。
而另一篇來自加利福尼亞大學(xué)和華盛頓大學(xué)的研究也發(fā)現(xiàn),GPT-4,以及GPT-3.5在大學(xué)的數(shù)學(xué)、物理、化學(xué)任務(wù)的推理上,表現(xiàn)不佳。研究人員基于2個數(shù)據(jù)集,通過對GPT-4和GPT-3.5采用不同提示策略進行深入研究,結(jié)果顯示,GPT-4成績平均總分僅為35.8%。
而“GPT-4完全不具備推理能力”的背后原因,正是AI幻覺問題。也就是說,ChatGPT雖然能夠通過所挖掘的單詞之間的關(guān)聯(lián)統(tǒng)計關(guān)系合成語言答案,但卻不能夠判斷答案中內(nèi)容的可信度。
換言之,AI大模型沒有足夠的內(nèi)部理解,也不能真正理解世界是如何運作的。AI大模型就好像知道一個事情的規(guī)則,但不知道這些規(guī)則是為什么。這使得AI大模型難以在復(fù)雜的情況下做出有力的推理,因為它們可能僅僅是根據(jù)已知的信息做出表面上的結(jié)論。
比如,研究人員問GPT-4:一個人上午9點的心率為75 bpm(每分鐘跳動75次),下午7點的血壓為120/80(收縮壓120、舒張壓80)。她于晚上11點死亡。她中午還活著嗎?GPT-4則回答:根據(jù)所提供的信息,無法確定這個人中午是否還活著。但顯而易見的常識是“人在死前是活著的,死后就不會再活著”,可惜,GPT-4并不懂這個道理。
AI幻覺有無解法?
AI幻覺的危害性顯而易見,其最大的危險之處就在于,AI大模型的輸出看起來是正確的,而本質(zhì)上卻是錯誤的。這使得它不能被完全信任。
因為由AI幻導(dǎo)致的錯誤答案一經(jīng)應(yīng)用,就有可能對社會產(chǎn)生危害,包括引發(fā)偏見,傳播與事實不符、冒犯性或存在倫理風(fēng)險的毒性信息等等。而如果有人惡意的給ChatGPT投喂一些誤導(dǎo)性、錯誤性的信息,更是會干擾ChatGPT的知識生成結(jié)果,從而增加了誤導(dǎo)的概率。
我們可以想象下,一臺內(nèi)容創(chuàng)作成本接近于零,正確度80%左右,對非專業(yè)人士的迷惑程度接近100%的智能機器,用超過人類作者千百萬倍的產(chǎn)出速度接管所有百科全書編撰,回答所有知識性問題,會對人們憑借著大腦進行知識記憶帶來怎樣的挑戰(zhàn)?
尤其是在生命科學(xué)領(lǐng)域,如果沒有進行足夠的語料“喂食”,ChatGPT可能無法生成適當(dāng)?shù)幕卮?,甚至?xí)霈F(xiàn)胡編亂造的情況,而生命科學(xué)領(lǐng)域,對信息的準(zhǔn)確、邏輯的嚴(yán)謹(jǐn)都有更高的要求。因此,如果想在生命科學(xué)領(lǐng)域用到ChatGPT,還需要模型中針對性地處理更多的科學(xué)內(nèi)容,公開數(shù)據(jù)源,專業(yè)的知識,并且投入人力訓(xùn)練與運維,才能讓產(chǎn)出的內(nèi)容不僅通順,而且正確。
并且,ChatGPT也難以進行高級邏輯處理。在完成“多準(zhǔn)快全”的基本資料梳理和內(nèi)容整合后,ChatGPT尚不能進一步綜合判斷、邏輯完善等,這恰恰是人類高級智慧的體現(xiàn)。國際機器學(xué)習(xí)會議 ICML 認(rèn)為,ChatGPT 等這類語言模型雖然代表了一種未來發(fā)展趨勢,但隨之而來的是一些意想不到的后果以及難以解決的問題。ICML 表示,ChatGPT 接受公共數(shù)據(jù)的訓(xùn)練,這些數(shù)據(jù)通常是在未經(jīng)同意的情況下收集的,出了問題難以找到負(fù)責(zé)的對象。
而這個問題也正是人工智能面臨的客觀現(xiàn)實問題,就是關(guān)于有效、高質(zhì)量的知識獲取。相對而言,高質(zhì)量的知識類數(shù)據(jù)通常都有明確的知識產(chǎn)權(quán),比如屬于作者、出版機構(gòu)、媒體、科研院所等。要獲得這些高質(zhì)量的知識數(shù)據(jù),就面臨支付知識產(chǎn)權(quán)費用的問題,這也是當(dāng)前擺在ChatGPT目前的客觀現(xiàn)實問題。
目前,包括OpenAI在內(nèi)的主要的大語言模型技術(shù)公司都一致表示,正在努力改善“幻覺”問題,使大模型能夠變得更準(zhǔn)確。
特別是麥肯錫全球研究院發(fā)表數(shù)據(jù)預(yù)測,生成式AI將為全球經(jīng)濟貢獻(xiàn)2.6萬億美元到4.4萬億美元的價值,未來會有越來越多的生成式AI工具進入各行各業(yè)輔助人們工作,這就要求AI輸出的信息數(shù)據(jù)必須具備高度的可靠性。
谷歌也正在向新聞機構(gòu)推銷一款A(yù)I新聞寫作的人工智能產(chǎn)品,對新聞機構(gòu)來說,新聞中所展現(xiàn)的信息準(zhǔn)確性極其重要。另外,美聯(lián)社也正在考慮與OpenAI合作,以部分?jǐn)?shù)據(jù)使用美聯(lián)社的文本檔案來改進其人工智能系統(tǒng)。
究其原因,如果AI幻覺問題不能得到有效的解決,生成式大語言模型就無法進入通用人工智能的階段??梢哉f,ChatGPT是一個巨大的飛躍,但它們?nèi)匀皇侨祟愔圃斐鰜淼墓ぞ?,目前依然面臨著一些困難與問題。對于AI的前景我們不需要質(zhì)疑,但是對于當(dāng)前面對的實際困難與挑戰(zhàn),需要更多的時間才能解決,只是我們無法預(yù)計這個解決的時間需要多久。
轉(zhuǎn)載請注明來自浙江中液機械設(shè)備有限公司 ,本文標(biāo)題:《人工智能的“胡言亂語”,有沒有解法?》
還沒有評論,來說兩句吧...