隨著大模型的興起,人們存在一種常見的誤解,即認(rèn)為所謂“對齊”(alignment)就是讓模型輸出人類滿意的內(nèi)容,但實(shí)際上其內(nèi)涵遠(yuǎn)不止于此。過去十年,隨著研究人員在“深度學(xué)習(xí)”領(lǐng)域的研究日益深入,AI社區(qū)的關(guān)鍵詞也隨之完成了從“AI safety”到“AI alignment”的轉(zhuǎn)變。在該領(lǐng)域,人們一以貫之的討論方向是:考慮到高級AI系統(tǒng)與人類社會的相互作用和相互影響,我們應(yīng)如何防止其可能帶來的災(zāi)難性風(fēng)險?具體來說,“價值對齊”就是應(yīng)確保人工智能追求與人類價值觀相匹配的目標(biāo),確保AI以對人類和社會有益的方式行事,不對人類的價值和權(quán)利造成干擾和傷害。
“風(fēng)險模型”是指如果AI真的能夠帶來風(fēng)險,那么這一風(fēng)險的實(shí)現(xiàn)方式究竟是什么?總體而言,AI價值對齊的風(fēng)險模型可以劃分為三大類。第一類是在理論和實(shí)踐上已經(jīng)存在比較廣泛研究的問題(theoretically established and empirically observed);第二類是更多能在實(shí)驗(yàn)中觀測到,但目前在理論上還沒有更深入的研究,但值得繼續(xù)深入開拓的問題(empirically observed);第三類則屬于猜想性問題(hypothetical),即當(dāng)下我們并未在實(shí)驗(yàn)中觀測到,但可以通過構(gòu)造實(shí)驗(yàn)去觀測人工智能是否具備某種能力。下述三種風(fēng)險模型即分屬此三類問題。
最后,對AI“幻覺”(hallucination)問題的研究對于提高模型魯棒性同樣具有重要意義。由于大語言模型可能會輸出錯誤的或者不存在的事實(shí),這可能源于訓(xùn)練數(shù)據(jù)中的錯誤或虛假信息,也可能是過度創(chuàng)造的副產(chǎn)物。因此,讓大模型在創(chuàng)造性和真實(shí)性之間做好平衡同樣是一個技術(shù)難題。
第二個風(fēng)險模型:獎勵作弊和錯誤設(shè)定(Reward hacking & Misspecification)
獎勵作弊和錯誤設(shè)定問題主要來源于經(jīng)驗(yàn)觀察。在強(qiáng)化學(xué)習(xí)中,AI的目標(biāo)是最大化最終得到的獎勵,但即使定義了一項(xiàng)正確的獎勵,其實(shí)現(xiàn)方式也可能不盡如人意。[5]例如,在一個以劃船競速為主題的電子游戲中,人工智能系統(tǒng)的目標(biāo)是完成比賽,并通過撞擊對手船只來獲得分?jǐn)?shù)。但是它在其中找到了漏洞,發(fā)現(xiàn)可以通過無限撞擊相同目標(biāo)來獲取高分,由此利用漏洞達(dá)成了獲取獎勵的目的。
此外,與之相關(guān)的還有情景感知(situational awareness)這一猜想性問題。即AI是否知道其正處于測試環(huán)境,這種感知本身又是否會影響其表現(xiàn)?近期,OpenAI、紐約大學(xué)、牛津大學(xué)的研究人員發(fā)現(xiàn),大語言模型能夠感知自身所處的情景,為了通過測試會隱藏信息欺騙人類,而研究人員通過實(shí)驗(yàn)可以提前預(yù)知和觀察這種感知能力。[8]
第三個風(fēng)險模型:權(quán)力尋求(power seeking)
權(quán)力尋求是指具備戰(zhàn)略感知能力的系統(tǒng)(不限于AGI)可能會采取行動,尋求擴(kuò)張自身對周邊環(huán)境的影響力。權(quán)力尋求問題是一項(xiàng)假設(shè)的但是合理的問題(hypothetical but reasonable questions),因?yàn)槟芰Α坝楷F(xiàn)”背后潛藏著失控風(fēng)險。恰如Jacob Steinhardt在其文章中所提到的:“如果一個系統(tǒng)實(shí)現(xiàn)某個目標(biāo)需要考慮大量不同的可能政策方案,那么它就具有很強(qiáng)的優(yōu)化能力”。[9]圖靈獎得主Geoffrey Hinton在演講中有提到,如果讓AI去最大化實(shí)現(xiàn)其目標(biāo),一個合適的子目標(biāo)可能就是尋求更多的影響力、說服人類或拿到更多的金錢等,但這一過程是否安全,權(quán)力攫取到達(dá)什么程度需要被注意到,以及如果給予AI足夠大的政策空間是否會帶來人類無法接受的后果等一系列問題都值得關(guān)注。
針對上述風(fēng)險模型的具體解決方案,并非聚焦于如何訓(xùn)練更強(qiáng)大的模型,相反更強(qiáng)大的模型可能具有更大的風(fēng)險,因此我們應(yīng)考慮怎樣在不加劇風(fēng)險的情況下嘗試解決問題。以下介紹目前AI價值對齊社區(qū)比較關(guān)注的四個主要方向。
三是策略模型的問題(Challenges with the Policy)。一方面,對策略模型(policy)而言,高效地優(yōu)化強(qiáng)化學(xué)習(xí)是一件困難的事情;輸入對抗樣本情況下,策略模型可能會被反向利用;預(yù)訓(xùn)練模型會給策略優(yōu)化帶來偏差;強(qiáng)化模型可能會出現(xiàn)模式坍縮(mode collapse)。這里更根本的問題是即使在訓(xùn)練過程中看到的獎勵完全正確,策略在部署過程中也可能表現(xiàn)不佳;而最佳強(qiáng)化學(xué)習(xí)代理則傾向于尋求權(quán)力(power seeking)。另一方面,當(dāng)我們考慮到獎勵函數(shù)的學(xué)習(xí)后,在聯(lián)合訓(xùn)練(joint training)的同時優(yōu)化一個策略模型可能會帶來一系列問題。例如這一過程可能會導(dǎo)致分布轉(zhuǎn)移;很難在效率和避免策略過度擬合之間取得平衡。這里更根本的問題是優(yōu)化不完美的獎勵代理會導(dǎo)致獎勵作弊(reward hacking)。
總而言之,RLHF目前仍存在諸多問題,值得世界各地學(xué)者進(jìn)一步展開研究。同時正是由于RLHF本身存在很多根本性問題,單純依靠這一解決思路可能不足以解決AI價值對齊領(lǐng)域的所有問題,我們還需要其他方向的研究來共同解決這一問題。
(二)可擴(kuò)展監(jiān)督(Scalable oversight)
第二類解決思路為可擴(kuò)展監(jiān)督(scalable oversight),即如何監(jiān)督一個在特定領(lǐng)域表現(xiàn)超出人類的系統(tǒng)。人們要在AI所提供的看似具有說服力的反饋中分辨出不真實(shí)的內(nèi)容需要花費(fèi)大量時間和精力,而可擴(kuò)展監(jiān)督即旨在降低成本,協(xié)助人類更好地監(jiān)督人工智能。[13]2018年P(guān)aul Christiano在播客中表示相較于開發(fā)可擴(kuò)展監(jiān)督技術(shù),AI系統(tǒng)所有者可能更傾向于通過設(shè)定容易評估的目標(biāo)來獲得更高的利潤,例如引導(dǎo)用戶點(diǎn)擊按鈕、吸引用戶長久在網(wǎng)站停留等,但這一做法是否真的對人類社會有利則有待考量。[14]
今年5月份,一封由包括多倫多大學(xué)計(jì)算機(jī)科學(xué)榮譽(yù)教授Geoffrey Hinton、蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)教授Yoshua Bengio、Google DeepMind首席執(zhí)行官Demis Hassabis、OpenAl首席執(zhí)行官Sam Altman和Anthropic首席執(zhí)行官Dario Amodei等在內(nèi)的350多名高管、研究人員和工程師簽署的公開信引發(fā)熱議,信中表示人工智能對人類的風(fēng)險,與大規(guī)模流行性疾病和核戰(zhàn)爭相當(dāng)。
AI+Science 讀書會
AGI讀書會啟動
為了深入探討 AGI 相關(guān)話題,集智俱樂部聯(lián)合集萃深度感知技術(shù)研究所所長岳玉濤、麻省理工學(xué)院博士沈馬成、天普大學(xué)博士生徐博文,共同發(fā)起 AGI 讀書會,涵蓋主題包括:智能的定義與度量、智能的原理、大語言模型與信息世界的智能、感知與具身智能、多視角下的人工智能、對齊技術(shù)與AGI安全性、AGI時代的未來社會。讀書會從2023年9月21日開始,每周四晚上 19:00-21:00,預(yù)計(jì)持續(xù)7-10周。歡迎感興趣的朋友報名參與!
詳情請見:
AGI 讀書會啟動:邁向通用人工智能的跨學(xué)科路徑
轉(zhuǎn)載請注明來自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《萬字長文詳解:大模型時代AI價值對齊的問題、對策和展望》
還沒有評論,來說兩句吧...