萬(wàn)字長(zhǎng)文詳解:大模型時(shí)代AI價(jià)值對(duì)齊的問(wèn)題、對(duì)策和展望
隨著大模型的興起,人們存在一種常見的誤解,即認(rèn)為所謂“對(duì)齊”(alignment)就是讓模型輸出人類滿意的內(nèi)容,但實(shí)際上其內(nèi)涵遠(yuǎn)不止于此。過(guò)去十年,隨著研究人員在“深度學(xué)習(xí)”領(lǐng)域的研究日益深入,AI社區(qū)的關(guān)鍵詞也隨之完成了從“AI safety”到“AI alignment”的轉(zhuǎn)變。在該領(lǐng)域,人們一以貫之的討論方向是:考慮到高級(jí)AI系統(tǒng)與人類社會(huì)的相互作用和相互影響,我們應(yīng)如何防止其可能帶來(lái)的災(zāi)難性風(fēng)險(xiǎn)?具體來(lái)說(shuō),“價(jià)值對(duì)齊”就是應(yīng)確保人工智能追求與人類價(jià)值觀相匹配的目標(biāo),確保AI以對(duì)人類和社會(huì)有益的方式行事,不對(duì)人類的價(jià)值和權(quán)利造成干擾和傷害。
“風(fēng)險(xiǎn)模型”是指如果AI真的能夠帶來(lái)風(fēng)險(xiǎn),那么這一風(fēng)險(xiǎn)的實(shí)現(xiàn)方式究竟是什么?總體而言,AI價(jià)值對(duì)齊的風(fēng)險(xiǎn)模型可以劃分為三大類。第一類是在理論和實(shí)踐上已經(jīng)存在比較廣泛研究的問(wèn)題(theoretically established and empirically observed);第二類是更多能在實(shí)驗(yàn)中觀測(cè)到,但目前在理論上還沒(méi)有更深入的研究,但值得繼續(xù)深入開拓的問(wèn)題(empirically observed);第三類則屬于猜想性問(wèn)題(hypothetical),即當(dāng)下我們并未在實(shí)驗(yàn)中觀測(cè)到,但可以通過(guò)構(gòu)造實(shí)驗(yàn)去觀測(cè)人工智能是否具備某種能力。下述三種風(fēng)險(xiǎn)模型即分屬此三類問(wèn)題。
最后,對(duì)AI“幻覺”(hallucination)問(wèn)題的研究對(duì)于提高模型魯棒性同樣具有重要意義。由于大語(yǔ)言模型可能會(huì)輸出錯(cuò)誤的或者不存在的事實(shí),這可能源于訓(xùn)練數(shù)據(jù)中的錯(cuò)誤或虛假信息,也可能是過(guò)度創(chuàng)造的副產(chǎn)物。因此,讓大模型在創(chuàng)造性和真實(shí)性之間做好平衡同樣是一個(gè)技術(shù)難題。
第二個(gè)風(fēng)險(xiǎn)模型:獎(jiǎng)勵(lì)作弊和錯(cuò)誤設(shè)定(Reward hacking & Misspecification)
獎(jiǎng)勵(lì)作弊和錯(cuò)誤設(shè)定問(wèn)題主要來(lái)源于經(jīng)驗(yàn)觀察。在強(qiáng)化學(xué)習(xí)中,AI的目標(biāo)是最大化最終得到的獎(jiǎng)勵(lì),但即使定義了一項(xiàng)正確的獎(jiǎng)勵(lì),其實(shí)現(xiàn)方式也可能不盡如人意。[5]例如,在一個(gè)以劃船競(jìng)速為主題的電子游戲中,人工智能系統(tǒng)的目標(biāo)是完成比賽,并通過(guò)撞擊對(duì)手船只來(lái)獲得分?jǐn)?shù)。但是它在其中找到了漏洞,發(fā)現(xiàn)可以通過(guò)無(wú)限撞擊相同目標(biāo)來(lái)獲取高分,由此利用漏洞達(dá)成了獲取獎(jiǎng)勵(lì)的目的。
此外,與之相關(guān)的還有情景感知(situational awareness)這一猜想性問(wèn)題。即AI是否知道其正處于測(cè)試環(huán)境,這種感知本身又是否會(huì)影響其表現(xiàn)?近期,OpenAI、紐約大學(xué)、牛津大學(xué)的研究人員發(fā)現(xiàn),大語(yǔ)言模型能夠感知自身所處的情景,為了通過(guò)測(cè)試會(huì)隱藏信息欺騙人類,而研究人員通過(guò)實(shí)驗(yàn)可以提前預(yù)知和觀察這種感知能力。[8]
第三個(gè)風(fēng)險(xiǎn)模型:權(quán)力尋求(power seeking)
權(quán)力尋求是指具備戰(zhàn)略感知能力的系統(tǒng)(不限于AGI)可能會(huì)采取行動(dòng),尋求擴(kuò)張自身對(duì)周邊環(huán)境的影響力。權(quán)力尋求問(wèn)題是一項(xiàng)假設(shè)的但是合理的問(wèn)題(hypothetical but reasonable questions),因?yàn)槟芰Α坝楷F(xiàn)”背后潛藏著失控風(fēng)險(xiǎn)。恰如Jacob Steinhardt在其文章中所提到的:“如果一個(gè)系統(tǒng)實(shí)現(xiàn)某個(gè)目標(biāo)需要考慮大量不同的可能政策方案,那么它就具有很強(qiáng)的優(yōu)化能力”。[9]圖靈獎(jiǎng)得主Geoffrey Hinton在演講中有提到,如果讓AI去最大化實(shí)現(xiàn)其目標(biāo),一個(gè)合適的子目標(biāo)可能就是尋求更多的影響力、說(shuō)服人類或拿到更多的金錢等,但這一過(guò)程是否安全,權(quán)力攫取到達(dá)什么程度需要被注意到,以及如果給予AI足夠大的政策空間是否會(huì)帶來(lái)人類無(wú)法接受的后果等一系列問(wèn)題都值得關(guān)注。
針對(duì)上述風(fēng)險(xiǎn)模型的具體解決方案,并非聚焦于如何訓(xùn)練更強(qiáng)大的模型,相反更強(qiáng)大的模型可能具有更大的風(fēng)險(xiǎn),因此我們應(yīng)考慮怎樣在不加劇風(fēng)險(xiǎn)的情況下嘗試解決問(wèn)題。以下介紹目前AI價(jià)值對(duì)齊社區(qū)比較關(guān)注的四個(gè)主要方向。
三是策略模型的問(wèn)題(Challenges with the Policy)。一方面,對(duì)策略模型(policy)而言,高效地優(yōu)化強(qiáng)化學(xué)習(xí)是一件困難的事情;輸入對(duì)抗樣本情況下,策略模型可能會(huì)被反向利用;預(yù)訓(xùn)練模型會(huì)給策略優(yōu)化帶來(lái)偏差;強(qiáng)化模型可能會(huì)出現(xiàn)模式坍縮(mode collapse)。這里更根本的問(wèn)題是即使在訓(xùn)練過(guò)程中看到的獎(jiǎng)勵(lì)完全正確,策略在部署過(guò)程中也可能表現(xiàn)不佳;而最佳強(qiáng)化學(xué)習(xí)代理則傾向于尋求權(quán)力(power seeking)。另一方面,當(dāng)我們考慮到獎(jiǎng)勵(lì)函數(shù)的學(xué)習(xí)后,在聯(lián)合訓(xùn)練(joint training)的同時(shí)優(yōu)化一個(gè)策略模型可能會(huì)帶來(lái)一系列問(wèn)題。例如這一過(guò)程可能會(huì)導(dǎo)致分布轉(zhuǎn)移;很難在效率和避免策略過(guò)度擬合之間取得平衡。這里更根本的問(wèn)題是優(yōu)化不完美的獎(jiǎng)勵(lì)代理會(huì)導(dǎo)致獎(jiǎng)勵(lì)作弊(reward hacking)。
總而言之,RLHF目前仍存在諸多問(wèn)題,值得世界各地學(xué)者進(jìn)一步展開研究。同時(shí)正是由于RLHF本身存在很多根本性問(wèn)題,單純依靠這一解決思路可能不足以解決AI價(jià)值對(duì)齊領(lǐng)域的所有問(wèn)題,我們還需要其他方向的研究來(lái)共同解決這一問(wèn)題。
(二)可擴(kuò)展監(jiān)督(Scalable oversight)
第二類解決思路為可擴(kuò)展監(jiān)督(scalable oversight),即如何監(jiān)督一個(gè)在特定領(lǐng)域表現(xiàn)超出人類的系統(tǒng)。人們要在AI所提供的看似具有說(shuō)服力的反饋中分辨出不真實(shí)的內(nèi)容需要花費(fèi)大量時(shí)間和精力,而可擴(kuò)展監(jiān)督即旨在降低成本,協(xié)助人類更好地監(jiān)督人工智能。[13]2018年P(guān)aul Christiano在播客中表示相較于開發(fā)可擴(kuò)展監(jiān)督技術(shù),AI系統(tǒng)所有者可能更傾向于通過(guò)設(shè)定容易評(píng)估的目標(biāo)來(lái)獲得更高的利潤(rùn),例如引導(dǎo)用戶點(diǎn)擊按鈕、吸引用戶長(zhǎng)久在網(wǎng)站停留等,但這一做法是否真的對(duì)人類社會(huì)有利則有待考量。[14]
今年5月份,一封由包括多倫多大學(xué)計(jì)算機(jī)科學(xué)榮譽(yù)教授Geoffrey Hinton、蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)教授Yoshua Bengio、Google DeepMind首席執(zhí)行官Demis Hassabis、OpenAl首席執(zhí)行官Sam Altman和Anthropic首席執(zhí)行官Dario Amodei等在內(nèi)的350多名高管、研究人員和工程師簽署的公開信引發(fā)熱議,信中表示人工智能對(duì)人類的風(fēng)險(xiǎn),與大規(guī)模流行性疾病和核戰(zhàn)爭(zhēng)相當(dāng)。
AI+Science 讀書會(huì)
AGI讀書會(huì)啟動(dòng)
為了深入探討 AGI 相關(guān)話題,集智俱樂(lè)部聯(lián)合集萃深度感知技術(shù)研究所所長(zhǎng)岳玉濤、麻省理工學(xué)院博士沈馬成、天普大學(xué)博士生徐博文,共同發(fā)起 AGI 讀書會(huì),涵蓋主題包括:智能的定義與度量、智能的原理、大語(yǔ)言模型與信息世界的智能、感知與具身智能、多視角下的人工智能、對(duì)齊技術(shù)與AGI安全性、AGI時(shí)代的未來(lái)社會(huì)。讀書會(huì)從2023年9月21日開始,每周四晚上 19:00-21:00,預(yù)計(jì)持續(xù)7-10周。歡迎感興趣的朋友報(bào)名參與!
詳情請(qǐng)見:
AGI 讀書會(huì)啟動(dòng):邁向通用人工智能的跨學(xué)科路徑
轉(zhuǎn)載請(qǐng)注明來(lái)自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《萬(wàn)字長(zhǎng)文詳解:大模型時(shí)代AI價(jià)值對(duì)齊的問(wèn)題、對(duì)策和展望》
還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...