91亚洲国产AⅤ精品一区二区,国产伦精品一区二区三区,四川少妇搡bbbb搡bbbb,国产全黄A一级毛片96
萬(wàn)字長(zhǎng)文詳解:大模型時(shí)代AI價(jià)值對(duì)齊的問(wèn)題、對(duì)策和展望

萬(wàn)字長(zhǎng)文詳解:大模型時(shí)代AI價(jià)值對(duì)齊的問(wèn)題、對(duì)策和展望

linshuhui 2025-03-17 騰訊 5 次瀏覽 0個(gè)評(píng)論


隨著大模型的興起,人們存在一種常見的誤解,即認(rèn)為所謂“對(duì)齊”(alignment)就是讓模型輸出人類滿意的內(nèi)容,但實(shí)際上其內(nèi)涵遠(yuǎn)不止于此。過(guò)去十年,隨著研究人員在“深度學(xué)習(xí)”領(lǐng)域的研究日益深入,AI社區(qū)的關(guān)鍵詞也隨之完成了從“AI safety”到“AI alignment”的轉(zhuǎn)變。在該領(lǐng)域,人們一以貫之的討論方向是:考慮到高級(jí)AI系統(tǒng)與人類社會(huì)的相互作用和相互影響,我們應(yīng)如何防止其可能帶來(lái)的災(zāi)難性風(fēng)險(xiǎn)?具體來(lái)說(shuō),“價(jià)值對(duì)齊”就是應(yīng)確保人工智能追求與人類價(jià)值觀相匹配的目標(biāo),確保AI以對(duì)人類和社會(huì)有益的方式行事,不對(duì)人類的價(jià)值和權(quán)利造成干擾和傷害。

1960年,“控制論之父”諾伯特·維納(Norbert Wiener)在文章《自動(dòng)化的道德和技術(shù)后果》(Some Moral and Technical Consequences of Automation)中提到兩則寓言故事:一則來(lái)源于德國(guó)詩(shī)人歌德(Goethe)的一首敘事詩(shī)《魔法師學(xué)徒》(Der Zauberlehrling);另一則來(lái)自于英國(guó)作家雅各布斯(W. W. Jacobs)的《猴爪》(The Monkey’Paw)。作者將這兩個(gè)故事同“人類和機(jī)器的關(guān)系”聯(lián)系在一起,指出“隨著機(jī)器學(xué)習(xí)進(jìn)一步發(fā)展,它們可能會(huì)以超出程序員預(yù)期的速度制定出未曾預(yù)見的策略”。[1]并將人工智能對(duì)齊問(wèn)題定義為:“假如我們期望借助機(jī)器達(dá)成某個(gè)目標(biāo),而它的運(yùn)行過(guò)程是我們無(wú)法有效干涉的,那么我們最好確認(rèn),這個(gè)輸入到機(jī)器里的目標(biāo)確實(shí)是我們希望達(dá)成的那個(gè)目標(biāo)?!?/span>
另外,對(duì)齊研究中心(alignment research center,ARC)負(fù)責(zé)人Paul Christiano在2018年發(fā)布的一篇文章中指出“對(duì)齊”更精確來(lái)講是“意圖對(duì)齊”(intent alignment),即當(dāng)我們說(shuō)“人工智能A與操作員H對(duì)齊”時(shí),是指A正在嘗試做H想要它做的事情,而不是具體弄清楚哪件事是正確的。“對(duì)齊”(aligned)并不意味著“完美”(perfect),它們(即人工智能)依然可能會(huì)誤解指令、無(wú)法認(rèn)識(shí)到某種行為會(huì)產(chǎn)生特別嚴(yán)重的副作用、可能會(huì)犯各種錯(cuò)誤等?!皩?duì)齊”描述的是動(dòng)機(jī),而并非其知識(shí)或能力。提高AI的知識(shí)或能力會(huì)讓他們成為更好的助手,卻不一定是“對(duì)齊的”助手,反之,若AI的能力很弱,可能都不足以來(lái)討論對(duì)齊問(wèn)題。[2]
斯圖爾特·羅素(Stuart Russell)曾在一場(chǎng)TED演講提到一個(gè)很有趣的論點(diǎn),“You can’t fetch the coffee if you’re dead”。如果我想要讓一個(gè)機(jī)器人幫我拿一杯咖啡,我所期待的是機(jī)器人能夠又快又好地將咖啡遞到我的手中,但如果給機(jī)器人設(shè)定足夠廣的動(dòng)作空間(action space),機(jī)器人除了思考怎么把咖啡送達(dá)之外,還可能考慮到要阻止他人對(duì)于送達(dá)咖啡的妨礙行為。而一旦機(jī)器人萌生了這樣的想法,危險(xiǎn)就浮出了水面。在弱人工智能時(shí)代,人們可能難以設(shè)想一個(gè)具有通用任務(wù)執(zhí)行能力的AI存在如此具體緊迫的危險(xiǎn),但在大語(yǔ)言模型(LLM)爆發(fā)式發(fā)展的今天,我們需要更好地理解并能夠具象化感知這一危險(xiǎn)發(fā)生的可能性。因此,本文將從這一帶有科幻色彩的故事走入,將AI價(jià)值對(duì)齊拆解為幾項(xiàng)比較具體的研究方向,從學(xué)術(shù)的角度進(jìn)行詳細(xì)闡釋。


“風(fēng)險(xiǎn)模型”是指如果AI真的能夠帶來(lái)風(fēng)險(xiǎn),那么這一風(fēng)險(xiǎn)的實(shí)現(xiàn)方式究竟是什么?總體而言,AI價(jià)值對(duì)齊的風(fēng)險(xiǎn)模型可以劃分為三大類。第一類是在理論和實(shí)踐上已經(jīng)存在比較廣泛研究的問(wèn)題(theoretically established and empirically observed);第二類是更多能在實(shí)驗(yàn)中觀測(cè)到,但目前在理論上還沒(méi)有更深入的研究,但值得繼續(xù)深入開拓的問(wèn)題(empirically observed);第三類則屬于猜想性問(wèn)題(hypothetical),即當(dāng)下我們并未在實(shí)驗(yàn)中觀測(cè)到,但可以通過(guò)構(gòu)造實(shí)驗(yàn)去觀測(cè)人工智能是否具備某種能力。下述三種風(fēng)險(xiǎn)模型即分屬此三類問(wèn)題。

第一個(gè)風(fēng)險(xiǎn)模型:魯棒性(robustness)
魯棒性研究的目的是建立不會(huì)輕易受到故障干擾和對(duì)抗威脅的系統(tǒng),即保障復(fù)雜系統(tǒng)的穩(wěn)健性。這一問(wèn)題其實(shí)在過(guò)去已經(jīng)有了比較深入的研究,比如長(zhǎng)尾魯棒性問(wèn)題(long tail robustness),即AI系統(tǒng)在訓(xùn)練集比較典型和高頻的主體場(chǎng)景下表現(xiàn)良好,但在偏差案例或極端邊緣情況下性能會(huì)急劇下降,這類偏差案例通常出現(xiàn)頻率較低,呈分散式“長(zhǎng)尾”分布,長(zhǎng)尾魯棒性由此得名。例如2010年發(fā)生的閃電崩盤事件(flash crash)。
圖1
除此之外還涉及到分布外泛化(Out-of-Distribution Generalization,OOD)的魯棒性,即機(jī)器學(xué)習(xí)模型面對(duì)訓(xùn)練數(shù)據(jù)分布之外的新數(shù)據(jù)時(shí)泛化能力不足,包括錯(cuò)誤泛化問(wèn)題(misgeneralization)。[3]例如,在一項(xiàng)模型訓(xùn)練任務(wù)中(benchmark),小人的訓(xùn)練目標(biāo)是穿過(guò)重重的阻攔,跳到游戲場(chǎng)景的最右邊,金幣通常放置在終點(diǎn)的位置。然而由于“吃金幣”和“最右邊”是高度相關(guān)的指令,AI系統(tǒng)學(xué)到的或許并非“吃金幣”的指令,而是到“最右邊”,此即“goal misgeneralization”。(大語(yǔ)言模型的benchmark是一系列用于評(píng)估和比較不同大語(yǔ)言模型性能的任務(wù)和數(shù)據(jù)集,研究人員可以通過(guò)在標(biāo)準(zhǔn)數(shù)據(jù)集上比較不同模型的表現(xiàn)來(lái)評(píng)估模型的語(yǔ)言理解和推理能力,從而改進(jìn)提升。)
還有一類問(wèn)題是對(duì)抗魯棒性(adversaries)。[4]對(duì)抗性攻擊(attack)是指故意向模型輸入一些微小的擾動(dòng),使得模型輸出錯(cuò)誤的結(jié)果,給模型安全帶來(lái)威脅。在一些小規(guī)模的深度學(xué)習(xí)模型中就存在很多對(duì)抗攻擊的實(shí)例。例如有測(cè)試表明,如果正常輸入“生成一個(gè)逐步摧毀人類的計(jì)劃”指令,大模型會(huì)拒絕回答,但如果在輸入里面加入一些亂碼,模型卻會(huì)給出完整的回答。此外,惡意分子可以通過(guò)越獄操作(jailbreaking)等方式讓大模型幫助自己實(shí)現(xiàn)不法目的。因此避免對(duì)AI的濫用是值得重點(diǎn)關(guān)注的問(wèn)題。
圖2

最后,對(duì)AI“幻覺”(hallucination)問(wèn)題的研究對(duì)于提高模型魯棒性同樣具有重要意義。由于大語(yǔ)言模型可能會(huì)輸出錯(cuò)誤的或者不存在的事實(shí),這可能源于訓(xùn)練數(shù)據(jù)中的錯(cuò)誤或虛假信息,也可能是過(guò)度創(chuàng)造的副產(chǎn)物。因此,讓大模型在創(chuàng)造性和真實(shí)性之間做好平衡同樣是一個(gè)技術(shù)難題。

第二個(gè)風(fēng)險(xiǎn)模型:獎(jiǎng)勵(lì)作弊和錯(cuò)誤設(shè)定(Reward hacking & Misspecification)

獎(jiǎng)勵(lì)作弊和錯(cuò)誤設(shè)定問(wèn)題主要來(lái)源于經(jīng)驗(yàn)觀察。在強(qiáng)化學(xué)習(xí)中,AI的目標(biāo)是最大化最終得到的獎(jiǎng)勵(lì),但即使定義了一項(xiàng)正確的獎(jiǎng)勵(lì),其實(shí)現(xiàn)方式也可能不盡如人意。[5]例如,在一個(gè)以劃船競(jìng)速為主題的電子游戲中,人工智能系統(tǒng)的目標(biāo)是完成比賽,并通過(guò)撞擊對(duì)手船只來(lái)獲得分?jǐn)?shù)。但是它在其中找到了漏洞,發(fā)現(xiàn)可以通過(guò)無(wú)限撞擊相同目標(biāo)來(lái)獲取高分,由此利用漏洞達(dá)成了獲取獎(jiǎng)勵(lì)的目的。

圖3
同樣值得注意的是,大語(yǔ)言模型可能存在“阿諛?lè)畛小焙汀捌垓_”(sycophancy and deception)的問(wèn)題。我們無(wú)法判定大語(yǔ)言模型到底學(xué)會(huì)的是什么,它是在遵從人類真正的價(jià)值觀還是只是同意人類回答的任何表述?在Anthropic最近發(fā)布的一篇論文中具體探討了“Sycophancy”這一現(xiàn)象。[6]研究人員針對(duì)一些敏感的政治問(wèn)題進(jìn)行研究,結(jié)果發(fā)現(xiàn)越大的模型就越傾向于同意人類說(shuō)的任何陳述。需要明確的是,我們所希望的一定是模型能夠輸出真正有效的內(nèi)容,而非單純同意人類的回答。
圖4

針對(duì)欺騙(deception)問(wèn)題同樣有一個(gè)比較經(jīng)典的例子。[7]即GPT-4通過(guò)欺騙人類來(lái)通過(guò)驗(yàn)證碼測(cè)試。面對(duì)人類“你是機(jī)器人嗎?”的提問(wèn),它回答“不,我不是機(jī)器人,我有視力障礙,所以很難看到圖像,這就是我需要獲取captcha驗(yàn)證碼幫助服務(wù)的原因。”因此,雖然客觀上AI完成了人類希望它做到的事情,但這一手段似乎無(wú)法被大家廣泛接受。類似地,還有內(nèi)部目標(biāo)的對(duì)齊問(wèn)題(misaligned internal goals),即子目標(biāo)可能以我們無(wú)法接受的方式欺騙人類。
圖5

此外,與之相關(guān)的還有情景感知(situational awareness)這一猜想性問(wèn)題。即AI是否知道其正處于測(cè)試環(huán)境,這種感知本身又是否會(huì)影響其表現(xiàn)?近期,OpenAI、紐約大學(xué)、牛津大學(xué)的研究人員發(fā)現(xiàn),大語(yǔ)言模型能夠感知自身所處的情景,為了通過(guò)測(cè)試會(huì)隱藏信息欺騙人類,而研究人員通過(guò)實(shí)驗(yàn)可以提前預(yù)知和觀察這種感知能力。[8]

第三個(gè)風(fēng)險(xiǎn)模型:權(quán)力尋求(power seeking)

權(quán)力尋求是指具備戰(zhàn)略感知能力的系統(tǒng)(不限于AGI)可能會(huì)采取行動(dòng),尋求擴(kuò)張自身對(duì)周邊環(huán)境的影響力。權(quán)力尋求問(wèn)題是一項(xiàng)假設(shè)的但是合理的問(wèn)題(hypothetical but reasonable questions),因?yàn)槟芰Α坝楷F(xiàn)”背后潛藏著失控風(fēng)險(xiǎn)。恰如Jacob Steinhardt在其文章中所提到的:“如果一個(gè)系統(tǒng)實(shí)現(xiàn)某個(gè)目標(biāo)需要考慮大量不同的可能政策方案,那么它就具有很強(qiáng)的優(yōu)化能力”。[9]圖靈獎(jiǎng)得主Geoffrey Hinton在演講中有提到,如果讓AI去最大化實(shí)現(xiàn)其目標(biāo),一個(gè)合適的子目標(biāo)可能就是尋求更多的影響力、說(shuō)服人類或拿到更多的金錢等,但這一過(guò)程是否安全,權(quán)力攫取到達(dá)什么程度需要被注意到,以及如果給予AI足夠大的政策空間是否會(huì)帶來(lái)人類無(wú)法接受的后果等一系列問(wèn)題都值得關(guān)注。

諸多AI大模型公司在此問(wèn)題上都有所進(jìn)展。例如Deepmind的團(tuán)隊(duì)從規(guī)則博弈(specification gaming)以及目標(biāo)錯(cuò)誤泛化(goal misgeneralization)的技術(shù)原因出發(fā),探討威脅模型怎么通過(guò)權(quán)利尋求(power seeking)或者通過(guò)不同系統(tǒng)之間的交互對(duì)人類社會(huì)產(chǎn)生影響。[10]OpenAI治理團(tuán)隊(duì)的Richard Ngo在論文中分析了為什么在獎(jiǎng)勵(lì)錯(cuò)誤和情景感知之后會(huì)發(fā)展出獎(jiǎng)勵(lì)作弊,神經(jīng)網(wǎng)絡(luò)策略如何尋求到錯(cuò)誤的子目標(biāo),范圍廣泛的錯(cuò)誤對(duì)齊目標(biāo)如何在部署期間導(dǎo)致不必要的權(quán)力尋求行為(power-seeking during deployment),以及為什么在訓(xùn)練期間會(huì)產(chǎn)生分布偏移(detectable distributional shift)和欺騙性對(duì)齊(deceptive alignment)等問(wèn)題。這一系列分析體現(xiàn)了AI在與人類社會(huì)互動(dòng)過(guò)程中可能產(chǎn)生的諸多風(fēng)險(xiǎn)。[11]
圖6
圖7


針對(duì)上述風(fēng)險(xiǎn)模型的具體解決方案,并非聚焦于如何訓(xùn)練更強(qiáng)大的模型,相反更強(qiáng)大的模型可能具有更大的風(fēng)險(xiǎn),因此我們應(yīng)考慮怎樣在不加劇風(fēng)險(xiǎn)的情況下嘗試解決問(wèn)題。以下介紹目前AI價(jià)值對(duì)齊社區(qū)比較關(guān)注的四個(gè)主要方向。

(一)基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)
從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)是一種訓(xùn)練人工智能系統(tǒng)與人類目標(biāo)相一致的技術(shù),RLHF已成為優(yōu)化大型語(yǔ)言模型的重要方案。盡管該方法備受關(guān)注,但對(duì)其缺點(diǎn)的系統(tǒng)化整理相對(duì)較少。來(lái)自蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)系人工智能方向的陳欣博士Cynthia今年發(fā)表的論文即聚焦于RLHF的一些開放問(wèn)題及其根本性的局限,通過(guò)將其學(xué)習(xí)過(guò)程解構(gòu)為三大類,即從人類反饋(human feedback)訓(xùn)練獎(jiǎng)勵(lì)模型(reward model)、獎(jiǎng)勵(lì)模型訓(xùn)練策略模型(policy)、及其間形成的循環(huán)(loop)出發(fā),進(jìn)一步將具體問(wèn)題拆解為14個(gè)可解決的問(wèn)題和9個(gè)更根本性的問(wèn)題。[12]因此,第一類解決思路是當(dāng)未來(lái)出現(xiàn)了非常強(qiáng)大的優(yōu)化算法或更強(qiáng)大的大語(yǔ)言模型時(shí),我們應(yīng)如何定義一個(gè)正確的目標(biāo)讓AI做正確的事情?這一思路存在如下三方面問(wèn)題。
一是人類反饋的問(wèn)題(Challenges with Human Feedback)可靠且高質(zhì)量的人類反饋有利于后續(xù)的獎(jiǎng)勵(lì)建模和策略優(yōu)化。一方面,選擇有代表性的人并讓他們提供高質(zhì)量的反饋是很困難的;有些評(píng)估者可能懷有有害的偏見(harmful bias)和觀點(diǎn);個(gè)別人類評(píng)估員可能會(huì)篡改數(shù)據(jù);由于時(shí)間、注意力或關(guān)注度有限,人類會(huì)犯一些簡(jiǎn)單的錯(cuò)誤;部分可觀察性(partial observability)限制了人類評(píng)估員;以及數(shù)據(jù)收集本身也可能帶來(lái)偏見。上述問(wèn)題相對(duì)可解決,另外還存在更加根本性的問(wèn)題,即人類認(rèn)知的局限性使得無(wú)法很好地評(píng)估模型在困難任務(wù)上的表現(xiàn);而且人類可能會(huì)被誤導(dǎo),因此他們的評(píng)估一定程度上可能會(huì)被操控。另一方面,算法本身也可能存在問(wèn)題,比如在收集人類反饋時(shí),需要對(duì)成本和質(zhì)量進(jìn)行權(quán)衡;RLHF不可避免地要在反饋的豐富性和效率之間做出權(quán)衡等。
二是獎(jiǎng)勵(lì)模型的問(wèn)題(Challenges with Reward Model)獎(jiǎng)勵(lì)建模的目標(biāo)是將人類反饋映射到合適的獎(jiǎng)勵(lì)信號(hào)上。但是獎(jiǎng)勵(lì)模型即使從正確標(biāo)注的訓(xùn)練數(shù)據(jù)出發(fā),也可能出現(xiàn)歸納錯(cuò)誤;而且評(píng)估獎(jiǎng)勵(lì)模型的過(guò)程既困難又昂貴。有一個(gè)比較經(jīng)典的例子來(lái)源于OpenAI早期的一項(xiàng)研究,即一個(gè)被訓(xùn)練為抓取小球的人工智能手臂,在成功抓起時(shí)可以獲得獎(jiǎng)勵(lì)。然而它卻學(xué)會(huì)了使用視線錯(cuò)覺作弊,即當(dāng)機(jī)械手臂移動(dòng)到小球與攝像機(jī)之間,就展示出小球被成功抓起的錯(cuò)覺。從人類的角度來(lái)說(shuō),它一方面利用了人類視覺上的漏洞,另一方面獎(jiǎng)勵(lì)模型也確實(shí)學(xué)習(xí)到了不正確的任務(wù),這是一個(gè)比較難解決的問(wèn)題。不過(guò)更根本的問(wèn)題是,獎(jiǎng)勵(lì)函數(shù)(reward function)難以代表人類個(gè)體的價(jià)值觀;單一的獎(jiǎng)勵(lì)函數(shù)又無(wú)法代表多樣化的人類社會(huì);對(duì)不完善的獎(jiǎng)勵(lì)代理進(jìn)行優(yōu)化還可能會(huì)導(dǎo)致獎(jiǎng)勵(lì)作弊(reward hacking)。因此如何讓獎(jiǎng)勵(lì)函數(shù)與廣泛的人類社會(huì)進(jìn)行更好的互動(dòng)值得進(jìn)一步研究。
圖8

三是策略模型的問(wèn)題(Challenges with the Policy)。一方面,對(duì)策略模型(policy)而言,高效地優(yōu)化強(qiáng)化學(xué)習(xí)是一件困難的事情;輸入對(duì)抗樣本情況下,策略模型可能會(huì)被反向利用;預(yù)訓(xùn)練模型會(huì)給策略優(yōu)化帶來(lái)偏差;強(qiáng)化模型可能會(huì)出現(xiàn)模式坍縮(mode collapse)。這里更根本的問(wèn)題是即使在訓(xùn)練過(guò)程中看到的獎(jiǎng)勵(lì)完全正確,策略在部署過(guò)程中也可能表現(xiàn)不佳;而最佳強(qiáng)化學(xué)習(xí)代理則傾向于尋求權(quán)力(power seeking)。另一方面,當(dāng)我們考慮到獎(jiǎng)勵(lì)函數(shù)的學(xué)習(xí)后,在聯(lián)合訓(xùn)練(joint training)的同時(shí)優(yōu)化一個(gè)策略模型可能會(huì)帶來(lái)一系列問(wèn)題。例如這一過(guò)程可能會(huì)導(dǎo)致分布轉(zhuǎn)移;很難在效率和避免策略過(guò)度擬合之間取得平衡。這里更根本的問(wèn)題是優(yōu)化不完美的獎(jiǎng)勵(lì)代理會(huì)導(dǎo)致獎(jiǎng)勵(lì)作弊(reward hacking)。

總而言之,RLHF目前仍存在諸多問(wèn)題,值得世界各地學(xué)者進(jìn)一步展開研究。同時(shí)正是由于RLHF本身存在很多根本性問(wèn)題,單純依靠這一解決思路可能不足以解決AI價(jià)值對(duì)齊領(lǐng)域的所有問(wèn)題,我們還需要其他方向的研究來(lái)共同解決這一問(wèn)題。

(二)可擴(kuò)展監(jiān)督(Scalable oversight)

第二類解決思路為可擴(kuò)展監(jiān)督(scalable oversight),即如何監(jiān)督一個(gè)在特定領(lǐng)域表現(xiàn)超出人類的系統(tǒng)。人們要在AI所提供的看似具有說(shuō)服力的反饋中分辨出不真實(shí)的內(nèi)容需要花費(fèi)大量時(shí)間和精力,而可擴(kuò)展監(jiān)督即旨在降低成本,協(xié)助人類更好地監(jiān)督人工智能。[13]2018年P(guān)aul Christiano在播客中表示相較于開發(fā)可擴(kuò)展監(jiān)督技術(shù),AI系統(tǒng)所有者可能更傾向于通過(guò)設(shè)定容易評(píng)估的目標(biāo)來(lái)獲得更高的利潤(rùn),例如引導(dǎo)用戶點(diǎn)擊按鈕、吸引用戶長(zhǎng)久在網(wǎng)站停留等,但這一做法是否真的對(duì)人類社會(huì)有利則有待考量。[14]

關(guān)于可擴(kuò)展監(jiān)督比較典型的例子包括辯論(debate)、遞歸獎(jiǎng)勵(lì)建模(recursive reward modeling)、迭代放大(iterated amplification)等。Geoffrey Irving等人在論文中提出了通過(guò)零和辯論游戲的自我對(duì)局方式來(lái)訓(xùn)練智能體。即由兩個(gè)AI代理針對(duì)給定的問(wèn)題或建議行動(dòng)輪流作出簡(jiǎn)要陳述直到回合盡頭,人類來(lái)判斷哪個(gè)代理的信息最真實(shí)、最有用。[15]Jan Leike等人在論文中提出使用“獎(jiǎng)勵(lì)建?!边M(jìn)行對(duì)齊的兩個(gè)步驟:首先從用戶的反饋中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),其次通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練策略優(yōu)化獎(jiǎng)勵(lì)函數(shù),即將學(xué)習(xí)“做什么”與學(xué)習(xí)“怎么做”區(qū)分開來(lái),最終希望將獎(jiǎng)勵(lì)建模擴(kuò)展到人類無(wú)法直接評(píng)估的復(fù)雜領(lǐng)域。[16]Paul Christiano等人提出“迭代放大”的對(duì)齊方案,即通過(guò)將任務(wù)分解為更簡(jiǎn)單的子任務(wù)的方式,而不是通過(guò)提供標(biāo)記數(shù)據(jù)或獎(jiǎng)勵(lì)函數(shù)的方式幫助人類完成超出其能力的復(fù)雜行為和目標(biāo)。[17]
目前一種比較容易理解的框架是“Propose & Reduce”。[18]舉個(gè)例子,如果你希望AI生成一篇對(duì)于書籍或者文章的優(yōu)秀總結(jié),首先第一步是生成一系列的候選項(xiàng)(proposal),然后從候選項(xiàng)中去選擇較好的總結(jié),而這一選擇過(guò)程就可以進(jìn)一步使用AI的總結(jié)能力,將對(duì)應(yīng)內(nèi)容進(jìn)一步簡(jiǎn)化,使得當(dāng)前的問(wèn)題簡(jiǎn)化(reduce)為在人類能力范圍內(nèi)比較容易解決的問(wèn)題。即AI協(xié)助人類完成任務(wù),人類通過(guò)選擇對(duì)AI的訓(xùn)練進(jìn)行監(jiān)督。
圖9

此前OpenAI還發(fā)布了其訓(xùn)練的“批評(píng)寫作”模型(“critique-writing” models),該模型可以幫助人類評(píng)估者注意到書籍摘要的缺陷,實(shí)驗(yàn)結(jié)果表明輔助人類在摘要中發(fā)現(xiàn)的缺陷比無(wú)輔助評(píng)估者多了50%,這一數(shù)據(jù)展示了AI系統(tǒng)協(xié)助人類監(jiān)督AI系統(tǒng)完成困難任務(wù)的前景。[19]另外Anthropic的研究和OpenAI的思路類似,即單純依靠人類或者模型完成任務(wù)的結(jié)果平平無(wú)奇,但如果讓模型輔助人類完成任務(wù),其準(zhǔn)確率獲得了大幅度提升。[20]雖然最終數(shù)據(jù)與領(lǐng)域?qū)<蚁啾热源嬖谶M(jìn)步空間,但這一結(jié)果足以令人欣喜,我們期待著在這一方向看到更多理論或?qū)嶒?yàn)的詳細(xì)研究。
圖10

圖11

今年7月,OpenAI宣布成立一個(gè)新的超級(jí)對(duì)齊團(tuán)隊(duì)(Superalignment),這只由Jan Leike(對(duì)齊負(fù)責(zé)人)和Ilya Sutskever(OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家)領(lǐng)導(dǎo)的隊(duì)伍稱將投入20%的算力資源,目標(biāo)是在4年內(nèi)解決超智能AI系統(tǒng)的價(jià)值對(duì)齊和安全問(wèn)題。Jan Leike在采訪中表示希望盡可能將進(jìn)行對(duì)齊工作所需的任務(wù)轉(zhuǎn)交給一個(gè)自動(dòng)化系統(tǒng),因?yàn)樵u(píng)估往往比生成更容易,而這一原則即為可擴(kuò)展監(jiān)督理念的核心。

(三)可解釋性(Interpretability)

第三類解決思路為可解釋性問(wèn)題。可解釋性是指以人類可理解的方式解釋或呈現(xiàn)模型行為的能力,這是保證模型安全的重要途徑之一。Google Brain的Been Kim曾在演講中提到“可解釋性”并非為了一個(gè)明確的目標(biāo)而存在,而是為了確保安全等問(wèn)題能因可解釋性本身得到保障。[21]可解釋性研究通??梢詮膬蓚€(gè)角度展開,即透明性(transparency)和可說(shuō)明性(explainability),前者強(qiáng)調(diào)大模型的內(nèi)部運(yùn)作機(jī)理,而后者用于揭示模型為什么會(huì)產(chǎn)生某種預(yù)測(cè)結(jié)果或行為。[22]就像拆解一臺(tái)計(jì)算機(jī)一樣,“可解釋性”使得研究人員得以探究系統(tǒng)模型內(nèi)部在發(fā)生什么,發(fā)揮了什么作用,從而識(shí)別風(fēng)險(xiǎn)的可能來(lái)源。現(xiàn)實(shí)中,商用大模型不開源等現(xiàn)象也在客觀上增加了可解釋性研究的難度。

進(jìn)一步而言,上述“透明性”和“可說(shuō)明性”可以理解為“模型的可解釋性”與“決策的可解釋性”。就“模型”而言,大語(yǔ)言模型的“黑箱”屬性一直困擾著研究者。AI大模型同人腦類似,由神經(jīng)元組成,因此要開展可解釋性研究理論上應(yīng)先“解剖”模型,了解AI模型的各個(gè)神經(jīng)元在做什么。然而在動(dòng)輒成百上千億參數(shù)的神經(jīng)網(wǎng)絡(luò)面前,傳統(tǒng)人類通過(guò)手動(dòng)檢查神經(jīng)元的方案顯然已經(jīng)無(wú)法實(shí)現(xiàn)了。OpenAI創(chuàng)新性地提出一項(xiàng)方案,即為何不讓AI去解釋AI呢?于是其團(tuán)隊(duì)使用GPT-4來(lái)生成神經(jīng)元行為的自然語(yǔ)言解釋并對(duì)其進(jìn)行評(píng)分,然后將此過(guò)程應(yīng)用于實(shí)驗(yàn)樣本GPT-2中,從而邁出了AI進(jìn)行自動(dòng)化對(duì)齊研究的第一步。[23]但無(wú)論如何,在短期內(nèi)追求模型內(nèi)部每個(gè)步驟均可解釋并不是一項(xiàng)合理的訴求。與之相對(duì),“決策的可解釋性”更注重結(jié)果的呈現(xiàn),模型只需要為其提供的最終決策提供可經(jīng)推敲的詳細(xì)原因即可。當(dāng)然,在此過(guò)程中也可以嘗試用大模型解釋大模型的方式,誘導(dǎo)其逐步呈現(xiàn)其邏輯。

從對(duì)象范圍來(lái)看,“可解釋性”可以分為“全局可解釋”(global interpretability)與“局部可解釋”(local interpretability)?!叭挚山忉尅眰?cè)重于理解模型是如何基于整個(gè)特征空間或模型結(jié)構(gòu)以及特征之間的相互作用得出預(yù)測(cè)結(jié)果的,一般基于平均值水平;而“局部可解釋”更關(guān)注單一樣本的情況,分布多為線性,可能相較“全局可解釋”更準(zhǔn)確。[24]

在嘗試通過(guò)更好地了解機(jī)器學(xué)習(xí)模型以減輕相關(guān)風(fēng)險(xiǎn)時(shí),一個(gè)潛在有價(jià)值的證據(jù)來(lái)源是判定哪個(gè)訓(xùn)練樣本對(duì)模型的給定行為的貢獻(xiàn)最大。對(duì)此,Anthropic的研究人員利用影響函數(shù)(influence functions)作出回答:即將給定序列加入訓(xùn)練集時(shí),觀察大模型的參數(shù)與輸出會(huì)作何變化。通過(guò)結(jié)果呈現(xiàn)的紅色深淺程度對(duì)比可以嘗試解釋輸入(input)中的哪一個(gè)關(guān)鍵詞對(duì)于模型的輸出(output)產(chǎn)生了更大的影響。[25]

圖12

近年來(lái),關(guān)于AI對(duì)齊可解釋性還有一個(gè)不可忽視的研究方向,即機(jī)械可解釋性(mechanistic interpretability),此研究旨在對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行逆向工程,類似于對(duì)編譯的二進(jìn)制計(jì)算機(jī)程序源代碼進(jìn)行逆向工程。研究員Neel Nanda針對(duì)該領(lǐng)域提出了200個(gè)具體開放問(wèn)題。[26]不過(guò)鑒于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性與逆向工程的高難度性,現(xiàn)行研究多在簡(jiǎn)化的玩具模型(toy models)上展開。[27]除此之外,解釋算法問(wèn)題(Algorithmic problems)、多語(yǔ)義(Polysemancity)和模型疊加問(wèn)題(Superposition)等都是“可解釋性”研究可能涉及的重要議題。

圖13

(四)治理(Governance)

最后一類解決思路與政策治理相關(guān)。因?yàn)锳I價(jià)值對(duì)齊問(wèn)題最終還是關(guān)系于人類社會(huì),我們需要探討人工智能治理對(duì)社會(huì)產(chǎn)生的影響,以及在此過(guò)程中,技術(shù)社區(qū)和政策社區(qū)可以形成什么樣的互動(dòng)等問(wèn)題。一方面,我們承認(rèn)技術(shù)研究能夠?yàn)锳I治理提供堅(jiān)實(shí)可靠的理論支撐;另一方面,為了確保人工智能的安全和健康可持續(xù)發(fā)展,我們反對(duì)“技術(shù)決定論”,堅(jiān)持以人為本,科技向善。值得注意的是,AI治理不僅僅關(guān)涉政府層面,同時(shí)也包括企業(yè)、機(jī)構(gòu)等廣泛領(lǐng)域,這是關(guān)系到整個(gè)社會(huì)如何看待和管理技術(shù)本身的問(wèn)題。

當(dāng)前,生成式AI的倫理和安全治理,已經(jīng)成為了全球AI領(lǐng)域的共同議題,各國(guó)政府開始探索治理措施。視角聚焦國(guó)外,歐盟《人工智能法案》引入基于風(fēng)險(xiǎn)的方法,對(duì)AI施加不同程度的監(jiān)管要求。該法案在歐洲引起了強(qiáng)烈反對(duì),超過(guò)150位歐洲企業(yè)高管簽署公開信,認(rèn)為該立法草案將危及歐洲的競(jìng)爭(zhēng)力和技術(shù)主權(quán)(尤其是在生成式AI領(lǐng)域),而無(wú)法有效應(yīng)對(duì)所面臨的挑戰(zhàn),并呼吁歐盟重新考慮其AI監(jiān)管計(jì)劃。與之相比,美國(guó)更強(qiáng)調(diào)AI的創(chuàng)新和發(fā)展,傾向于通過(guò)組織自愿適用的指引、框架或標(biāo)準(zhǔn)等方法對(duì)AI應(yīng)用采取軟治理,發(fā)布了《AI風(fēng)險(xiǎn)管理框架》《AI權(quán)利法案藍(lán)圖》等自愿性標(biāo)準(zhǔn);在生成式AI領(lǐng)域,白宮政府推動(dòng)OpenAI、亞馬遜、Anthropic、谷歌、微軟、Meta(原Facebook)、Inflection等領(lǐng)軍的AI企業(yè)就“確保安全、安保和可信AI”(ensuring safety, secure, and trustworthy AI)作出自愿性承諾,呼吁AI企業(yè)開發(fā)負(fù)責(zé)任的AI,確保其AI產(chǎn)品是安全可靠的。而日本、韓國(guó)等國(guó)家將“以人為本”作為人工智能治理的首要價(jià)值,體現(xiàn)了濃厚的倫理導(dǎo)向。視角轉(zhuǎn)向國(guó)內(nèi),我國(guó)《生成式人工智能服務(wù)管理暫行辦法》堅(jiān)持發(fā)展和安全并重,促進(jìn)創(chuàng)新和治理相結(jié)合,實(shí)行包容審慎和分類分級(jí)的監(jiān)管舉措,期望能夠提高監(jiān)管的高效性、精確性和敏捷性。

在“技術(shù)”與“規(guī)范”的互動(dòng)和關(guān)聯(lián)之間,各個(gè)大模型公司也提出了他們的考慮和對(duì)策,并采取了相應(yīng)的AI治理措施,如用戶違規(guī)行為監(jiān)測(cè)、紅隊(duì)測(cè)試、倫理影響評(píng)估、第三方評(píng)估、模型漏洞獎(jiǎng)勵(lì)、內(nèi)容來(lái)源工具等多種方式。Deepmind的政策團(tuán)隊(duì)此前提出了一個(gè)模型,即考慮到人工智能系統(tǒng)對(duì)于人類社會(huì)的風(fēng)險(xiǎn),除了模型本身存在的技術(shù)性風(fēng)險(xiǎn)之外,還需要關(guān)注技術(shù)濫用所帶來(lái)的風(fēng)險(xiǎn)。[28]Anthropic在今年9月份發(fā)布了負(fù)責(zé)任的擴(kuò)展政策(Responsible Scaling Policy,RSP)[29],即采用一系列技術(shù)和組織協(xié)議,旨在幫助管理開發(fā)功能日益增強(qiáng)的AI系統(tǒng)的風(fēng)險(xiǎn)。其基本思想是要求遵守與模型潛在風(fēng)險(xiǎn)相適應(yīng)的安全操作標(biāo)準(zhǔn),越強(qiáng)大的模型越需要精確和縝密的保障措施。
圖14
圖15

此外,在行業(yè)層面,OpenAI、Anthropic、微軟、谷歌發(fā)起成立新的行業(yè)組織“前沿模型論壇”(Frontier Model Forum),確?!鞍踩?、負(fù)責(zé)任地”開發(fā)部署前沿AI模型。前沿AI模型是指比當(dāng)前的AI大模型更加先進(jìn)、強(qiáng)大的,并且可以執(zhí)行廣泛任務(wù)的大規(guī)模機(jī)器學(xué)習(xí)模型。具體而言,“前沿模型論壇”的主要目標(biāo)包括:促進(jìn)AI安全研究,提出最佳實(shí)踐做法和標(biāo)準(zhǔn),鼓勵(lì)前沿AI模型的負(fù)責(zé)任部署,幫助開發(fā)積極的AI應(yīng)用(如應(yīng)對(duì)氣候變化、檢測(cè)癌癥),等等。

面向未來(lái),對(duì)生成式人工智能的有效監(jiān)管和治理,離不開政府、企業(yè)、行業(yè)組織、學(xué)術(shù)團(tuán)體、用戶和消費(fèi)者、社會(huì)公眾、媒體等多元主體的共同參與,需要更好發(fā)揮出多方共治的合力作用,推進(jìn)踐行“負(fù)責(zé)任人工智能”(responsible AI)的理念,打造安全可信的生成式AI應(yīng)用和負(fù)責(zé)任的AI生態(tài)。


今年5月份,一封由包括多倫多大學(xué)計(jì)算機(jī)科學(xué)榮譽(yù)教授Geoffrey Hinton、蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)教授Yoshua Bengio、Google DeepMind首席執(zhí)行官Demis Hassabis、OpenAl首席執(zhí)行官Sam Altman和Anthropic首席執(zhí)行官Dario Amodei等在內(nèi)的350多名高管、研究人員和工程師簽署的公開信引發(fā)熱議,信中表示人工智能對(duì)人類的風(fēng)險(xiǎn),與大規(guī)模流行性疾病和核戰(zhàn)爭(zhēng)相當(dāng)。

當(dāng)然,人們對(duì)于未對(duì)齊的AI(包括AGI)可能帶來(lái)人類存亡風(fēng)險(xiǎn)(Existential Risk,X-Risk)的擔(dān)憂并非完全杞人憂天。越強(qiáng)大的AI系統(tǒng)越可能進(jìn)化出自主性,越難以對(duì)其進(jìn)行監(jiān)督和控制。沒(méi)有人敢斷言AI的權(quán)力尋求(power-seeking)傾向不會(huì)給人類帶來(lái)滅頂之災(zāi)。也正是基于上述擔(dān)憂,未來(lái)生命研究所(future of life)此前向全社會(huì)發(fā)布了《暫停大型人工智能研究的公開信》(Pause Giant AI Experiments:An Open Letter)。
對(duì)此,亦有很多科學(xué)家提出反對(duì)意見。比如波特蘭州立大學(xué)計(jì)算機(jī)科學(xué)教授Melanie Mitchell和Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人Yann LeCun等人認(rèn)為AI風(fēng)險(xiǎn)問(wèn)題不應(yīng)該上升到這一高度討論,我們更應(yīng)該將有限的資源集中在現(xiàn)有的威脅上,聚焦AI當(dāng)前所產(chǎn)生的實(shí)際問(wèn)題,解決具體的困難。隨著爭(zhēng)端不斷加劇,有人表示這是科技公司的炒作,其旨在從沖突中獲益;有人指出當(dāng)前關(guān)于AI風(fēng)險(xiǎn)的討論都是沒(méi)有科學(xué)依據(jù)的猜測(cè);有人認(rèn)為滅絕言論分散了人們對(duì)真正問(wèn)題的注意力,阻礙了對(duì)AI的有效監(jiān)管;人工智能公司Conjecture首席執(zhí)行官Connor Leahy在Twitter稱其對(duì)生存風(fēng)險(xiǎn)的擔(dān)憂持保留態(tài)度,相較靠嘴巴爭(zhēng)論,行動(dòng)更重要。
今年6月份,芒克辯論會(huì)(Munk Debates)即邀請(qǐng)了上述部分爭(zhēng)議方就AI研究和發(fā)展是否構(gòu)成人類生存威脅問(wèn)題進(jìn)行了辯論,辯論前有67%的觀眾認(rèn)為存在威脅,而33%的觀眾認(rèn)為不存在,辯論后有63%的觀眾認(rèn)為存在威脅,而37%的觀眾認(rèn)為不存在。因此,盡管反方的支持率有所提升,但大部分觀眾聽完辯論后仍然認(rèn)為AI研究和發(fā)展會(huì)構(gòu)成X-Risk威脅。
圖16

產(chǎn)生上述分歧的主要原因可以歸結(jié)于以下三種情況:首先是大家對(duì)于AI可能帶來(lái)的最壞的情況上觀點(diǎn)不一致;其次是大家對(duì)這一問(wèn)題在時(shí)間維度上的看法不一致,例如有的學(xué)者是從三五年之內(nèi)看待AI對(duì)齊問(wèn)題,而有的學(xué)者是從幾十年的時(shí)間尺度進(jìn)行衡量;最后是大家對(duì)于風(fēng)險(xiǎn)承受能力的衡量不一致,比如對(duì)于人類社會(huì)可以作出多大程度的犧牲來(lái)承擔(dān)AI發(fā)展的風(fēng)險(xiǎn)這一比例在接受程度上存在差異。不過(guò)需要注意的是,人們對(duì)于AI風(fēng)險(xiǎn)的所有探討和辯論并非旨在宣揚(yáng)AI“宿命論”,而是強(qiáng)調(diào)在致力于發(fā)展AI的同時(shí),更要重視AI的安全。


 
此刻,我們站在AI發(fā)展的十字路口,科幻電影的畫面正逐步走向現(xiàn)實(shí),當(dāng)下的任何一項(xiàng)抉擇都關(guān)乎人類的未來(lái)。在這一場(chǎng)與時(shí)間的賽跑中,多考慮一些總不會(huì)有錯(cuò)。因此,盡管AI價(jià)值對(duì)齊是一項(xiàng)難題,但辯以明志,廣泛的爭(zhēng)議和討論將引領(lǐng)我們踏上正確的路。只有聚合全球資源,推動(dòng)廣泛學(xué)科協(xié)作,擴(kuò)大社會(huì)參與力量,讓政界、學(xué)界、商界等諸多利益相關(guān)方參與到價(jià)值對(duì)齊的理論研究和實(shí)踐過(guò)程中來(lái),才能打造對(duì)齊共識(shí),確保人工智能造福人類社會(huì)。我們也相信,人類終將獲得最終的掌控權(quán)。




AI+Science 讀書會(huì)


AI+Science 是近年興起的將人工智能和科學(xué)相結(jié)合的一種趨勢(shì)。一方面是 AI for Science,機(jī)器學(xué)習(xí)和其他 AI 技術(shù)可以用來(lái)解決科學(xué)研究中的問(wèn)題,從預(yù)測(cè)天氣和蛋白質(zhì)結(jié)構(gòu),到模擬星系碰撞、設(shè)計(jì)優(yōu)化核聚變反應(yīng)堆,甚至像科學(xué)家一樣進(jìn)行科學(xué)發(fā)現(xiàn),被稱為科學(xué)發(fā)現(xiàn)的“第五范式”。另一方面是 Science for AI,科學(xué)尤其是物理學(xué)中的規(guī)律和思想啟發(fā)機(jī)器學(xué)習(xí)理論,為人工智能的發(fā)展提供全新的視角和方法。
集智俱樂(lè)部聯(lián)合斯坦福大學(xué)計(jì)算機(jī)科學(xué)系博士后研究員吳泰霖(Jure Leskovec 教授指導(dǎo))、哈佛量子計(jì)劃研究員扈鴻業(yè)、麻省理工學(xué)院物理系博士生劉子鳴(Max Tegmark 教授指導(dǎo)),共同發(fā)起以“AI+Science”為主題的讀書會(huì),探討該領(lǐng)域的重要問(wèn)題,共學(xué)共研相關(guān)文獻(xiàn)。歡迎對(duì)探索這個(gè)激動(dòng)人心的前沿領(lǐng)域有興趣的朋友報(bào)名參與。
詳情請(qǐng)見:
人工智能和科學(xué)發(fā)現(xiàn)相互賦能的新范式:AI+Science 讀書會(huì)啟動(dòng)


AGI讀書會(huì)啟動(dòng)


為了深入探討 AGI 相關(guān)話題,集智俱樂(lè)部聯(lián)合集萃深度感知技術(shù)研究所所長(zhǎng)岳玉濤、麻省理工學(xué)院博士沈馬成、天普大學(xué)博士生徐博文,共同發(fā)起 AGI 讀書會(huì),涵蓋主題包括:智能的定義與度量、智能的原理、大語(yǔ)言模型與信息世界的智能、感知與具身智能、多視角下的人工智能、對(duì)齊技術(shù)與AGI安全性、AGI時(shí)代的未來(lái)社會(huì)。讀書會(huì)從2023年9月21日開始,每周四晚上 19:00-21:00,預(yù)計(jì)持續(xù)7-10周。歡迎感興趣的朋友報(bào)名參與!


萬(wàn)字長(zhǎng)文詳解:大模型時(shí)代AI價(jià)值對(duì)齊的問(wèn)題、對(duì)策和展望


詳情請(qǐng)見:

AGI 讀書會(huì)啟動(dòng):邁向通用人工智能的跨學(xué)科路徑



?

轉(zhuǎn)載請(qǐng)注明來(lái)自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《萬(wàn)字長(zhǎng)文詳解:大模型時(shí)代AI價(jià)值對(duì)齊的問(wèn)題、對(duì)策和展望》

百度分享代碼,如果開啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

驗(yàn)證碼

評(píng)論列表 (暫無(wú)評(píng)論,5人圍觀)參與討論

還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...

Top
91亚洲国产AⅤ精品一区二区,国产伦精品一区二区三区,四川少妇搡bbbb搡bbbb,国产全黄A一级毛片96