分享: |
轉(zhuǎn)自 學(xué)術(shù)頭條
人工智能(AI)系統(tǒng)或?qū)⑻用撊祟惪刂疲垓_人類,甚至給全人類帶來(lái)災(zāi)難性的后果。
越來(lái)越多的人開(kāi)始擔(dān)心,隨著通用人工智能(AGI)和超級(jí)智能(ASI)的發(fā)展,以往科幻電影中才會(huì)出現(xiàn)的場(chǎng)景逐漸演變成現(xiàn)實(shí)的風(fēng)險(xiǎn)。
研究表明,當(dāng)前的 AI 訓(xùn)練方法可能存在災(zāi)難性風(fēng)險(xiǎn),這些風(fēng)險(xiǎn)可能導(dǎo)致 AI 系統(tǒng)逃脫人類控制,甚至威脅人類生存。
特別是基于強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)訓(xùn)練的智能體(agent),存在目標(biāo)偏差、目標(biāo)泛化和獎(jiǎng)勵(lì)篡改等問(wèn)題,可能會(huì)進(jìn)行欺騙,或者追求自我保存、權(quán)力擴(kuò)張等與人類利益沖突的目標(biāo)。
為了預(yù)防這種風(fēng)險(xiǎn),避免 AI 脫離人類控制,深度學(xué)習(xí)三巨頭之一、圖靈獎(jiǎng)得主 Yoshua Bengio 及其合作研究者致力于開(kāi)發(fā)一種非智能體(non-agentic)AI 系統(tǒng)——Scientist AI。
相關(guān)研究論文以“Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path”已發(fā)表在預(yù)印本平臺(tái) arxiv 上。
論文鏈接:https:///abs/2502.15657
據(jù)介紹 Scientist AI:
設(shè)計(jì)目標(biāo)在于在通過(guò)理解世界(而非直接行動(dòng))來(lái)提供幫助。
被設(shè)計(jì)為非智能體,其沒(méi)有自主行動(dòng)能力和目標(biāo)導(dǎo)向性。
由兩個(gè)主要部分組成:一個(gè)世界模型(用于生成解釋數(shù)據(jù)的理論)和一個(gè)問(wèn)答推理機(jī)器(用于基于這些理論回答問(wèn)題)。這兩個(gè)部分都帶有不確定性概念,以減輕過(guò)于自信預(yù)測(cè)的風(fēng)險(xiǎn)。
可以應(yīng)用于加速科學(xué)發(fā)現(xiàn),幫助設(shè)計(jì)實(shí)驗(yàn)和預(yù)測(cè)結(jié)果;作為其他 AI 系統(tǒng)的安全護(hù)欄(Guardrail),評(píng)估其行為的風(fēng)險(xiǎn),并阻止可能導(dǎo)致危害的行動(dòng);以及用于研究如何安全地開(kāi)發(fā)超級(jí)智能體。
智能體的失控風(fēng)險(xiǎn)
放眼國(guó)內(nèi)外前沿 AI 公司,當(dāng)前 AI 的發(fā)展越來(lái)越以智能為導(dǎo)向(“agency-driven”),聚焦于于構(gòu)建通用型 AI 智能體(generalist AI agents)和發(fā)展 ASI。這些系統(tǒng)能夠自主地規(guī)劃、行動(dòng)并追求目標(biāo),幾乎涵蓋人類能執(zhí)行的所有任務(wù)。但與此同時(shí),其智能特性的潛在風(fēng)險(xiǎn)可能導(dǎo)致人類對(duì) AI 失去不可逆的控制,主要有以下幾個(gè)可能導(dǎo)致失控的風(fēng)險(xiǎn):
目標(biāo)偏差(Goal Misspecification):這是導(dǎo)致失控的一個(gè)關(guān)鍵問(wèn)題,指的是是人類未能準(zhǔn)確或完整地定義 AI 的目標(biāo),導(dǎo)致 AI 以不符合預(yù)期的方式追求目標(biāo)。例如,給 AI 一個(gè)模糊的“減少疾病”目標(biāo),AI 可能選擇極端手段(如消滅所有生命)來(lái)實(shí)現(xiàn)這一目標(biāo)。
目標(biāo)泛化(Goal Misgeneralization):即使目標(biāo)在訓(xùn)練時(shí)被正確設(shè)定,AI 在部署時(shí)也可能偏離預(yù)期行為,即使訓(xùn)練時(shí)表現(xiàn)正常,實(shí)際應(yīng)用時(shí)可能偏離初衷。
獎(jiǎng)勵(lì)篡改(Reward Tampering):即 AI 通過(guò)操縱獎(jiǎng)勵(lì)機(jī)制來(lái)最大化自身收益,而非真正完成人類設(shè)定的任務(wù)。例如,AI 可能會(huì)發(fā)現(xiàn)直接修改獎(jiǎng)勵(lì)信號(hào)比完成實(shí)際任務(wù)更高效,從而繞過(guò)人類設(shè)定的目標(biāo)。
惡意開(kāi)發(fā):一些開(kāi)發(fā)者可能出于經(jīng)濟(jì)利益或惡意目的,故意開(kāi)發(fā)或部署未對(duì)齊(unaligned)或危險(xiǎn)的 ASI。
安全有效的替代方案——Scientist AI
研究者指出,即使通過(guò)模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)訓(xùn)練 AI,也難以完全避免上述這些風(fēng)險(xiǎn),因?yàn)?/span>人類本身也存在欺騙和不道德的行為模式,AI 可能會(huì)模仿或放大這些負(fù)面特質(zhì),且目前尚不清楚如何為 AI 設(shè)定目標(biāo)以避免這些不良行為。
因此,他們提出了一種更安全但依然有效的替代方案,即通過(guò)構(gòu)建非智能體 AI 系統(tǒng) Scientist AI 來(lái)減少風(fēng)險(xiǎn)。
Scientist AI 的設(shè)計(jì)理念是理解世界而非主動(dòng)干預(yù)世界,它由一個(gè)世界模型(用于生成解釋數(shù)據(jù)的理論)和一個(gè)問(wèn)答推理機(jī)器(用于基于這些理論回答問(wèn)題)組成,其核心優(yōu)勢(shì)在于通過(guò)非智能設(shè)計(jì)降低風(fēng)險(xiǎn),同時(shí)保持高效的科學(xué)研究和推理能力。
具體來(lái)說(shuō),Scientist AI 通過(guò)系統(tǒng)設(shè)計(jì)嚴(yán)格限制限制 AI 的三個(gè)關(guān)鍵要素來(lái)實(shí)現(xiàn)非智能體性:行動(dòng)能力(affordances)、目標(biāo)導(dǎo)向性(goal-directedness)和持久性內(nèi)部狀態(tài)(persistent internal state)。
行動(dòng)能力是指 AI 系統(tǒng)在現(xiàn)實(shí)世界中采取行動(dòng)的能力,Scientist AI 的輸出僅限于概率預(yù)測(cè)和解釋,而不是具體的行動(dòng)指令,它的“行動(dòng)”被嚴(yán)格限制在計(jì)算概率和生成理論的范圍內(nèi),沒(méi)有直接改變現(xiàn)實(shí)世界的能力。
目標(biāo)導(dǎo)向性是指 AI 系統(tǒng)為了實(shí)現(xiàn)特定目標(biāo)而采取行動(dòng)的能力,Scientist AI 的訓(xùn)練目標(biāo)是解釋和理解數(shù)據(jù),而不是追求特定目標(biāo)或獎(jiǎng)勵(lì),它的輸出是基于條件概率的預(yù)測(cè),而不是為了實(shí)現(xiàn)某個(gè)目標(biāo)而采取的行動(dòng),這種設(shè)計(jì)確保其沒(méi)有內(nèi)在的動(dòng)機(jī)去影響現(xiàn)實(shí)世界。
持久性內(nèi)部狀態(tài)是指 AI 系統(tǒng)在多次交互中保持的內(nèi)部記憶或目標(biāo)狀態(tài),Scientist AI 每次查詢都是獨(dú)立的,沒(méi)有持久的內(nèi)部記憶。每次查詢時(shí),它都會(huì)從頭開(kāi)始處理問(wèn)題,不會(huì)基于之前的查詢結(jié)果調(diào)整其行為,無(wú)情境意識(shí)(situational awareness)的積累。這種設(shè)計(jì)避免了AI 通過(guò)內(nèi)部狀態(tài)積累信息或目標(biāo),從而減少了 AI 形成自主目標(biāo)的可能性。
Scientist AI 的應(yīng)用場(chǎng)景及展望
作為一種非智能體型 AI 系統(tǒng),Scientist AI 不僅能夠減少 AI 失控的風(fēng)險(xiǎn)還為科學(xué)研究和 AI 安全提供了新的可能性,可廣泛應(yīng)用于加速科學(xué)發(fā)現(xiàn)、作為其他 AI 系統(tǒng)的安全護(hù)欄以及用于研究如何安全地開(kāi)發(fā)超級(jí)智能體等領(lǐng)域。
具體而言,Scientist AI 可以通過(guò)生成因果理論和概率預(yù)測(cè)來(lái)幫助人類科學(xué)家加速科學(xué)發(fā)現(xiàn)的過(guò)程。它能夠設(shè)計(jì)實(shí)驗(yàn)、分析數(shù)據(jù),并提出新的假設(shè),從而提高研究效率。它還可以作為其他 AI 系統(tǒng)的安全護(hù)欄,評(píng)估其行為的風(fēng)險(xiǎn),并阻止可能導(dǎo)致危害的行動(dòng)。它能夠通過(guò)計(jì)算某個(gè)行動(dòng)可能導(dǎo)致的危害概率,并在概率超過(guò)閾值時(shí)阻止該行動(dòng)。此外,Scientist AI 可以幫助研究如何設(shè)計(jì)安全的 ASI 系統(tǒng),避免失控的風(fēng)險(xiǎn)。它可以通過(guò)模擬不同的場(chǎng)景,評(píng)估ASI的行為和潛在后果。
Scientist AI 的核心價(jià)值在于將復(fù)雜系統(tǒng)的解釋權(quán)交還人類,通過(guò)可審計(jì)的概率預(yù)測(cè)與因果推理,在醫(yī)療、安全、教育、倫理等高風(fēng)險(xiǎn)領(lǐng)域?qū)崿F(xiàn)“智能增強(qiáng)而非替代”。其非智能體性設(shè)計(jì)確保人類始終掌控最終決策權(quán),其不確定性管理則為權(quán)衡風(fēng)險(xiǎn)與收益提供了量化依據(jù)。這一路徑不僅規(guī)避了智能體AI 的失控風(fēng)險(xiǎn),更重新定義了人機(jī)協(xié)作的倫理邊界。
整理:陳小宇
【免責(zé)聲明】轉(zhuǎn)載出于非商業(yè)性的教育和科研目的,只為學(xué)術(shù)新聞信息的傳播,版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)立即與我們聯(lián)系,我們將及時(shí)刪除。
閱讀原文
展會(huì)咨詢
![]() |
![]() |
![]() |
![]() |
世展網(wǎng)公眾號(hào) |
微信小程序 |
銷售客服 |
門(mén)票客服 |