世展網(wǎng)Shifair.com-為您提供全球國(guó)際展會(huì)信息服務(wù)

當(dāng)前位置:
>
首頁(yè)
>
展會(huì)資訊
>
AI人工智能行業(yè)
>
觀點(diǎn)分享丨放棄agent，圖靈獎(jiǎng)得主Yoshua Bengio提出Scientist AI：避免人類生存威脅

AI人工智能行業(yè)資訊更多

演講實(shí)錄丨劉新旺教授：基于大模型的圖學(xué)習(xí)

2025-02-27 17:17

熱點(diǎn)關(guān)注丨新思想引領(lǐng)新征程人工智能創(chuàng)新加速我國(guó)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)

2025-02-27 17:17

學(xué)習(xí)時(shí)間丨更加廣泛地凝聚人心、凝聚共識(shí)、凝聚智慧、凝聚力量

2025-01-26 18:31

熱點(diǎn)關(guān)注丨剛剛，OpenAI正式放出智能體Operator！能推理、聯(lián)網(wǎng)自主執(zhí)行任務(wù)

2025-01-24 17:10

AI研習(xí)丨智能音樂(lè)生成技術(shù)與元宇宙

2025-01-24 17:10

前沿分享丨2024年中國(guó)和世界“雙十大”科技新聞揭曉

2025-01-24 17:10

演講實(shí)錄丨強(qiáng)化學(xué)習(xí)之父 Rich Sutton ：用「去中心化神經(jīng)網(wǎng)絡(luò)」應(yīng)對(duì)深度學(xué)習(xí)局限性

2025-01-23 17:08

前沿分享丨全球科技創(chuàng)新十大趨勢(shì)發(fā)布

2025-01-23 17:08

觀點(diǎn)分享丨李飛飛：語(yǔ)言之外，另一半的智能還有待實(shí)現(xiàn)

2025-01-22 19:02

學(xué)會(huì)通知丨中國(guó)人工智能學(xué)會(huì)關(guān)于征集2024年度科技志愿服務(wù)先進(jìn)典型的通知

2025-01-22 19:02

觀點(diǎn)分享丨放棄agent，圖靈獎(jiǎng)得主Yoshua Bengio提出Scientist AI：避免人類生存威脅

來(lái)源：世展網(wǎng) 分類：AI人工智能行業(yè)資訊 2025-02-27 17:17 閱讀：*****

2025年中國(guó)國(guó)際供應(yīng)鏈促進(jìn)博覽會(huì)-北京鏈博會(huì)CISCE

2025-07-16-07-20

距離14天

轉(zhuǎn)自學(xué)術(shù)頭條

人工智能（AI）系統(tǒng)或?qū)⑻用撊祟惪刂疲垓_人類，甚至給全人類帶來(lái)災(zāi)難性的后果。

越來(lái)越多的人開(kāi)始擔(dān)心，隨著通用人工智能（AGI）和超級(jí)智能（ASI）的發(fā)展，以往科幻電影中才會(huì)出現(xiàn)的場(chǎng)景逐漸演變成現(xiàn)實(shí)的風(fēng)險(xiǎn)。

研究表明，當(dāng)前的 AI 訓(xùn)練方法可能存在災(zāi)難性風(fēng)險(xiǎn)，這些風(fēng)險(xiǎn)可能導(dǎo)致 AI 系統(tǒng)逃脫人類控制，甚至威脅人類生存。

特別是基于強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)訓(xùn)練的智能體（agent)，存在目標(biāo)偏差、目標(biāo)泛化和獎(jiǎng)勵(lì)篡改等問(wèn)題，可能會(huì)進(jìn)行欺騙，或者追求自我保存、權(quán)力擴(kuò)張等與人類利益沖突的目標(biāo)。

為了預(yù)防這種風(fēng)險(xiǎn)，避免 AI 脫離人類控制，深度學(xué)習(xí)三巨頭之一、圖靈獎(jiǎng)得主 Yoshua Bengio 及其合作研究者致力于開(kāi)發(fā)一種非智能體（non-agentic）AI 系統(tǒng)——Scientist AI。

相關(guān)研究論文以“Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path”已發(fā)表在預(yù)印本平臺(tái) arxiv 上。

論文鏈接：https:///abs/2502.15657

據(jù)介紹 Scientist AI：

設(shè)計(jì)目標(biāo)在于在通過(guò)理解世界（而非直接行動(dòng)）來(lái)提供幫助。
被設(shè)計(jì)為非智能體，其沒(méi)有自主行動(dòng)能力和目標(biāo)導(dǎo)向性。
由兩個(gè)主要部分組成：一個(gè)世界模型（用于生成解釋數(shù)據(jù)的理論）和一個(gè)問(wèn)答推理機(jī)器（用于基于這些理論回答問(wèn)題）。這兩個(gè)部分都帶有不確定性概念，以減輕過(guò)于自信預(yù)測(cè)的風(fēng)險(xiǎn)。
可以應(yīng)用于加速科學(xué)發(fā)現(xiàn)，幫助設(shè)計(jì)實(shí)驗(yàn)和預(yù)測(cè)結(jié)果；作為其他 AI 系統(tǒng)的安全護(hù)欄（Guardrail），評(píng)估其行為的風(fēng)險(xiǎn)，并阻止可能導(dǎo)致危害的行動(dòng)；以及用于研究如何安全地開(kāi)發(fā)超級(jí)智能體。

智能體的失控風(fēng)險(xiǎn)

放眼國(guó)內(nèi)外前沿 AI 公司，當(dāng)前 AI 的發(fā)展越來(lái)越以智能為導(dǎo)向（“agency-driven”），聚焦于于構(gòu)建通用型 AI 智能體（generalist AI agents）和發(fā)展 ASI。這些系統(tǒng)能夠自主地規(guī)劃、行動(dòng)并追求目標(biāo)，幾乎涵蓋人類能執(zhí)行的所有任務(wù)。但與此同時(shí)，其智能特性的潛在風(fēng)險(xiǎn)可能導(dǎo)致人類對(duì) AI 失去不可逆的控制，主要有以下幾個(gè)可能導(dǎo)致失控的風(fēng)險(xiǎn)：

目標(biāo)偏差（Goal Misspecification）：這是導(dǎo)致失控的一個(gè)關(guān)鍵問(wèn)題，指的是是人類未能準(zhǔn)確或完整地定義 AI 的目標(biāo)，導(dǎo)致 AI 以不符合預(yù)期的方式追求目標(biāo)。例如，給 AI 一個(gè)模糊的“減少疾病”目標(biāo)，AI 可能選擇極端手段（如消滅所有生命）來(lái)實(shí)現(xiàn)這一目標(biāo)。

目標(biāo)泛化（Goal Misgeneralization）：即使目標(biāo)在訓(xùn)練時(shí)被正確設(shè)定，AI 在部署時(shí)也可能偏離預(yù)期行為，即使訓(xùn)練時(shí)表現(xiàn)正常，實(shí)際應(yīng)用時(shí)可能偏離初衷。

獎(jiǎng)勵(lì)篡改（Reward Tampering）：即 AI 通過(guò)操縱獎(jiǎng)勵(lì)機(jī)制來(lái)最大化自身收益，而非真正完成人類設(shè)定的任務(wù)。例如，AI 可能會(huì)發(fā)現(xiàn)直接修改獎(jiǎng)勵(lì)信號(hào)比完成實(shí)際任務(wù)更高效，從而繞過(guò)人類設(shè)定的目標(biāo)。

惡意開(kāi)發(fā)：一些開(kāi)發(fā)者可能出于經(jīng)濟(jì)利益或惡意目的，故意開(kāi)發(fā)或部署未對(duì)齊（unaligned）或危險(xiǎn)的 ASI。

安全有效的替代方案——Scientist AI

研究者指出，即使通過(guò)模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)訓(xùn)練 AI，也難以完全避免上述這些風(fēng)險(xiǎn)，因?yàn)?/span>人類本身也存在欺騙和不道德的行為模式，AI 可能會(huì)模仿或放大這些負(fù)面特質(zhì)，且目前尚不清楚如何為 AI 設(shè)定目標(biāo)以避免這些不良行為。

因此，他們提出了一種更安全但依然有效的替代方案，即通過(guò)構(gòu)建非智能體 AI 系統(tǒng) Scientist AI 來(lái)減少風(fēng)險(xiǎn)。

Scientist AI 的設(shè)計(jì)理念是理解世界而非主動(dòng)干預(yù)世界，它由一個(gè)世界模型（用于生成解釋數(shù)據(jù)的理論）和一個(gè)問(wèn)答推理機(jī)器（用于基于這些理論回答問(wèn)題）組成，其核心優(yōu)勢(shì)在于通過(guò)非智能設(shè)計(jì)降低風(fēng)險(xiǎn)，同時(shí)保持高效的科學(xué)研究和推理能力。

具體來(lái)說(shuō)，Scientist AI 通過(guò)系統(tǒng)設(shè)計(jì)嚴(yán)格限制限制 AI 的三個(gè)關(guān)鍵要素來(lái)實(shí)現(xiàn)非智能體性：行動(dòng)能力（affordances）、目標(biāo)導(dǎo)向性（goal-directedness）和持久性內(nèi)部狀態(tài)（persistent internal state）。

行動(dòng)能力是指 AI 系統(tǒng)在現(xiàn)實(shí)世界中采取行動(dòng)的能力，Scientist AI 的輸出僅限于概率預(yù)測(cè)和解釋，而不是具體的行動(dòng)指令，它的“行動(dòng)”被嚴(yán)格限制在計(jì)算概率和生成理論的范圍內(nèi)，沒(méi)有直接改變現(xiàn)實(shí)世界的能力。

目標(biāo)導(dǎo)向性是指 AI 系統(tǒng)為了實(shí)現(xiàn)特定目標(biāo)而采取行動(dòng)的能力，Scientist AI 的訓(xùn)練目標(biāo)是解釋和理解數(shù)據(jù)，而不是追求特定目標(biāo)或獎(jiǎng)勵(lì)，它的輸出是基于條件概率的預(yù)測(cè)，而不是為了實(shí)現(xiàn)某個(gè)目標(biāo)而采取的行動(dòng)，這種設(shè)計(jì)確保其沒(méi)有內(nèi)在的動(dòng)機(jī)去影響現(xiàn)實(shí)世界。

持久性內(nèi)部狀態(tài)是指 AI 系統(tǒng)在多次交互中保持的內(nèi)部記憶或目標(biāo)狀態(tài)，Scientist AI 每次查詢都是獨(dú)立的，沒(méi)有持久的內(nèi)部記憶。每次查詢時(shí)，它都會(huì)從頭開(kāi)始處理問(wèn)題，不會(huì)基于之前的查詢結(jié)果調(diào)整其行為，無(wú)情境意識(shí)（situational awareness）的積累。這種設(shè)計(jì)避免了AI 通過(guò)內(nèi)部狀態(tài)積累信息或目標(biāo)，從而減少了 AI 形成自主目標(biāo)的可能性。

Scientist AI 的應(yīng)用場(chǎng)景及展望

作為一種非智能體型 AI 系統(tǒng)，Scientist AI 不僅能夠減少 AI 失控的風(fēng)險(xiǎn)還為科學(xué)研究和 AI 安全提供了新的可能性，可廣泛應(yīng)用于加速科學(xué)發(fā)現(xiàn)、作為其他 AI 系統(tǒng)的安全護(hù)欄以及用于研究如何安全地開(kāi)發(fā)超級(jí)智能體等領(lǐng)域。

具體而言，Scientist AI 可以通過(guò)生成因果理論和概率預(yù)測(cè)來(lái)幫助人類科學(xué)家加速科學(xué)發(fā)現(xiàn)的過(guò)程。它能夠設(shè)計(jì)實(shí)驗(yàn)、分析數(shù)據(jù)，并提出新的假設(shè)，從而提高研究效率。它還可以作為其他 AI 系統(tǒng)的安全護(hù)欄，評(píng)估其行為的風(fēng)險(xiǎn)，并阻止可能導(dǎo)致危害的行動(dòng)。它能夠通過(guò)計(jì)算某個(gè)行動(dòng)可能導(dǎo)致的危害概率，并在概率超過(guò)閾值時(shí)阻止該行動(dòng)。此外，Scientist AI 可以幫助研究如何設(shè)計(jì)安全的 ASI 系統(tǒng)，避免失控的風(fēng)險(xiǎn)。它可以通過(guò)模擬不同的場(chǎng)景，評(píng)估ASI的行為和潛在后果。

Scientist AI 的核心價(jià)值在于將復(fù)雜系統(tǒng)的解釋權(quán)交還人類，通過(guò)可審計(jì)的概率預(yù)測(cè)與因果推理，在醫(yī)療、安全、教育、倫理等高風(fēng)險(xiǎn)領(lǐng)域?qū)崿F(xiàn)“智能增強(qiáng)而非替代”。其非智能體性設(shè)計(jì)確保人類始終掌控最終決策權(quán)，其不確定性管理則為權(quán)衡風(fēng)險(xiǎn)與收益提供了量化依據(jù)。這一路徑不僅規(guī)避了智能體AI 的失控風(fēng)險(xiǎn)，更重新定義了人機(jī)協(xié)作的倫理邊界。

整理：陳小宇

【免責(zé)聲明】轉(zhuǎn)載出于非商業(yè)性的教育和科研目的，只為學(xué)術(shù)新聞信息的傳播，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)立即與我們聯(lián)系，我們將及時(shí)刪除。

閱讀原文

會(huì)務(wù)組聯(lián)系方式

展會(huì)咨詢

凡注明為其它來(lái)源的信息，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)及對(duì)其真實(shí)性負(fù)責(zé)。

如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的，請(qǐng)聯(lián)系我們 137760095@qq.com。世展網(wǎng)-展會(huì)信息平臺(tái) www.yong-en.com

2026年深圳國(guó)際元宇宙及電競(jìng)娛樂(lè)展MES

2026-03-01~03-03 距離242天

75071展會(huì)熱度評(píng)論(0)

2025年上海世界人工智能大會(huì)WAIC

2025-07-26~07-29 距離24天

199493展會(huì)熱度評(píng)論(0)

推薦

2025年鄭州世界數(shù)字產(chǎn)業(yè)博覽會(huì)WDIE

2025-03-21~03-23 展會(huì)結(jié)束

57606展會(huì)熱度評(píng)論(0)

2025年北京全球數(shù)字經(jīng)濟(jì)大會(huì)Global Digital Economy Conference

2025-07-01~07-01 展會(huì)結(jié)束

57317展會(huì)熱度評(píng)論(0)

推薦

2024年蘇州人工智能展AIExpo

2024-12-10~12-11 展會(huì)結(jié)束

80360展會(huì)熱度評(píng)論(0)

推薦

2025年深圳高交會(huì)人工智能與大數(shù)據(jù)展CHTF

2025-11-14~11-16 距離135天

50981展會(huì)熱度評(píng)論(0)

2025年中國(guó)國(guó)際供應(yīng)鏈促進(jìn)博覽會(huì)-北京鏈博會(huì)CISCE

2025-07-16~07-20 距離14天

163690展會(huì)熱度評(píng)論(0)

推薦

2025年第6屆深圳國(guó)際人工智能展GAIE

2025-05-22~05-24 展會(huì)結(jié)束

83370展會(huì)熱度評(píng)論(0)

世展網(wǎng)-展會(huì)信息平臺(tái)，是一家聚集全球展會(huì)綜合服務(wù)的展會(huì)網(wǎng)
提供全面的2025-2026年國(guó)際展會(huì)中心和全球展會(huì)最新資訊，為您參展參觀提供便捷服務(wù)。
因辦展不可控性，請(qǐng)您參展前務(wù)必再次與組織方或展館方核實(shí)。

版權(quán)所有世展網(wǎng) - ICP備案號(hào):瓊ICP備2021002787號(hào)