當(dāng)前位置:
>
首頁
>
展會資訊
>
AI人工智能行業(yè)
>
熱點關(guān)注丨剛剛，OpenAI正式放出智能體Operator！能推理、聯(lián)網(wǎng)自主執(zhí)行任務(wù)

AI人工智能行業(yè)資訊更多

觀點分享丨放棄agent，圖靈獎得主Yoshua Bengio提出Scientist AI：避免人類生存威脅

2025-02-27 17:17

熱點關(guān)注丨新思想引領(lǐng)新征程人工智能創(chuàng)新加速我國產(chǎn)業(yè)轉(zhuǎn)型升級

2025-02-27 17:17

學(xué)習(xí)時間丨更加廣泛地凝聚人心、凝聚共識、凝聚智慧、凝聚力量

2025-01-26 18:31

演講實錄丨強(qiáng)化學(xué)習(xí)之父 Rich Sutton ：用「去中心化神經(jīng)網(wǎng)絡(luò)」應(yīng)對深度學(xué)習(xí)局限性

2025-01-23 17:08

觀點分享丨李飛飛：語言之外，另一半的智能還有待實現(xiàn)

2025-01-22 19:02

學(xué)會通知丨中國人工智能學(xué)會關(guān)于征集2024年度科技志愿服務(wù)先進(jìn)典型的通知

2025-01-22 19:02

熱點關(guān)注丨剛剛，OpenAI正式放出智能體Operator！能推理、聯(lián)網(wǎng)自主執(zhí)行任務(wù)

來源：世展網(wǎng) 分類：AI人工智能行業(yè)資訊 2025-01-24 17:10 閱讀：*****

2025年上海世界人工智能大會WAIC

2025-07-26-07-29

距離24天

轉(zhuǎn)自機(jī)器之心

機(jī)器之心報道

編輯：杜偉、Panda

大概北京時間昨天下午五點左右，繼上次的

星際之門項目

之后，OpenAI 再次成為 AI 社區(qū)的熱門關(guān)鍵詞，因為有 ChatGPT Pro 用戶發(fā)現(xiàn)其用戶界面中多了一個叫做 Operator 的選項。這是 OpenAI 的 Computer Use 智能體要來了嗎？

大概是因為這個消息，ChatGPT 訪問量突然暴增，大量用戶上線想要一探究竟，讓 ChatGPT 承受不住，直接投降了。

宕機(jī)大概持續(xù)了 3 小時。

凌晨 2 點，直播開始，Operator 與 Agents 發(fā)布。

我們終于看到了 Operator 的真身，它是一個研究預(yù)覽（research preview）版本的智能體，可以訪問互聯(lián)網(wǎng)來為用戶自動執(zhí)行各種任務(wù)。OpenAI 表示希望很快將它集成到ChatGPT中。目前，Operator 只供美國的 Pro 用戶使用。雖然 computer use 類智能體早已經(jīng)不新鮮，畢竟

Anthropic 早在去年 10 月就已經(jīng)發(fā)布了自己的 computer use 功能

。而就在昨日，國內(nèi)大模型廠商智譜的電腦智能體 GLM-PC 也開放了體驗，它能像人類一樣「觀察」和「操作」計算機(jī)，協(xié)助用戶高效完成各類電腦任務(wù)。并且現(xiàn)在市面上還有不少開源實現(xiàn)，但 Operator 發(fā)布后還是引起了社交網(wǎng)絡(luò)一片沸騰 —— 畢竟這是 OpenAI。OpenAI 總裁 Greg Brockman 再次重申了他的觀點：2025 年是智能體之年。

也已經(jīng)有動作快的 Pro 用戶分享了自己的使用案例，像是根據(jù)圖片和菜譜訂購?fù)聿?a href="http://www.yong-en.com/exhibition/20-285-0-0-0-0-start_time-asc/" title="食材">食材、根據(jù) Reddit 上分享的冷門景點規(guī)劃周末旅行、研究加密貨幣投資等等。

又或者，通過用戶點評找到斯德哥爾摩最好的酒店。當(dāng)然，吐嘈調(diào)侃 OpenAI 的網(wǎng)友也有不少。Operator 功能演示與技術(shù)概覽Operator 的用戶界面如下：

OpenAI 表示，Operator 由一個名為「計算機(jī)使用智能體」（Computer-Using Agent，CUA）的新模型提供支持。CUA 將 GPT-4o 的視覺功能與通過強(qiáng)化學(xué)習(xí)獲得的高級推理相結(jié)合，經(jīng)過訓(xùn)練可以與圖形用戶界面（GUI，即人們在屏幕上看到的按鈕、菜單和文本字段）進(jìn)行交互。就其功能來說，Operator 可以「查看」（通過屏幕截圖）和「交互」（使用鼠標(biāo)和鍵盤允許的所有操作）瀏覽器，從而使其無需自定義 API 集成即可在 Web 上采取行動。同時，如果遇到挑戰(zhàn)或犯錯，Operator 可以利用其推理能力進(jìn)行自我糾正。當(dāng) Operator 卡住并需要幫助時，它只需將控制權(quán)交還給用戶，確保流暢的協(xié)作體驗。我們來看幾個 Operator 的演示功能，比如幫你預(yù)訂餐廳：再比如上傳一張圖片（手寫購物單），上面有你想要買的各種東西，直接讓 Operator 幫你買。它會首先給你建議并執(zhí)行操作：Operator 還能幫你訂票，期間用戶可以隨時接管，并在調(diào)整后讓它繼續(xù)工作：而 Operator 背后的模型 CUA 建立在多模態(tài)理解和推理交叉領(lǐng)域多年的基礎(chǔ)研究基礎(chǔ)之上，通過將高級 GUI 感知與結(jié)構(gòu)化問題求解相結(jié)合，它可以將任務(wù)分解為多步驟規(guī)劃，并在出現(xiàn)挑戰(zhàn)時自適應(yīng)地自我糾正。此功能標(biāo)志著 AI 開發(fā)的下一步，允許模型使用人類日常使用的工具，并為大量新應(yīng)用開啟新的大門。CUA 的工作原理CUA 可通過處理原始像素數(shù)據(jù)來了解屏幕上發(fā)生的事情，并使用虛擬鼠標(biāo)和鍵盤完成操作。CUA 可以導(dǎo)航多步驟任務(wù)、處理錯誤并適應(yīng)意外變化，這使其能夠在廣泛的數(shù)字環(huán)境中運行，執(zhí)行填寫表格和瀏覽網(wǎng)站等任務(wù)，而無需專門的 API。具體地，根據(jù)用戶的指令，CUA 通過集成感知（Perception）、推理（Reasoning）和行動（Action）的迭代循環(huán)進(jìn)行操作：

感知：計算機(jī)的屏幕截圖被添加到模型的上下文中，提供計算機(jī)當(dāng)前狀態(tài)的視覺快照；
推理：使用思路鏈推理后續(xù)步驟，同時考慮當(dāng)前和過去的屏幕截圖和操作。這種「內(nèi)心獨白」通過使模型評估其觀察結(jié)果、跟蹤中間步驟并動態(tài)調(diào)整來提高任務(wù)性能；
行動：執(zhí)行操作（單擊、滾動或鍵入），直到它決定任務(wù)已完成或需要用戶輸入。雖然它會自動處理大多數(shù)步驟，但 CUA 會尋求用戶確認(rèn)敏感操作，例如輸入登錄詳細(xì)信息或響應(yīng) CAPTCHA 表單。

OpenAI 也表示，CUA 仍處于早期階段且存在局限性。不過，CUA 仍然取得了全新的 SOTA 基準(zhǔn)測試結(jié)果，其中在 OSWorld（真實計算機(jī)環(huán)境中開放式任務(wù)的多模式智能體基準(zhǔn)測試）上實現(xiàn) 38.1% 的完整計算機(jī)使用任務(wù)成功率，在 WebArena（用于構(gòu)建自主智能體的真實網(wǎng)絡(luò)環(huán)境）上實現(xiàn)了 58.1% 的成功率，在 WebVoyager（大型多模態(tài)網(wǎng)絡(luò)智能體基準(zhǔn)）上實現(xiàn) 87% 的 Web 端任務(wù)。這些結(jié)果證明了 CUA 使用單一通用操作空間在不同環(huán)境中導(dǎo)航和操作的能力。

使用方式根據(jù)描述，Operator 的使用方法很簡單。用戶只需描述想要完成的任務(wù)，然后 Operator 就可以自己完成。用戶也可以隨時接管其遠(yuǎn)程瀏覽器，Operator 也可以根據(jù)當(dāng)前任務(wù)執(zhí)行情況主動向用戶請求登錄、錄入付款詳細(xì)信息或解決驗證碼等任務(wù)。用戶可以在 Operator 中通過添加自定義指令來個性化自己的工作流程，無論是針對所有網(wǎng)站還是特定網(wǎng)站，比如可以在航班預(yù)訂網(wǎng)站設(shè)置自己偏好的航空公司。Operator 允許用戶在主頁上保存快速訪問的提示詞，這非常適合完成一些重復(fù)任務(wù)，比如購買日常消耗品。類似于在瀏覽器上使用多個頁面，用戶可以通過創(chuàng)建新對話讓 Operator 同時運行多個任務(wù)，例如在一個網(wǎng)站上訂購個性化搪瓷杯，同時在另一個網(wǎng)站上預(yù)訂露營地。生態(tài)系統(tǒng)與用戶OpenAI 表示：「Operator 可將 AI 從被動工具轉(zhuǎn)變?yōu)閿?shù)字生態(tài)系統(tǒng)的積極參與者。它將簡化用戶的任務(wù)，并為那些希望獲得創(chuàng)新客戶體驗并希望提高轉(zhuǎn)化率的公司帶來智能體的好處。」OpenAI 也宣布了當(dāng)前的一些合作企業(yè)與服務(wù)，包括 DoorDash、Instacart、OpenTable、Uber 等。同時，OpenAI 還在努力改善 Operator 在公共部門應(yīng)用中的適用性，為此他們還與斯托克頓市等組織建立了合作關(guān)系。安全和隱私在很多用戶關(guān)心的安全問題上，OpenAI 也進(jìn)行了說明。該公司表示 Operator 采用了 3 層保護(hù)機(jī)制，可以防止該工具被濫用同時確保用戶掌控。第一層，Operator 可以確保使用它的用戶總是具有控制權(quán)，并會在關(guān)鍵時刻請求用戶輸入。這涉及到四個方面：

接管模式：在向瀏覽器輸入敏感信息時，Operator 會請求用戶接管。在接管模式下，Operator 不會收集或截取用戶輸入的信息。
用戶確認(rèn)：在完成任何重要操作（例如提交訂單或發(fā)送電子郵件）之前，Operator 會征求批準(zhǔn)。
任務(wù)限制：Operator 會拒絕某些敏感任務(wù)，例如銀行交易或需要高風(fēng)險決策的任務(wù)，例如決定一份工作申請。
監(jiān)視模式：在特別敏感的網(wǎng)站上，例如電子郵件或金融服務(wù)，Operator 會要求密切監(jiān)督其行為，從而可讓用戶直接發(fā)現(xiàn)任何潛在的錯誤。

第二層，OpenAI 簡化了 Operator 的數(shù)據(jù)隱私管理方式。

退出訓(xùn)練：用戶可在 ChatGPT 設(shè)置中關(guān)閉「為所有人改進(jìn)模型」，這樣其 Operator 中的數(shù)據(jù)就不會用于訓(xùn)練模型。
透明的數(shù)據(jù)管理：用戶可以在 Operator 設(shè)置的「隱私」部分下一鍵刪除所有瀏覽數(shù)據(jù)并退出所有網(wǎng)站。Operator 中的過去對話也可以一鍵刪除。

第三層，針對可能試圖通過隱藏提示、惡意代碼或網(wǎng)絡(luò)釣魚嘗試誤導(dǎo) Operator 的惡意網(wǎng)站，OpenAI 也建立了一些防御措施：

謹(jǐn)慎導(dǎo)航：Operator 在設(shè)計時就考慮了檢測和忽視提示詞注入攻擊。
監(jiān)控：有一個專門的「監(jiān)控模型」來監(jiān)視可疑行為，如果出現(xiàn)異常，可以暫停任務(wù)。
檢測管道：OpenAI 部署了一個持續(xù)識別新威脅并快速更新保障措施的自動和人工審核流程。

OpenAI 表示：「我們知道壞人可能會試圖濫用這項技術(shù)，因此我們將 Operator 設(shè)計為可以拒絕有害請求和阻止不允許的內(nèi)容。我們的審核系統(tǒng)可以對重復(fù)違規(guī)行為發(fā)出警告甚至撤銷訪問權(quán)限，并且我們集成了其他審核流程來檢測和解決濫用問題。」未來計劃OpenAI 在博客中簡單公布了對 Operator 的未來計劃。

通過 API 使用 CUA：OpenAI 表示很快就會通過 API 揭示驅(qū)動 Operator 的模型，以便開發(fā)者可以使用它來構(gòu)建自己的 computer use 智能體。
增強(qiáng)功能：還將繼續(xù)提高 Operator 處理更長、更復(fù)雜工作流程的能力。
讓更多人可用：OpenAI 還計劃將 Operator 擴(kuò)展到 Plus、Team 和 Enterprise 用戶。并且該公司還表示，一旦在安全性與大規(guī)模可用性方面建立信心后，就會將該功能直接集成到 ChatGPT 中，從而實現(xiàn)無縫的實時和異步任務(wù)執(zhí)行。

項目貢獻(xiàn)者OpenAI 也在博客中發(fā)布了相關(guān)貢獻(xiàn)者名單。