猫咪成人在线观看,日韩欧美国产一区二区三区,久久爱另类一区二区小说

一文讀懂GPT-5發布會：新功能乏善可陳

日期：2025-08-13 16:54:10 / 人氣：36

"Agent是今年AI圈最大的共識，OpenAI自然也不能掉隊。
北京時間2025年7月18日凌晨1點，Sam Altman和四位OpenAI的研究員在直播中正式發布了ChatGPT Agent——一款通用型AIAgent。
前有Manus、Lovart和Flowith，ChatGPT Agent所呈現的功能場景并不算特別驚艷，但它發布的意義，要超越其功能本身。

ChatGPT Agent的革命性在于其獨特的技術路徑：它可以主動從工具箱中選擇代理技能，使用自己的計算機完成任務，用戶可以實時觀察AI在虛擬環境中的工作過程。
這種交互界面雖與Manus等產品相似，但底層原理卻有著本質差異。Manus調用多個底層模型，類似于“外部縫合”，而ChatGPT Agent，是將Agent能力內化于模型，我們已經看到了端到端通用Agent的雛形。
Manus的設計實質上是通過調用多個底層模型實現“外部縫合”。相比之下，ChatGPT Agent是將Agent能力內化于模型本身。
根據OpenAI介紹，為了開發ChatGPT Agent，他們將Operator和Deep Research團隊合并為一個統一的團隊，這個新團隊由20至35人組成。
根據ChatGPT Agent的系統卡片顯示，它是一個新的代理模型，與OpenAI o3同屬一個系列，采用了端到端的訓練方法。它是為代理任務開發的統一模型，而不是多個模型的工程化組合。
根據OpenAI放出的對比PPT，我們可以看到，這一訓練基本上是通過強化學習過程完成的。和Grok4withtool的路徑應該差不多。
經過再訓練，Agent結合了Deep research的多步研究和高質量報告生成能力、Operator通過遠程可視化瀏覽器環境執行任務的能力、具有有限網絡訪問權限的終端工具，以及通過連接器訪問外部數據源和應用程序的能力。
在執行完復雜任務之后，也可以交付給用戶一個可下載的一個PPT或一份文檔。
對Manus而言，OpenAI的這一新舉措無疑是巨大的打擊，甚至從定價上，兩者也差距不大：GPT的Plus套餐每月20美金即可使用ChatGPT Agent，而Manus的基礎計劃是每月19美金。
劃重點：
ChatGPT Agent：是能夠執行復雜、多工具任務的統一AI Agent。
它集成了對文本瀏覽器、GUI瀏覽器、終端和圖像生成工具的訪問。
支持與用戶進行交互式、多輪對話，允許打斷和澄清。
安全防護升級：加強對網頁“惡意提示”攻擊的防御；設置高風險任務自動拒絕；生物/化學風險也按最高級別安全堆棧處理。
它在多個現實世界和基準任務中取得了最先進的結果。
一、ChatGPT Agent概覽，功能很像Manus
ChatGPT Agent的核心是一個統一的代理系統（unified agentic system），整合并擴展了OpenAI早期研究項目“Operator”（側重于網站交互）和“Deep Research”（側重于信息綜合）的能力。
這使得ChatGPT Agent能夠在一個單一的對話流中，無縫地從推理思考切換到執行具體動作。
虛擬計算機環境：ChatGPT Agent在一個為其特設的虛擬計算機上執行所有任務。這個環境是沙盒化的，確保了操作的安全性。它能夠在該環境中保存任務的上下文，即使用戶中途打斷或改變指令，也能從斷點繼續，而不會丟失進度。
智能工具箱：為了完成復雜工作流，Agent配備了四種工具，并能根據任務需求自動選擇最合適的工具：
可視化瀏覽器（Visual Browser）：用于與圖形用戶界面進行交互，例如點擊按鈕、填寫表單和瀏覽為人類設計的網站。
文本瀏覽器（Text-based Browser）：用于需要高效推理和處理大量文本的網絡查詢。
終端（Terminal）：允許Agent運行代碼、下載和處理文件。
API訪問：可以直接調用API來獲取信息，例如通過連接器訪問Google Drive、Gmail和GitHub等應用的數據。
新模型驅動：ChatGPTAgent由一個專門為其開發的新模型驅動。這個模型通過強化學習 (reinforcement learning) 的方法，在需要使用多種工具的復雜任務上進行了專門訓練，從而學會了如何在不同工具之間流暢切換并協同工作。
它有以下特性：
自主任務執行：用戶可以用自然語言下達指令，例如“分析我的日歷，并根據最近的新聞為我簡報即將到來的客戶會議”，Agent 能夠自主規劃并執行系列操作，如瀏覽網站、篩選信息、運行代碼分析，并最終生成可編輯的幻燈片或電子表格等成果。
協作與交互性：它會在需要時主動詢問更多細節以完成目標。用戶可以隨時中斷、重定向任務或完全接管瀏覽器的控制權。
安全與權限控制：安全性是其設計的核心部分。在執行購買、提交表單、發送郵件或處理個人信息等具有實際影響的關鍵操作前，Agent 會明確請求用戶許可。同時，它被禁止執行如金融轉賬或提供法律建議等高風險任務。OpenAI 還內置了針對“提示注入”等惡意攻擊的防護措施。
二、多項基準測試跑分“破紀錄”
最難的 HLE 達到 41.6%（with tool），高于剛剛發布的Grok4（with tool）41.0%。
在測量廣域知識與專家級提問的 Humanity’s Last Exam 上，單次作答準確率達 41.6%；采用并行八路推理并選取置信度最高答案后可提升到 44.4%。
在極難的 FrontierMath 數學基準上，借助終端運行代碼后準確率提升至 27.4%。
在針對真實知識工作任務的內部評測中，ChatGPT 代理在約半數案例里已與人類持平或更佳；
在現實數據科學任務 DSBench 上，其分析與建模準確率分別達到 89.9% 與 85.5%，遠超人類平均水平。
它對電子表格的直接編輯能力也領先：在 SpreadsheetBench 中拿到 45.5%，超過 Copilot in Excel 的 20%。此外，它在 BrowseComp、WebArena 等瀏覽器評測里均刷新了SOTA。
（圖：評測方法：SpreadsheetBench的作者在Windows 環境下使用 Microsoft Excel 對電子表格進行評估。我們則在 OSX 環境中使用 LibreOffice，這可能導致評分出現輕微差異。例如，作者報告 GPT?4o 在整體 Hard 限制上的結果為 15.02%，而我們得到 13.38%。我們使用了完整的 912 道題目基準測試。）
根據ChatGPT Agent自己做的PPT，在做PPT的能力上和上網沖浪能力上，Agent的能力都相比純粹的基礎模型有較明顯的提升。但離人類還頗有距離。
三、不是期貨，今日可用
自今日起，Pro 用戶可以馬上使用，Plus 與 Team 用戶將在數日內陸續開通；Enterprise 與 Education 版本將于數周后接入。
Pro 每月可用 400 條消息，其他付費用戶每月額度為 40 條，可通過靈活的按量計費追加。
實際使用非常簡單：在任何對話中切到“代理模式”，描述目標，例如深度調研、制作演示或報銷。屏幕左側實時顯示它的操作流程；若需要登錄，系統會切換到“接管模式”安全輸入憑證。
用戶還可以把完成的任務設為周期性執行，例如每周一自動生成指標報告。
四、奧特曼親自提示風險：Agent很強大，也很危險
值得注意的是，奧特曼在發布會之后，立刻發了一條長貼，提示使用ChatGPT Agent的風險。
在“強調”過ChatGPT Agent處理復雜任務的強大能力后，特別鄭重地提示了產品的風險，并強調：我們尚不清楚具體會造成什么影響，但不法分子可能會試圖“誘騙”用戶的 AI 代理提供不該提供的私人信息并采取不該采取的行動，而這其中的方式我們無法預測。
模型可能會接觸用戶的敏感數據，或遭遇網頁中的惡意“提示注入”攻擊。為此，他們沿用 Operator 期間的嚴格控制，并新增多項防護：
關鍵動作前必須得到用戶明確授權；
部分高風險任務（如發送郵件）啟用“監督模式”要求用戶全程監控；
碰到銀行轉賬等高風險指令會主動拒絕；
用戶可以一鍵清除瀏覽數據并注銷全部會話，或在不需聯網時禁用連接器。
在生物與化學安全方面，OpenAI根據 Preparedness Framework 將該模型按高風險級別處理，上線了最全面的安全措施，并與政府、學界及安全機構合作開展紅隊測試與威脅建模，同時啟動漏洞賞金計劃，以便盡早發現并修補潛在問題。
五、ChatGPT Agent夠遙遙領先嗎？
ChatGPT Agent最大的創新在于首次在模型中直接集成了完整的虛擬機環境，用戶可以實時觀察AI的操作過程，這是其它模型產品不具備的。
但是，各主流模型公司都在“Agent即模型，模型即Agent”的路上越走越遠。比如，在coding agent能力上幾乎封神的Claude。
眾多需要借用底層模型搭建的Agent產品，甚至離開了Claude，就什么也不是。
剛剛上線的Kimi K2采用開源的混合專家模型架構，定位為Agentic Intelligence，且價格僅有Claude 4的1/6左右。上線之后，token的采用量排名持續飆升。
但從“模型即Agent”這條路來說，OpenAI并不能算是遙遙領先，僅僅能說邁出了一小步。
OpenAI在官方文檔中也特別謙虛地表示：
需要注意的是，功能仍處早期：例如幻燈片生成功能現為 beta，格式與美觀度仍待提升，現階段主要優化信息結構與元素可編輯性；未來我們將繼續訓練新版本，以生成更精致的文件?？偟膩碚f，隨著持續迭代，ChatGPT 代理的效率、深度和多樣性都會不斷提升，我們也會逐步調優用戶監督的力度，在易用與安全之間取得更好平衡。
看著自家產品的演示，Sam Altman不禁又開始感嘆，“我感受到了AGI”。
然而，在帖子后面還是有用戶留言問，說好的GPT-5呢？"

作者：杏耀注冊登錄測速平臺

一文讀懂GPT-5發布會：新功能乏善可陳

新聞資訊 News

案例展示 Case

現在致電 8888910 OR 查看更多聯系方式 →

現在致電 8888910 OR 查看更多聯系方式 →