奧特曼都點贊,谷歌Gemini 3 Pro到底強在哪?
日期:2025-11-23 16:52:13 / 人氣:8

谷歌可算是發布Gemini 3 Pro了,很突然,而且很“低調”。雖然谷歌在Gemini 3 Pro之前發布了圖片編輯模型Nano Banana,進而刷了一波存在感。但是在基座模型方面,谷歌已經靜默太久。過去這大半年,大家都在熱議OpenAI的新動作,或者感嘆Claude在代碼領域的統治力,唯獨沒有人提及8個月沒有版本號升級的Gemini。縱使谷歌的云業務和財報再漂亮,可在AI開發者的核心圈子里,谷歌的存在感仍然被一點點的稀釋。好在的是,小榜在第一時間體驗過后發現,Gemini 3 Pro并沒有讓我們失望。但現在還不能過早下結論。因為現在的AI賽道早就已經過了靠參數量嚇人的階段,大家都在卷應用、卷落地、卷成本。谷歌能不能適應新版本和新環境,還是個未知數。
一、核心能力解析
我讓Gemini 3 Pro用一句話來形容自己,它是這么回答我的。
“不再急于向世界證明自己有多聰明,而是開始琢磨如何讓自己變得更有用。”——Gemini 3 Pro
在LMArena排行榜上,Gemini 3 Pro以1501的Elo分數登頂,這是AI模型在綜合能力評估中的新紀錄。這是一個相當優秀的成績,就連奧特曼也發推表示祝賀。
1.1 超強測試表現
- 數學能力測試:在AIME2025(美國數學邀請賽)的代碼執行模式下達到了100%的準確率;MathArenaApex數學競賽測試中獲得23.4%的得分,其他主流模型普遍在2%以下。
- 科學知識測試:GPQADiamond科學知識測試準確率為91.9%。
- 綜合推理測試:在Humanity's Last Exam測試中,不使用工具情況下達到37.5%的得分。
1.2 創新功能亮點
vibecoding代碼生成
允許用戶通過自然語言描述需求,系統生成相應代碼和應用程序。在Canvas編程環境測試中,用戶描述“制作一個可以調節轉速的電風扇”后,約30秒內生成包含旋轉動畫、速度控制滑塊和開關按鈕的完整代碼。官方展示案例還包括核聚變過程的可視化模擬。
生成式界面(Generative UI)
與傳統AI助手僅返回文本不同,可根據查詢自動生成定制化界面布局。例如詢問量子計算相關問題時,會生成包含概念解釋、動態圖表和相關論文鏈接的交互式界面。針對不同受眾(如兒童和成人)解釋同一概念時,界面設計會差異化,兒童版偏可愛,成人版偏簡潔明了。Google Labs的Visual Layout實驗功能可提供雜志風格視圖布局,包含圖片、模塊和可調節UI元素。
Gemini Agent智能體系統
處于實驗階段,可執行多步驟任務并連接Gmail、Google Calendar和Reminders等谷歌服務。在收件箱管理場景,能自動篩選郵件、標記優先級和起草回復;旅行規劃場景中,用戶提供目的地和大致時間后,系統會查詢日歷、搜索航班和酒店選項并添加行程安排。目前僅向美國地區Google AI Ultra訂閱用戶開放。
多模態處理能力
基于稀疏混合專家架構構建,支持文本、圖像、音頻和視頻輸入,上下文窗口為100萬token,可處理較長文檔或視頻內容。加拿大勞瑞爾大學歷史學教授Mark Humphries測試顯示,其識別18世紀手寫文稿的字符錯誤率為0.56%,相比前代版本降低50%到70%。
Deep Think優化版本
專門用于復雜推理任務,目前正在進行安全評估,計劃未來幾周向Google AI Ultra訂閱者開放。在Google Search的AI模式中,用戶可點擊“thinking”選項卡查看推理過程,相比標準模式會進行更多步驟分析。
1.3 與ChatGPT-5.1對比
- 圖片生成:提示詞“給我生成一張iPhone17”,主觀上ChatGPT-5.1更符合需求,此回合ChatGPT-5.1勝出。
- 智能體水平:提示詞“研究字母榜微信公眾號并評論其水平”,Gemini 3 Pro解讀較受青睞但過于鼓吹,ChatGPT-5.1能發現不足更客觀真實。
- 代碼能力:以GitHub高星項目LightRAG(https://github.com/HKUDS/LightRAG)為測試對象,對比兩者對該項目的分析能力。
二、市場競爭與預熱策略
2.1 低調卻精心的預熱
谷歌第三季度財報電話會上,CEO皮查伊表示“Gemini 3 Pro將在2025年內發布”,拉開預熱序幕。10月起各種“意外泄露”接踵而至:10月23日流傳11月12日“Gemini 3 Pro Release”內部日歷截圖;開發者在Vertex AI的API文檔發現“gemini-3-pro-preview-11-2025”字樣;Reddit和X上出現用戶聲稱在Gemini Canvas工具或移動應用中看到新模型身影的截圖;測試數據在社交媒體流傳。谷歌官方賬號轉發社區討論,用“即將到來”吊胃口,高層在發布日期預測推文下回復“思考”表情符號,卻不給出準確日期。預熱近1個月后正式發布。
2.2 競爭對手迭代壓力
谷歌更新頻率引發擔憂:今年3月發布Gemini 2.5 Pro預覽版后,后續僅推出Gemini 2.5 Flash預覽版等衍生版本,直至Gemini 3 Pro問世期間無版本號升級。而競爭對手迭代迅猛:
- OpenAI:8月7日推出GPT-5,11月12日升級到GPT-5.1,還推出AI瀏覽器Atlas直指谷歌腹地。
- Anthropic:2月24日發布Claude 3.7 Sonnet(首個混合推理模型),5月22日推出Claude Opus 4和Sonnet 4,8月5日發布Claude Opus 4.1,9月29日推出Claude Sonnet 4.5,10月15日發布Claude Haiku 4.5。
三、更新延遲原因探究
3.1 人才流失影響
2025年7月至8月前后,微軟招募超過20名DeepMind核心專家和高管,包括負責核心AI產品落地的DeepMind高級產品總監戴夫·希創(Dave Citron),以及Google最重要模型Gemini的核心工程負責人之一、工程副總裁阿瑪爾·蘇布拉馬尼亞(Amar Subramanya)。
3.2 AI生圖領域攻堅
谷歌Nano Banana團隊表示,發布Gemini 2.5 Pro后長時間糾結AI生圖領域,放緩了基座模型更新。谷歌認為需攻克角色一致性(Character Consistency)、語境編輯(In-context Editing)、文字亂碼(Text Rendering)三個生圖難關,才能讓基座模型表現更好。團隊強調模型不僅要“畫得好看”,更要“聽懂人話”并“受人控制”,推動AI生圖進入商業落地階段。
四、未來挑戰與展望
Gemini 3 Pro雖交出合格答卷,但AI戰場已進入只爭朝夕的階段,及格遠遠不夠。谷歌需面對被競品“喂刁”口味的用戶和開發者的嚴苛檢驗。未來幾個月,競爭焦點將從模型參數比拼轉向生態整合能力較量,谷歌這頭“大象”需加快步伐,在生態整合上展現更強實力。
作者:杏耀注冊登錄測速平臺
新聞資訊 News
- 科學是如何淪為了大國博弈的棋子...11-23
- 大疆“密會”投資機構:不提上市...11-23
- 奧特曼都點贊,谷歌Gemini 3 P...11-23
- 吉爾莫·德爾·托羅《弗蘭肯斯坦...11-23

