Gemini 3,又一個最強模型出現。

但和上一次相比,它到底變了什么? 是跑分又漲了幾個點,還是 AI 真的不一樣了?

就在 Gemini 3 發布后,11 月 22 日,Jeff Dean 在斯坦福大學發表演講,系統回顧了 15 年 AI 演進,從神經網絡、TPU、Transformer 到稀疏模型和蒸餾技術,最后展示 Gemini 3 的獨特能力。

在演講中,Jeff Dean 沒有講 benchmark 數字,也沒有做產品宣傳。他說的是:

為什么 AI 應該像大腦那樣工作?

為什么 AI 要從能說變成能做 ?

為什么下一代 AI 不拼參數,而是拼效率?

在 Jeff Dean 的視角里,Gemini 3 不只是一個更大的模型,而是讓 AI 的用法徹底變了。

這三條判斷,才是這次發布背后真正的信號。

信號一:從拼大小,到像大腦

演講一開始,Jeff Dean 就直指一個問題:傳統 AI 模型太浪費了。

他說:

“在傳統神經網絡中,你為每個例子激活整個模型,這非常浪費。更好的方式是:擁有一個非常大的模型,但每次只激活其中 1% 到 5%。”

假設你有一個巨大的模型,包含了圖像、語言、數學、代碼等各種能力。傳統做法:無論你問什么問題,整個模型都要調用一遍。就像每次開燈,家里所有電器都要啟動。Jeff Dean 的想法:根據任務類型,只運行需要的那部分。處理圖片時,只用視覺模塊;寫代碼時,只用編程模塊。

他用大腦做比喻:你坐在英語課上,大腦會使用處理語言的那部分;開車時,大腦就關閉它,將全部精力專注于控制身體和觀察路況。AI 模型也應該這樣工作。

這個想法不是為 Gemini 3 才提出的。

早在幾年前,Jeff Dean 就開始推動團隊往這個方向研究,并給它起了個名字:Pathways 架構。該架構的核心目標,是構建一個超大模型卻能保持高效,讓每次推理僅激活一小部分路徑。

Google 通過“專家混合”(MoE)技術來實現的:

模型內部有很多專家模塊

有的擅長圖像,有的擅長語言,有的做信息融合

輸入數據進來后,系統自動決定調用哪些專家

效果有多好?Jeff Dean 在演講中展示的數據很驚人:用同樣的計算預算,MoE 架構可以訓練出效果提升 8 倍的模型。

而 Gemini 3,正是這套理念的最新實踐。

它不再一次性加載全部權重,而是按需調用專家模塊。

結果是:性能更強,成本更低,還能同時處理多個任務。就像你的大腦:處理復雜問題時多個區域協同工作,做簡單事情時只用一小部分。

這個轉變意味著什么?

未來的頂級模型,不再是一個什么都做的全能選手,而是各有專長、協同工作的專業團隊。

AI 競爭的關鍵,從“誰的模型更大”,變成了誰能更好地調用工具。

信號二:AI 為什么不只是回答?

如果說第一節講的是模型內部如何變聰明,那第二節要講的是:它開始能為你做事了。

在演講現場,Jeff Dean 演示了一個例子:一位用戶有一堆家族食譜,有些是韓語手寫的,有些是英語的,都是老照片,有折痕和油漬。

用戶的需求很簡單:做一個雙語食譜網站。

然后,Gemini 3 做了什么? 第一步:掃描并識別所有照片中的文字; 第二步:翻譯成雙語版本; 第三步:自動生成網站布局; 第四步:為每個食譜配上 AI 生成的配圖。

整個過程,用戶只說了一句話。

這就是傳統助手和智能 Agent 的區別。助手是你問什么它答什么,Agent 是你說目標、它自己拆解任務、調用工具、完成整個操作鏈。

Jeff Dean 說:

AI 不只是回答你,而是具有行動能力。

這個能力背后的技術突破是:在可驗證領域的強化學習

什么意思?

以編程為例:

AI 生成一段代碼

系統自動檢查:能編譯嗎?

如果能,給獎勵;如果不能,給懲罰

更進一步:代碼通過單元測試了嗎?

通過了,給更多獎勵

同樣的邏輯也適用于數學:

AI 生成一個證明

系統用證明檢查器驗證

正確就獎勵,錯誤就指出是第幾步出錯

Jeff Dean 說:這個技術突破使模型能夠真正探索潛在解決方案的空間,隨著時間推移,它在探索這個空間時變得越來越好。

效果有多驚人?Gemini 在 2025 年國際數學奧林匹克競賽(IMO)上,解決了六道題中的五道,獲得金牌。

這個成績有多震撼?

要知道,就在三年前的 2022 年,AI 模型在數學推理上還非常弱。

當時,業界最先進的模型在 GSM8K(一個中學數學基準測試)上的準確率只有 15%。測試的題目是什么難度呢?比如:Sean 有五個玩具,圣誕節他又得到了兩個,現在有幾個玩具?

這種小學算術題,當時的 AI 正確率也只有 15%。

而現在,Gemini 能解決的是國際數學奧林匹克的題目,這是全球數學天才競賽中最難的問題。

從小學算術到奧賽金牌,用了不到三年時間。

這個飛躍說明,AI 不只是在回答問題上變強了,而是具備了真正的問題解決能力。它能夠自己探索、嘗試、驗證,直到找到正確答案。

具體來說,Agent 需要三個關鍵能力:

狀態感知:知道你想要什么、理解當前進展

工具組合:能調用搜索、計算器、API 等外部工具

多步執行:根據反饋調整計劃、循環嘗試直到完成

而 Gemini 3 通過和 Google 生態的深度集成,可以串聯日歷、郵件、云端服務等真實系統,把這些能力真正用起來。

就像前面的食譜網站案例:你不需要說“先識別文字,再翻譯,再排版”,只需要說“做個網站”,Gemini 3 自己搞定所有步驟。

這改變了每個人工作方式:

過去,你要告訴 AI 每一步怎么做。

現在,你只需要說出目標,剩下的 AI 自己搞定。

你的角色從使用者變成了指揮者。

信號三:什么決定 AI 能否普及?

如果說 Pathways 架構讓模型變聰明,Agent 系統讓模型能行動,那第三個信號最容易被忽視,但可能最關鍵:讓 AI 真正用得起。

Jeff Dean 在斯坦福講了一個 2013 年的故事。

當時,Google 剛做出一個很好的語音識別模型,比現有系統的錯誤率低很多。Jeff Dean 做了一個測算:如果 1 億人開始每天和手機說話 3 分鐘,會發生什么?

答案是:需要把 Google 的服務器數量翻倍。

就是說,一個功能的改進,要付出整個公司服務器資源翻倍的代價。

這讓 Jeff Dean 意識到:光有好模型不夠,必須讓它用得起。

于是,TPU 誕生了。

1、TPU:為效率而生的硬件

2015 年,第一代 TPU 投入使用。它專門為機器學習設計,做了一件事:把低精度線性代數運算做到極致。

結果是什么?

比當時的 CPU 和 GPU 快 15 到 30 倍,能效高 30 到 80 倍。

這讓原本需要翻倍服務器才能推出的功能,現在只需要現有硬件的一小部分就能實現。

到了最新第七代 Ironwood TPU,單個 pod 有 9,216 個芯片。如果和第一代機器學習超級計算 pod(TPUv2)比,性能提升了 3,600 倍,能效提升了 30 倍。

Jeff Dean 特別指出,這些提升不只靠芯片工藝進步,更重要的是谷歌從設計之初就把能效作為核心目標。

2、蒸餾:讓小模型學會大模型的能力

硬件是一方面,算法是另一方面。

Jeff Dean 和 Geoffrey Hinton、Oriol Vinyals 一起研究了一個叫“蒸餾”的技術。

核心思想是:讓大模型當老師,教小模型。

在一個語音識別任務中,他們做了個實驗:

用 100% 的訓練數據,準確率是 58.9%

只用 3% 的訓練數據,準確率掉到 44%

但如果用蒸餾,只用 3% 的數據,準確率能達到 57%

他們實現了用 3% 的數據,達到接近 100% 數據的效果。

Jeff Dean 說:

“你可以訓練一個非常大的模型,然后用蒸餾讓一個小得多的模型獲得非常接近大模型的性能。”

這就是為什么 Gemini 可以同時做到性能領先和手機可用。大模型在云端訓練,小模型通過蒸餾學習,部署到手機上。參數只有十分之一,但保留了 80% 以上的能力。

3、真正的門檻:能不能在現實約束下落地

但技術突破只是第一步。Jeff Dean 認為,AI 要真正普及到全球,必須面對更現實的問題:能源夠不夠?電力穩不穩?網絡通不通?設備能不能支持?

這也是為什么 Google 要在東南亞等新興市場推廣 AI。這些地區可能沒有強大的電網和服務器基礎設施,但通過 TPU 和蒸餾這樣的效率技術,人們依然可以在現有條件下用上 AI。

Google 的策略不是等條件完美了再推廣,而是讓技術適應現實。

這背后的邏輯改變了整個行業的關注點。

過去,大家比的是:

這個模型有多強?

多大參數?多少 token?

現在,真正重要的是:

它能不能在我的設備上用起來?

成本能壓到多少?

能不能離線用?

下一輪競爭,拼的不是參數,是落地效率。

結語|從模型,到系統

看性能數據,這是一次模型升級。

看 Jeff Dean 的思路,這是一次范式轉變。

從 2013 年服務器要翻倍的困境,到 2025 年拿下 IMO 金牌,Jeff Dean 一直在回答一個問題:

如何讓 AI 既強大,又可用?

答案是三個轉變:

不是拼誰的模型更大,而是拼設計更聰明(Pathways)

不是拼誰的回答更準,而是拼能真正做事(Agent)

不是拼誰的參數更多,而是拼能讓更多人用上(TPU+蒸餾)

Gemini 3 不是終點,而是這套系統思維的第一次完整展現。