Gemini 3,又一個(gè)最強(qiáng)模型出現(xiàn)。

但和上一次相比,它到底變了什么? 是跑分又漲了幾個(gè)點(diǎn),還是 AI 真的不一樣了?

就在 Gemini 3 發(fā)布后,11 月 22 日,Jeff Dean 在斯坦福大學(xué)發(fā)表演講,系統(tǒng)回顧了 15 年 AI 演進(jìn),從神經(jīng)網(wǎng)絡(luò)、TPU、Transformer 到稀疏模型和蒸餾技術(shù),最后展示 Gemini 3 的獨(dú)特能力。

在演講中,Jeff Dean 沒有講 benchmark 數(shù)字,也沒有做產(chǎn)品宣傳。他說的是:

為什么 AI 應(yīng)該像大腦那樣工作?

為什么 AI 要從能說變成能做 ?

為什么下一代 AI 不拼參數(shù),而是拼效率?

在 Jeff Dean 的視角里,Gemini 3 不只是一個(gè)更大的模型,而是讓 AI 的用法徹底變了。

這三條判斷,才是這次發(fā)布背后真正的信號。

信號一:從拼大小,到像大腦

演講一開始,Jeff Dean 就直指一個(gè)問題:傳統(tǒng) AI 模型太浪費(fèi)了。

他說:

“在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,你為每個(gè)例子激活整個(gè)模型,這非常浪費(fèi)。更好的方式是:擁有一個(gè)非常大的模型,但每次只激活其中 1% 到 5%。”

假設(shè)你有一個(gè)巨大的模型,包含了圖像、語言、數(shù)學(xué)、代碼等各種能力。傳統(tǒng)做法:無論你問什么問題,整個(gè)模型都要調(diào)用一遍。就像每次開燈,家里所有電器都要啟動(dòng)。Jeff Dean 的想法:根據(jù)任務(wù)類型,只運(yùn)行需要的那部分。處理圖片時(shí),只用視覺模塊;寫代碼時(shí),只用編程模塊。

他用大腦做比喻:你坐在英語課上,大腦會(huì)使用處理語言的那部分;開車時(shí),大腦就關(guān)閉它,將全部精力專注于控制身體和觀察路況。AI 模型也應(yīng)該這樣工作。

這個(gè)想法不是為 Gemini 3 才提出的。

早在幾年前,Jeff Dean 就開始推動(dòng)團(tuán)隊(duì)往這個(gè)方向研究,并給它起了個(gè)名字:Pathways 架構(gòu)。該架構(gòu)的核心目標(biāo),是構(gòu)建一個(gè)超大模型卻能保持高效,讓每次推理僅激活一小部分路徑。

Google 通過“專家混合”(MoE)技術(shù)來實(shí)現(xiàn)的:

模型內(nèi)部有很多專家模塊

有的擅長圖像,有的擅長語言,有的做信息融合

輸入數(shù)據(jù)進(jìn)來后,系統(tǒng)自動(dòng)決定調(diào)用哪些專家

效果有多好?Jeff Dean 在演講中展示的數(shù)據(jù)很驚人:用同樣的計(jì)算預(yù)算,MoE 架構(gòu)可以訓(xùn)練出效果提升 8 倍的模型。

而 Gemini 3,正是這套理念的最新實(shí)踐。

它不再一次性加載全部權(quán)重,而是按需調(diào)用專家模塊。

結(jié)果是:性能更強(qiáng),成本更低,還能同時(shí)處理多個(gè)任務(wù)。就像你的大腦:處理復(fù)雜問題時(shí)多個(gè)區(qū)域協(xié)同工作,做簡單事情時(shí)只用一小部分。

這個(gè)轉(zhuǎn)變意味著什么?

未來的頂級模型,不再是一個(gè)什么都做的全能選手,而是各有專長、協(xié)同工作的專業(yè)團(tuán)隊(duì)。

AI 競爭的關(guān)鍵,從“誰的模型更大”,變成了誰能更好地調(diào)用工具。

信號二:AI 為什么不只是回答?

如果說第一節(jié)講的是模型內(nèi)部如何變聰明,那第二節(jié)要講的是:它開始能為你做事了。

在演講現(xiàn)場,Jeff Dean 演示了一個(gè)例子:一位用戶有一堆家族食譜,有些是韓語手寫的,有些是英語的,都是老照片,有折痕和油漬。

用戶的需求很簡單:做一個(gè)雙語食譜網(wǎng)站。

然后,Gemini 3 做了什么? 第一步:掃描并識別所有照片中的文字; 第二步:翻譯成雙語版本; 第三步:自動(dòng)生成網(wǎng)站布局; 第四步:為每個(gè)食譜配上 AI 生成的配圖。

整個(gè)過程,用戶只說了一句話。

這就是傳統(tǒng)助手和智能 Agent 的區(qū)別。助手是你問什么它答什么,Agent 是你說目標(biāo)、它自己拆解任務(wù)、調(diào)用工具、完成整個(gè)操作鏈。

Jeff Dean 說:

AI 不只是回答你,而是具有行動(dòng)能力。

這個(gè)能力背后的技術(shù)突破是:在可驗(yàn)證領(lǐng)域的強(qiáng)化學(xué)習(xí)

什么意思?

以編程為例:

AI 生成一段代碼

系統(tǒng)自動(dòng)檢查:能編譯嗎?

如果能,給獎(jiǎng)勵(lì);如果不能,給懲罰

更進(jìn)一步:代碼通過單元測試了嗎?

通過了,給更多獎(jiǎng)勵(lì)

同樣的邏輯也適用于數(shù)學(xué):

AI 生成一個(gè)證明

系統(tǒng)用證明檢查器驗(yàn)證

正確就獎(jiǎng)勵(lì),錯(cuò)誤就指出是第幾步出錯(cuò)

Jeff Dean 說:這個(gè)技術(shù)突破使模型能夠真正探索潛在解決方案的空間,隨著時(shí)間推移,它在探索這個(gè)空間時(shí)變得越來越好。

效果有多驚人?Gemini 在 2025 年國際數(shù)學(xué)奧林匹克競賽(IMO)上,解決了六道題中的五道,獲得金牌。

這個(gè)成績有多震撼?

要知道,就在三年前的 2022 年,AI 模型在數(shù)學(xué)推理上還非常弱。

當(dāng)時(shí),業(yè)界最先進(jìn)的模型在 GSM8K(一個(gè)中學(xué)數(shù)學(xué)基準(zhǔn)測試)上的準(zhǔn)確率只有 15%。測試的題目是什么難度呢?比如:Sean 有五個(gè)玩具,圣誕節(jié)他又得到了兩個(gè),現(xiàn)在有幾個(gè)玩具?

這種小學(xué)算術(shù)題,當(dāng)時(shí)的 AI 正確率也只有 15%。

而現(xiàn)在,Gemini 能解決的是國際數(shù)學(xué)奧林匹克的題目,這是全球數(shù)學(xué)天才競賽中最難的問題。

從小學(xué)算術(shù)到奧賽金牌,用了不到三年時(shí)間。

這個(gè)飛躍說明,AI 不只是在回答問題上變強(qiáng)了,而是具備了真正的問題解決能力。它能夠自己探索、嘗試、驗(yàn)證,直到找到正確答案。

具體來說,Agent 需要三個(gè)關(guān)鍵能力:

狀態(tài)感知:知道你想要什么、理解當(dāng)前進(jìn)展

工具組合:能調(diào)用搜索、計(jì)算器、API 等外部工具

多步執(zhí)行:根據(jù)反饋調(diào)整計(jì)劃、循環(huán)嘗試直到完成

而 Gemini 3 通過和 Google 生態(tài)的深度集成,可以串聯(lián)日歷、郵件、云端服務(wù)等真實(shí)系統(tǒng),把這些能力真正用起來。

就像前面的食譜網(wǎng)站案例:你不需要說“先識別文字,再翻譯,再排版”,只需要說“做個(gè)網(wǎng)站”,Gemini 3 自己搞定所有步驟。

這改變了每個(gè)人工作方式:

過去,你要告訴 AI 每一步怎么做。

現(xiàn)在,你只需要說出目標(biāo),剩下的 AI 自己搞定。

你的角色從使用者變成了指揮者。

信號三:什么決定 AI 能否普及?

如果說 Pathways 架構(gòu)讓模型變聰明,Agent 系統(tǒng)讓模型能行動(dòng),那第三個(gè)信號最容易被忽視,但可能最關(guān)鍵:讓 AI 真正用得起。

Jeff Dean 在斯坦福講了一個(gè) 2013 年的故事。

當(dāng)時(shí),Google 剛做出一個(gè)很好的語音識別模型,比現(xiàn)有系統(tǒng)的錯(cuò)誤率低很多。Jeff Dean 做了一個(gè)測算:如果 1 億人開始每天和手機(jī)說話 3 分鐘,會(huì)發(fā)生什么?

答案是:需要把 Google 的服務(wù)器數(shù)量翻倍。

就是說,一個(gè)功能的改進(jìn),要付出整個(gè)公司服務(wù)器資源翻倍的代價(jià)。

這讓 Jeff Dean 意識到:光有好模型不夠,必須讓它用得起。

于是,TPU 誕生了。

1、TPU:為效率而生的硬件

2015 年,第一代 TPU 投入使用。它專門為機(jī)器學(xué)習(xí)設(shè)計(jì),做了一件事:把低精度線性代數(shù)運(yùn)算做到極致。

結(jié)果是什么?

比當(dāng)時(shí)的 CPU 和 GPU 快 15 到 30 倍,能效高 30 到 80 倍。

這讓原本需要翻倍服務(wù)器才能推出的功能,現(xiàn)在只需要現(xiàn)有硬件的一小部分就能實(shí)現(xiàn)。

到了最新第七代 Ironwood TPU,單個(gè) pod 有 9,216 個(gè)芯片。如果和第一代機(jī)器學(xué)習(xí)超級計(jì)算 pod(TPUv2)比,性能提升了 3,600 倍,能效提升了 30 倍。

Jeff Dean 特別指出,這些提升不只靠芯片工藝進(jìn)步,更重要的是谷歌從設(shè)計(jì)之初就把能效作為核心目標(biāo)。

2、蒸餾:讓小模型學(xué)會(huì)大模型的能力

硬件是一方面,算法是另一方面。

Jeff Dean 和 Geoffrey Hinton、Oriol Vinyals 一起研究了一個(gè)叫“蒸餾”的技術(shù)。

核心思想是:讓大模型當(dāng)老師,教小模型。

在一個(gè)語音識別任務(wù)中,他們做了個(gè)實(shí)驗(yàn):

用 100% 的訓(xùn)練數(shù)據(jù),準(zhǔn)確率是 58.9%

只用 3% 的訓(xùn)練數(shù)據(jù),準(zhǔn)確率掉到 44%

但如果用蒸餾,只用 3% 的數(shù)據(jù),準(zhǔn)確率能達(dá)到 57%

他們實(shí)現(xiàn)了用 3% 的數(shù)據(jù),達(dá)到接近 100% 數(shù)據(jù)的效果。

Jeff Dean 說:

“你可以訓(xùn)練一個(gè)非常大的模型,然后用蒸餾讓一個(gè)小得多的模型獲得非常接近大模型的性能。”

這就是為什么 Gemini 可以同時(shí)做到性能領(lǐng)先和手機(jī)可用。大模型在云端訓(xùn)練,小模型通過蒸餾學(xué)習(xí),部署到手機(jī)上。參數(shù)只有十分之一,但保留了 80% 以上的能力。

3、真正的門檻:能不能在現(xiàn)實(shí)約束下落地

但技術(shù)突破只是第一步。Jeff Dean 認(rèn)為,AI 要真正普及到全球,必須面對更現(xiàn)實(shí)的問題:能源夠不夠?電力穩(wěn)不穩(wěn)?網(wǎng)絡(luò)通不通?設(shè)備能不能支持?

這也是為什么 Google 要在東南亞等新興市場推廣 AI。這些地區(qū)可能沒有強(qiáng)大的電網(wǎng)和服務(wù)器基礎(chǔ)設(shè)施,但通過 TPU 和蒸餾這樣的效率技術(shù),人們依然可以在現(xiàn)有條件下用上 AI。

Google 的策略不是等條件完美了再推廣,而是讓技術(shù)適應(yīng)現(xiàn)實(shí)。

這背后的邏輯改變了整個(gè)行業(yè)的關(guān)注點(diǎn)。

過去,大家比的是:

這個(gè)模型有多強(qiáng)?

多大參數(shù)?多少 token?

現(xiàn)在,真正重要的是:

它能不能在我的設(shè)備上用起來?

成本能壓到多少?

能不能離線用?

下一輪競爭,拼的不是參數(shù),是落地效率。

結(jié)語|從模型,到系統(tǒng)

看性能數(shù)據(jù),這是一次模型升級。

看 Jeff Dean 的思路,這是一次范式轉(zhuǎn)變。

從 2013 年服務(wù)器要翻倍的困境,到 2025 年拿下 IMO 金牌,Jeff Dean 一直在回答一個(gè)問題:

如何讓 AI 既強(qiáng)大,又可用?

答案是三個(gè)轉(zhuǎn)變:

不是拼誰的模型更大,而是拼設(shè)計(jì)更聰明(Pathways)

不是拼誰的回答更準(zhǔn),而是拼能真正做事(Agent)

不是拼誰的參數(shù)更多,而是拼能讓更多人用上(TPU+蒸餾)

Gemini 3 不是終點(diǎn),而是這套系統(tǒng)思維的第一次完整展現(xiàn)。