无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌四大巨頭齊聚,重磅長(zhǎng)談大爆猛料!五年后的谷歌可能只有一款產(chǎn)品,模型學(xué)習(xí)效率比人類低很多

0
分享至

“我們有點(diǎn)處在自己的科技泡沫里?!?br/>“五年后的谷歌只有一款產(chǎn)品。”
“過去我們分散精力和算力,這太蠢了。”

當(dāng)?shù)貢r(shí)間5月30日,谷歌官方發(fā)布了一支重磅對(duì)談視頻,Google DeepMind 團(tuán)隊(duì)的四位巨頭罕見地坐到了同一個(gè)鏡頭前:Google Brain 奠基人 Jeff Dean、Transformer 奠基人之一Noam Shazeer、Gemini 聯(lián)合負(fù)責(zé)人 Oriol Vinyals 以及 DeepMind 首席技術(shù)官 Koray Kavukcuoglu。



這四個(gè)人,幾乎參與了過去十多年谷歌 AI 最重要的每一次技術(shù)躍遷。

在這場(chǎng)由 Logan Kilpatrick 主持的深度對(duì)話中,四位巨頭不僅揭秘了 Gemini 3.5 Flash 研發(fā)幕后,還復(fù)盤了谷歌從 PaLM 到 Gemini 的融合陣痛與“算力集中”內(nèi)幕。

這幾個(gè)人基本就是Gemini背后最核心的一批人。

所以這期表面上是在聊Gemini3.5,實(shí)際上信息量要大很多。

他們聊了Gemini這個(gè)項(xiàng)目最早為什么要成立,Google內(nèi)部為什么要把分散的模型團(tuán)隊(duì)和算力合到一起,也聊了接下來一年大模型最重要的幾個(gè)方向:

agentic coding、self-learning、long-running agent、world model,以及模型怎么反過來參與改進(jìn)下一代Gemini。

對(duì)于Gemini感興趣的朋友們建議聽一下。



這次對(duì)談的主要內(nèi)容概括如下:

第一,Gemini最早不是一個(gè)單純的模型項(xiàng)目,而是Google內(nèi)部一次研究力量和算力的合并。

Jeff Dean表示Gemini之前,Google內(nèi)部已經(jīng)有很多團(tuán)隊(duì)在做通用模型、Pathways、PaLM、PaLM2等方向。

Jeff覺得繼續(xù)分散研究團(tuán)隊(duì)和compute很荒謬,如果Google真要做一個(gè)足夠強(qiáng)大的模型,就必須把人、算力、基礎(chǔ)設(shè)施、數(shù)據(jù)團(tuán)隊(duì)集中到一起。

Noam Shazeer也表示:當(dāng)時(shí)有很多團(tuán)隊(duì)都在做LLM,最后確實(shí)需要合到一起。Koray則從組織角度解釋,AI研究早期更像學(xué)術(shù)探索,可以多路并行。

但當(dāng)模型越來越大、越來越復(fù)雜,靠小團(tuán)隊(duì)分散探索已經(jīng)不夠了,必須變成一個(gè)集中式的大工程。

所以Gemini其實(shí)是Google和DeepMind把分散能力合并的結(jié)果。

第二,Gemini3.5這代的重點(diǎn),是coding和agentic experience。

Oriol說Gemini從2023年開始一路迭代,底層一直在多模態(tài)、工具使用、agentic能力上往前推,這次3.5 Flash的重點(diǎn)尤其是agentic coding。

Koray說:現(xiàn)在coding能力和agentic experience正在定義用戶怎么體驗(yàn)AI。

換句話說,Google自己也承認(rèn),大模型競(jìng)爭(zhēng)已經(jīng)不只是聊天質(zhì)量,而是模型能不能進(jìn)入真實(shí)工作流,尤其是寫代碼、用工具、長(zhǎng)期執(zhí)行任務(wù)。

Noam的視角更內(nèi)部一點(diǎn)。

他說大版本發(fā)布本身反而沒那么刺激了,大家更關(guān)心的是:明天自己做工程和研究時(shí),到底會(huì)用哪個(gè)模型?辦公室里的同事會(huì)不會(huì)抱怨?

Gemini已經(jīng)先變成Google內(nèi)部研發(fā)工具,再變成外部產(chǎn)品。

第三,Google很強(qiáng)調(diào)真實(shí)產(chǎn)品反饋,而不是只看benchmark。

Jeff Dean提到,如果一個(gè)模型有很多用戶,就能看到它在哪些地方有效、哪些地方不行。

Google過去做Search就是這么迭代的,用戶怎么用搜索,會(huì)反過來告訴團(tuán)隊(duì)哪里需要改進(jìn)。

他認(rèn)為AI模型也應(yīng)該一樣,必須放到真實(shí)用戶面前。

Noam Shazeer直接說:真正的測(cè)試是用戶有沒有在用。如果你只是關(guān)在盒子里爬benchmark,最后優(yōu)化出來的就是benchmark,甚至可能污染benchmark。

這個(gè)判斷挺關(guān)鍵,因?yàn)樗忉屃藶槭裁碐oogle一定要把Gemini塞進(jìn)Search、Workspace、Android、眼鏡這些真實(shí)入口里。

Koray進(jìn)一步把這個(gè)叫做「frontier」的一部分。前沿不只是研究能力的前沿,也是產(chǎn)品能讓用戶做什么的前沿。

技術(shù)能力和產(chǎn)品反饋必須同時(shí)推進(jìn)。

第四,Gemini的多模態(tài)方向就是world model。

Koray說,Omni不是簡(jiǎn)單的文本到視頻、文本到圖像,而是一個(gè)要理解物理世界所有模態(tài)的模型。

它要理解視覺、動(dòng)態(tài)、物理規(guī)律,還要能模擬未來狀態(tài)。因?yàn)槿绻粋€(gè)模型真的要做決策,它不能只理解當(dāng)前畫面,還要能往前推演。

Oriol更偏技術(shù)。

他說過去做視頻生成時(shí),很多東西要手工指定,比如復(fù)雜場(chǎng)景如何保持一致,物體轉(zhuǎn)動(dòng)后不能消失。

但現(xiàn)在通過大規(guī)模聯(lián)合訓(xùn)練和混合數(shù)據(jù),模型開始自然涌現(xiàn)出更好的時(shí)序一致性、3D世界、聲音等能力。

Jeff則把多模態(tài)范圍繼續(xù)擴(kuò)大。他說多模態(tài)不應(yīng)該只理解文本、圖像、音頻、視頻這些人類常見輸入,還應(yīng)該理解基因序列、化學(xué)結(jié)構(gòu)、機(jī)器人抓取數(shù)據(jù)、LiDAR數(shù)據(jù)等科學(xué)和物理世界數(shù)據(jù)。

所以他們說的world model,本質(zhì)是Gemini從「理解互聯(lián)網(wǎng)內(nèi)容」往「理解物理世界和科學(xué)數(shù)據(jù)」擴(kuò)。

第五,最讓他們驚訝的進(jìn)展之一,是能持續(xù)把Pro級(jí)能力壓進(jìn)Flash。

Oriol說他沒想到Google能一代又一代把Pro模型的智能壓回Flash模型里。

甚至有時(shí)下一代Flash可以超過上一代Pro。

這個(gè)點(diǎn)很重要,因?yàn)镕lash不是單純的小模型,而是Google試圖把高能力變成低成本、高速度、可大規(guī)模分發(fā)的載體。

Jeff解釋了蒸餾的邏輯:有一個(gè)很好的teacher model,再訓(xùn)練一個(gè)student model。

基本精神和早期distillation類似,只是做了一些調(diào)整。

Koray還開了個(gè)很形象的玩笑,說這就像擠檸檬,把汁擠出來倒進(jìn)小杯子里,小杯子就是小模型。

Google不只是追求最強(qiáng)模型,也在追求把強(qiáng)模型能力盡可能便宜地塞進(jìn)更多產(chǎn)品。

畢竟Google這種體量,模型不能只在demo里漂亮,還得能被幾十億用戶反復(fù)調(diào)用。

算力賬單這種東西,最終會(huì)讓所有豪言壯語變得很樸素。

第六,他們也承認(rèn),現(xiàn)在還有幾個(gè)明顯沒解決好的問題。

Jeff覺得,continual learning和更靈活、更有可塑性的模型架構(gòu)進(jìn)展不夠快。

他提到現(xiàn)在的MoE還是很多結(jié)構(gòu)相似的expert,他原本期待一種更有機(jī)、更流動(dòng)的結(jié)構(gòu),但現(xiàn)在還沒做到。

Noam半開玩笑地說,遺憾是模型還不能直接「發(fā)明癌癥療法」。

模型離真正解決復(fù)雜科學(xué)問題還有距離。

Oriol說得更具體,他認(rèn)為evaluation被低估了。以前學(xué)術(shù)論文里就是幾張benchmark表格,但現(xiàn)在模型進(jìn)入真實(shí)產(chǎn)品后,評(píng)估變復(fù)雜了:

能力怎么拆開測(cè)?

數(shù)據(jù)有沒有泄露?

用戶會(huì)不會(huì)認(rèn)同這個(gè)分?jǐn)?shù)?

模型下一步的大能力怎么提前判斷?

這些都很難。

Jeff還提到一個(gè)更底層的問題:模型學(xué)習(xí)效率比人類低很多。

他認(rèn)為現(xiàn)在大模型看了遠(yuǎn)多于人類的數(shù)據(jù),才達(dá)到類似或部分超過人類的能力。

如果能從每個(gè)樣本、每個(gè)token里榨出更多信息,模型效率會(huì)大幅提升。

第七,接下來一年,他們最期待的方向是self-learning,也就是讓模型參與改進(jìn)Gemini本身。

Koray預(yù)測(cè),到27前后,他們可能會(huì)開始談self-learning?,F(xiàn)在模型已經(jīng)越來越agentic,也越來越會(huì)寫代碼,Google內(nèi)部也在用它們做研究。

接下來會(huì)出現(xiàn)一個(gè)階段:他們會(huì)在某些實(shí)驗(yàn)層面依賴模型來改進(jìn)Gemini的不同部分。

Jeff也認(rèn)同這個(gè)方向。他說到時(shí)候可能能指出Gemini里的某個(gè)重要改進(jìn),是由模型和Agent工作產(chǎn)生的。

Noam表示以前你會(huì)對(duì)團(tuán)隊(duì)成員說,「你去試試這個(gè)實(shí)驗(yàn),下周告訴我結(jié)果」。以后你會(huì)把這個(gè)任務(wù)交給模型。

Google不是只想讓Gemini服務(wù)用戶,它也想讓Gemini進(jìn)入Gemini自己的研發(fā)流程。

模型從產(chǎn)品變成研發(fā)系統(tǒng)的一部分。

第八,另一個(gè)明確前沿是long-running agent,但這會(huì)把記憶、硬件、工具鏈的問題一起暴露出來。

Logan提出了一個(gè)判斷:即使coding模型明天再提升20%,真正的問題也會(huì)變成你愿意讓模型自主運(yùn)行多久。

如果到到了IO2027,Google能說某個(gè)模型已經(jīng)連續(xù)自主運(yùn)行30天,那會(huì)讓很多人震驚。

但他們也馬上意識(shí)到,這不是單靠模型更聰明就能做到。

Logan說,這需要memory system、continual learning、更好的硬件,因?yàn)樽屢粋€(gè)東西跑30天會(huì)消耗巨量token。

Jeff補(bǔ)了一刀:還要低延遲的推理硬件。如果一個(gè)任務(wù)名義上跑30天,但更好的硬件能讓它一天跑完,那當(dāng)然更有價(jià)值。

更現(xiàn)實(shí)的問題是工具太慢。

Jeff說,Agent會(huì)讓大家發(fā)現(xiàn),今天很多工具都是按人類延遲設(shè)計(jì)的。人類點(diǎn)一下、等幾秒、看頁面覺得正常;但Agent如果高頻調(diào)用這些工具,模型再快也會(huì)被工具卡住。

Noam順勢(shì)說,30天任務(wù)里可能29.5天都在等待。

這個(gè)點(diǎn)其實(shí)很重要。

Agent時(shí)代不只是模型公司繼續(xù)堆參數(shù),整個(gè)軟件工具鏈都要適配機(jī)器調(diào)用。現(xiàn)在很多工具看起來高級(jí),其實(shí)只是給人類慢吞吞點(diǎn)擊設(shè)計(jì)的電子家具。

第九,他們對(duì)Google未來產(chǎn)品形態(tài)的判斷是:底層可能越來越像一個(gè)模型,但上層入口不會(huì)真的只剩一個(gè)。

Logan問了一個(gè)很好的問題:五年后Google到底會(huì)只有幾個(gè)產(chǎn)品,還是會(huì)有一萬個(gè)產(chǎn)品?

Koray先給了一個(gè)很狠的答案:只有一個(gè)產(chǎn)品,就是模型。

Jeff認(rèn)為,會(huì)有很多產(chǎn)品出口,但讓這些產(chǎn)品變強(qiáng)的東西會(huì)更少、更集中。

比如Search是一個(gè)產(chǎn)品,眼鏡也是一個(gè)產(chǎn)品,但它們都會(huì)被更強(qiáng)的模型能力改造。

Oriol作為用戶反而更謹(jǐn)慎。

他說人類使用數(shù)字設(shè)備時(shí),還是會(huì)主動(dòng)選擇自己要做什么,比如看日歷、查郵件、購(gòu)物。這種分工可能是人類因素,不完全是技術(shù)限制。

他自己并不愿意押注未來只剩一個(gè)產(chǎn)品。

Noam則把問題推到更遠(yuǎn)。

他說信息產(chǎn)品可能有很多消費(fèi)方式:文字、視覺、眼鏡,甚至更奇怪的腦機(jī)接口。

更遠(yuǎn)一點(diǎn),模型也許會(huì)進(jìn)入physical products,開始moving atoms,而不只是moving bits。

Gemini不是單點(diǎn)模型競(jìng)爭(zhēng)。

它越來越像Google未來AI系統(tǒng)的核心操作層。

模型負(fù)責(zé)理解和生成,Agent負(fù)責(zé)長(zhǎng)期執(zhí)行,產(chǎn)品負(fù)責(zé)收集真實(shí)反饋,硬件負(fù)責(zé)把成本和延遲打下來,工具鏈負(fù)責(zé)讓機(jī)器真的能干活。

誰能把模型接進(jìn)自己的研發(fā)、產(chǎn)品和基礎(chǔ)設(shè)施循環(huán)里,讓它持續(xù)變強(qiáng)。

誰就會(huì)取得領(lǐng)先地位。

以上內(nèi)容由【MaxForAI】整理。

以下為本次對(duì)談完整版,由【51CTO技術(shù)?!烤幾g。

Google DeepMind 四巨頭齊聚,首次揭秘 Gemini 3.5 幕后

Logan Kilpatrick:大家好,我是來自 Google DeepMind 團(tuán)隊(duì)的 Logan Kilpatrick。今天我們邀請(qǐng)到了 Jeff、Koray、Noam 和 Oriol,一起聊聊關(guān)于Gemini 的一切、Gemini 項(xiàng)目的起源以及更多精彩內(nèi)容。

我們剛剛推出了以 Flash 為首的 Gemini 3.5 時(shí)代模型。我想這已經(jīng)是第三代半的 Gemini 模型了,期間我們發(fā)布了很多產(chǎn)品和模型。Oriol,你想帶我們了解一下 Gemini 3.5 推出的這一刻嗎?

Oriol Vinyals:好的,或許我們每個(gè)人都可以分享一點(diǎn)。說到烘托氛圍,我想我們是在 2023 年開始的。我們已經(jīng)發(fā)布了好幾個(gè)版本,有些是“半代”模型,甚至還有點(diǎn)一個(gè)(.1)的版本,對(duì)吧?我們從一開始就建立在多模態(tài)、工具使用和智能體(Agentic)的基礎(chǔ)架構(gòu)之上,并且一直在不斷提升這些能力。所以能發(fā)布 3.5 的 Flash 版本令人非常興奮。這是一個(gè)非常強(qiáng)大的系列,這次的重點(diǎn)可能放在了編程能力上,當(dāng)然,同時(shí)也保留并增強(qiáng)了其他原有的能力。

Koray Kavukcuoglu:我想大家都感覺到,現(xiàn)在正是編程能力和智能體體驗(yàn)定義 AI 體驗(yàn)的時(shí)代,而 3.5 在這方面邁出了一大步。而且我認(rèn)為大家確實(shí)體會(huì)到了這一點(diǎn),它正被公認(rèn)為一個(gè)非常強(qiáng)大的模型。

Noam Shazeer:從某種程度上說,這些重大的發(fā)布時(shí)刻反而變得沒那么讓人興奮了,因?yàn)楝F(xiàn)在每個(gè)人腦子里最關(guān)心的甚至不是對(duì)公眾的重大發(fā)布,而是:我明天要用什么工具來做我的工程和研究?我周圍辦公室的朋友們會(huì)用什么來進(jìn)行他們的工程和研究?他們會(huì)對(duì)我有怨言,還是會(huì)覺得滿意?這種日常的反饋其實(shí)總是充滿樂趣和挑戰(zhàn)的。

從 PaLM 到 Gemini,

Jeff Dean:把精力和算力分散,過去我們太蠢了!

Logan Kilpatrick:回想最初大家聚在一起、組建 Gemini 項(xiàng)目并發(fā)布第一批模型的那段時(shí)光,當(dāng)時(shí)對(duì)你們所有人來說,如何將 Gemini 模型帶向世界的“產(chǎn)品故事”會(huì)如此重要,是顯而易見的嗎?我的意思是,顯然在谷歌我們有很多產(chǎn)品,我們通過這些產(chǎn)品將 AI 帶來客戶,但為了“改進(jìn)模型本身”,這種產(chǎn)品路徑是屬于“我們希望它發(fā)生并有意為之”的,還是隨著時(shí)間的推移變得越來越顯而易見,因?yàn)楝F(xiàn)在的應(yīng)用場(chǎng)景比最初版本的 Gemini 要復(fù)雜得多?

Koray Kavukcuoglu:哈哈,對(duì)我來說,這就是我的工作。

Jeff Dean:我認(rèn)為這在當(dāng)時(shí)其實(shí)是顯而易見的:如果你的模型有很多人在使用,你就會(huì)獲得大量的經(jīng)驗(yàn)和教訓(xùn),知道什么是行得通的,什么是行不通的。我們?cè)谒阉黝I(lǐng)域已經(jīng)見證了許多年:用戶對(duì)搜索的使用,真正啟發(fā)了我們哪些地方做得不好、哪些地方應(yīng)該做得更好。通過聚合大量有趣的日常使用數(shù)據(jù)來更深層次地理解這些問題,然后致力于改進(jìn)它們,這至關(guān)重要,AI 模型也不應(yīng)該有什么不同。所以這從一開始就顯而易見,但前提是我們要有一個(gè)產(chǎn)品擺在那里供人們使用。

當(dāng)“跑分”失效,誰來定義 AI 時(shí)代的真正“前沿”?

Noam Shazeer:是的,這才是真正的考驗(yàn),有人去用它,并且它對(duì)人們有用。因?yàn)槿绻阒皇顷P(guān)起門來,試圖在基準(zhǔn)測(cè)試上盲目刷榜,那你最終得到的就只是好看的分?jǐn)?shù),甚至還可能導(dǎo)致基準(zhǔn)測(cè)試數(shù)據(jù)泄露,結(jié)果并不會(huì)好。

Koray Kavukcuoglu:你不想在一個(gè)黑盒里閉門造車地構(gòu)建智能,你希望人們?nèi)ナ褂盟R虼?,理解用戶的需求至關(guān)重要。探索前沿不僅是指在技術(shù)能力上探索研究的前沿,也是在探索你下一步能為用戶做什么。如果不把它和產(chǎn)品結(jié)合起來,你就無法做到這一點(diǎn)。這兩者相輔相成,共同定義了“前沿”的含義。

Oriol Vinyals:在 Gemini 啟動(dòng)時(shí),其實(shí)已經(jīng)有很多機(jī)器學(xué)習(xí)模型應(yīng)用到產(chǎn)品中了。當(dāng)時(shí)顯而易見的是,如果我們能創(chuàng)造出一個(gè)單一的、能力超越其他模型平均水平的模型來驅(qū)動(dòng)一切,那絕對(duì)是一個(gè)巨大的飛躍。至于是否能圍繞一個(gè)單一模型創(chuàng)造出一個(gè)單一的產(chǎn)品,當(dāng)時(shí)可能還沒那么清晰。但我認(rèn)為有一點(diǎn)非常明確,那就是將所有的算力和智能投入到一個(gè)單一的強(qiáng)大模型中,將會(huì)使谷歌已經(jīng)在使用機(jī)器學(xué)習(xí)的許多業(yè)務(wù)實(shí)現(xiàn)跨越式發(fā)展。在最初被賦予如此多的算力和責(zé)任時(shí),大家都感到非常興奮。而現(xiàn)在,它確實(shí)被證明已經(jīng)成為了谷歌智能的核心引擎。

Jeff Dean:甚至在我們啟動(dòng) Gemini 項(xiàng)目之前,就有很多人在思考如何構(gòu)建具有超強(qiáng)通用能力的模型。Oriol 當(dāng)時(shí)在 DeepMind 領(lǐng)導(dǎo)一些工作,而我則在協(xié)助推進(jìn) Pathways 項(xiàng)目以及 PaLM 和 PaLM 2 等項(xiàng)目。我當(dāng)時(shí)說,這太蠢了,我們正在分散我們的精力和算力。如果我們想打造一個(gè)極其強(qiáng)大的模型,我們就必須聯(lián)合起來,集中力量構(gòu)建一個(gè)單一的模型。這其實(shí)就是 Gemini 這個(gè)名字的由來。

Oriol Vinyals:我們先進(jìn)行了映射(Map),然后進(jìn)行了化簡(jiǎn)(Reduce)。

Koray Kavukcuoglu:我還以為是因?yàn)槲矣须p胞胎呢。

Jeff Dean:那也是原因。

擁有一個(gè)大團(tuán)隊(duì),總好過五個(gè)各自為戰(zhàn)的小團(tuán)隊(duì)

Logan Kilpatrick:Jeff,這是一個(gè)很好的過渡,讓我們?cè)俅位氐?Gemini 項(xiàng)目的組建時(shí)期。我很想知道,當(dāng)時(shí)這個(gè)決定有多大的爭(zhēng)議?顯然,正如你現(xiàn)在所說,我們已經(jīng)進(jìn)行了三次半的迭代,把團(tuán)隊(duì)召集在一起的所有組織層面的復(fù)雜問題現(xiàn)在都已經(jīng)成為過去了。但在當(dāng)時(shí),這件事情是顯而易見到“如果我們不這樣做,我們就無法贏,也無法為客戶構(gòu)建出正確的產(chǎn)品和模型”的程度,還是說它最初更像是一個(gè)不切實(shí)際的高遠(yuǎn)想法?我很想知道你當(dāng)時(shí)的信心程度是怎樣的?

Jeff Dean:我當(dāng)時(shí)非常確定,將大家聯(lián)合起來才是正確的做法。我甚至在一份半頁紙的備忘錄里明確闡述過:分散精力的做法太蠢了。當(dāng)時(shí)我感覺,把我們最好的想法分散在不同的、并沒有真正協(xié)同工作的研究團(tuán)隊(duì)中,同時(shí)也分散了我們的算力,這兩個(gè)問題顯然都是我們應(yīng)該去解決的。雖然在組織層面上有點(diǎn)復(fù)雜,而且還有時(shí)差問題,比如倫敦有很多人,這里也有很多人,相隔 8 小時(shí)從來都不是輕松協(xié)作的方法,但我認(rèn)為我們?cè)趨f(xié)調(diào)和把大家聚集在一起方面做得非常好?,F(xiàn)在我們?cè)谑澜绺鞯負(fù)碛辛艘粋€(gè)非常棒、令人驚嘆的團(tuán)隊(duì),并且正在源源不斷地打造出優(yōu)秀模型。

Noam Shazeer:當(dāng)時(shí)有一堆團(tuán)隊(duì)在各自構(gòu)建大語言模型,你基本上只需要把他們?nèi)诤显谝黄稹?/p>

Koray Kavukcuoglu:在過去的某個(gè)階段,人工智能研究其實(shí)更偏向?qū)W術(shù)界,對(duì)吧?如果你回到10年前,它更多的是學(xué)術(shù)研究。在那個(gè)階段,你如何組織它并不是最關(guān)鍵的要素,更多的是關(guān)于探索,探索的速度才是重要的。但隨著目標(biāo)越來越集中,你真正想要的就是像 Jeff 所說的這種聚焦式的運(yùn)作。因?yàn)檫@些工作需要更多專注的投入,而且就眾多研究人員聚集在一起解決許多問題而言,其中的每一個(gè)項(xiàng)目都是一項(xiàng)重大工程,我們不再需要嘗試并行地去構(gòu)建各種東西。在那個(gè)節(jié)點(diǎn)上,我認(rèn)為這真的是一個(gè)非常棒的主意。我認(rèn)為兩家組織(Google Brain 和 DeepMind)對(duì)此都行動(dòng)迅速,并促成了這件事。這當(dāng)然是一次特別的經(jīng)歷,把兩個(gè)組織融合在一起從來都不是一件容易的事,但我認(rèn)為每個(gè)人都意識(shí)到了這是正確的時(shí)刻,并且能從中獲得巨大的價(jià)值。我想我們所有人都能看到,整個(gè)組織都為我們共同構(gòu)建的成果感到非常自豪,Gemini 真正就是這一融合的果實(shí)。

Noam Shazeer:這就是規(guī)模的魅力,當(dāng)你構(gòu)建出一個(gè)美麗且龐大的單一 LLM 時(shí),它能做這么多的事情。所以你確實(shí)需要把這么多人、這么多的算力,以及基礎(chǔ)設(shè)施團(tuán)隊(duì)、數(shù)據(jù)團(tuán)隊(duì)等等全部整合在一起。擁有一個(gè)這樣的團(tuán)隊(duì),總好過五個(gè)規(guī)模很小的團(tuán)隊(duì)。

從 Pathways 到 Gemini Omni:

探索一個(gè)包攬所有模態(tài)的“萬能后端”

Jeff Dean:我想說的一點(diǎn)是,從一開始我們就希望 Gemini 能夠……甚至在 Gemini 誕生之前,Pathways 項(xiàng)目的起源之一就是去探索一個(gè)可以做很多事情的單一模型:一個(gè)能夠處理所有不同模態(tài)的多模態(tài)模型;一個(gè)非常龐大且稀疏的模型,這樣你就可以針對(duì)不同類型的事情激活它的不同部分。而這三點(diǎn)在現(xiàn)在的 Gemini 模型中都得到了體現(xiàn)。我想現(xiàn)在通過 Omni,我們已經(jīng)掌握了多模態(tài)能力,現(xiàn)在我們甚至可以生成視頻了。以前我們只能生成圖像和音頻。這真的很棒,因?yàn)槟銚碛辛诉@個(gè)具有驚人推理能力的強(qiáng)大模型的全部力量,它能處理很多輸入模態(tài),甚至可以編輯它剛剛生成的視頻。

Koray Kavukcuoglu:我認(rèn)為 Omni 是一種全新的能力,對(duì)吧?當(dāng)然,我們之前有 Veo 和 Nano Banana ,你可以做文本到視頻、文本到圖像,但你真正想要的是一個(gè)能夠理解物理世界所有模態(tài)的模型,這樣它不僅能理解物理學(xué)和一切規(guī)律,還能同時(shí)結(jié)合文本,因?yàn)槲谋局幸舶罅筷P(guān)于世界的、非常高層面的信息。

Gemini Omni 是真正的世界模型嗎?

還是一種市場(chǎng)定位?

Logan Kilpatrick:Koray,很快插一句,我有一個(gè)關(guān)于這方面的問題。在 I/O 大會(huì)的主旨演講中,我們似乎把 Omni 放在了類似“世界模型(World Model)”的板塊中。我很想知道,這里面實(shí)際上是否包含了一堆 Genie 世界模型的東西,還是說這只是一種面向下一階段的市場(chǎng)定位,即輸入任何東西并輸出任何東西,而這就是我們對(duì)世界模型的呈現(xiàn)方式?這一點(diǎn)我之前還沒完全搞明白。

Koray Kavukcuoglu:那我談?wù)勎业目捶ò?,Oriol 在這些方面做了很多工作。世界模型意味著你真正理解了動(dòng)力學(xué)、物理學(xué)和視覺效果,然后你還必須能夠?qū)ζ溥M(jìn)行模擬。因?yàn)檫@種模擬能力非常關(guān)鍵,它既能讓我們理解模型是否掌握正確,而且當(dāng)你想要依賴這個(gè)模型時(shí),你也會(huì)希望模型能夠向前推進(jìn)這種模擬,并且模型做出的決策是基于對(duì)未來的模擬。這就是為什么我認(rèn)為 Gemini Omni屬于另一個(gè)不同的范疇,它真正改變了我們之前對(duì) Gemini 的定義(之前主要側(cè)重于理解和文本輸出)以及 Veo(文本輸入并進(jìn)行視頻建模)的割裂狀態(tài),它將這些能力融為一體,變成了一個(gè)真正意義上的世界模型。

Oriol Vinyals:通過聯(lián)合訓(xùn)練將其轉(zhuǎn)化為了一個(gè)真正意義上的世界模型。我們當(dāng)然希望所有的東西都能實(shí)現(xiàn)遷移,建立一個(gè)更好的文本理解模型也有助于提升世界建模的能力,但我認(rèn)為我們每次嘗試都會(huì)發(fā)現(xiàn)這并不容易。不過,隨著我們掌握了正確的訣竅,我們看到了成果?;叵氘?dāng)年,推出一個(gè)復(fù)雜的視頻場(chǎng)景、保持前后一致性等等所有這些事情,你幾乎必須手動(dòng)去思考它們,甚至要預(yù)先指定如何讓視覺效果隨著時(shí)間推移保持正確,而過去當(dāng)你轉(zhuǎn)動(dòng)畫面時(shí),里面的物體就消失了?,F(xiàn)在,僅僅通過大規(guī)模的訓(xùn)練并不斷融合所有的數(shù)據(jù),我們看到了這些能力的涌現(xiàn),這才是令人興奮的地方,也是我們一直以來提出的核心前提。現(xiàn)在,我們終于還能輸出令人驚嘆且一致的 3D 世界、聲音以及所有的一切。如果幾年前你問我這種方法行不行得通,我覺得這幾乎是不可能的,否則我們可能10年前就這么做了。但事實(shí)是,它確實(shí)實(shí)現(xiàn)了。

Jeff Dean:是的,可能也得益于更多的數(shù)據(jù)。當(dāng)你聽到“多模態(tài)”這個(gè)詞時(shí),你本能地會(huì)被吸引到人類的模態(tài)上,比如文本、圖像、音頻和視頻。但實(shí)際上,你更希望模型能夠理解更豐富的模態(tài)集——比如理解來自基因組序列、化學(xué)結(jié)構(gòu)、機(jī)器人抓取數(shù)據(jù)或激光雷達(dá)數(shù)據(jù)等有趣的科學(xué)數(shù)據(jù)。讓模型接觸一點(diǎn)這類數(shù)據(jù),能讓它在以后遇到更多同類數(shù)據(jù)時(shí),理解得更好。

沒有 Coding Agents 時(shí),Jeff Dean 就是我們的 Agent

Logan Kilpatrick:我覺得 Google DeepMind 團(tuán)隊(duì)能夠打造出這個(gè)模型,以及能夠完成之前提到的這段融合重組的故事,其中的一部分原因其實(shí)在于“人”,在于你們大家其實(shí)真正彼此了解。我們?cè)陂_拍前還在鏡頭外聊過,你們大家都是什么時(shí)候認(rèn)識(shí)、開始一起工作并聽說彼此的。我很想聽聽你們每個(gè)人版本的相識(shí)故事 。

Jeff Dean:也許我可以先開始,因?yàn)槲蚁胛艺J(rèn)識(shí)大家的時(shí)間最長(zhǎng)。可以這么說,在谷歌非常早期的那些年里,我做了大量的工程招聘和面試工作。有大概三年的時(shí)間,谷歌所有的工程簡(jiǎn)歷都是由我來篩選的。

Noam Shazeer:那段經(jīng)歷很神奇,他們會(huì)直接抱來像一座小山一樣巨厚的一疊簡(jiǎn)歷。他當(dāng)時(shí)篩選起來就像:“不要,要,要,不要,不要,不要,要?!彼俣瘸?jí)快。

Oriol Vinyals:我記得當(dāng)時(shí)有很多反復(fù)的溝通。我加入之后,我們啟動(dòng)了兩個(gè)項(xiàng)目,其中之一就是模型蒸餾。我記得當(dāng)時(shí)的代碼庫非常復(fù)雜,全是 C++。而你剛從學(xué)術(shù)界出來,并不完全清楚如何規(guī)范地去實(shí)現(xiàn)這些東西,但想法是清晰的。我清晰地記得我坐在 Jeff 的辦公桌旁,他就在那直接手寫各種類的代碼,比如“好吧,這是蒸餾,這是 KL 散度”等等。我們那時(shí)候可沒有 AI 編程智能體。但可以說,在有一段時(shí)間里,Jeff 本人就像是這個(gè)項(xiàng)目的 AI 編程智能體,而且直到今天,他依然是一個(gè)很難被超越的標(biāo)桿。

Jeff Dean:那個(gè)項(xiàng)目很不錯(cuò),因?yàn)?Geoff Hinton 之前在 MNIST 上做了一些非常早期的探索,MNIST 是一個(gè)非常非常小的標(biāo)準(zhǔn)數(shù)據(jù)集,他可以在自己的筆記本電腦上運(yùn)行。他對(duì)于如何將一個(gè)大模型的知識(shí)遷移到一個(gè)小模型中有些很棒的想法。我想著我們必須在大規(guī)模數(shù)據(jù)上展示這個(gè)成果。于是,我們針對(duì) 3 億張圖像(在當(dāng)時(shí)這已經(jīng)算海量了)訓(xùn)練了一個(gè)由 50 個(gè)模型組成的集成模型(Ensemble),而且是 50 個(gè)截然不同的模型。我們對(duì)類別進(jìn)行了分組,比如這個(gè)模型專門擅長(zhǎng)識(shí)別汽車,那個(gè)模型專門擅長(zhǎng)識(shí)別野生動(dòng)物。然后我們通過蒸餾把這些知識(shí)遷移到了一個(gè)單一模型中,它的準(zhǔn)確率比直接在原始數(shù)據(jù)上訓(xùn)練的單一模型要高得多。

Oriol Vinyals:順便說一句,我記得當(dāng)時(shí)算力已經(jīng)開始受限了。但你唯一需要做的就是去問 Jeff:“嘿,我們的 CPU 用完了?!彼蜁?huì)去某個(gè)網(wǎng)站,改一下數(shù)字,我們的算力就翻倍了。我們這么干了好幾次。

Jeff Dean:是的,當(dāng)時(shí)我有超級(jí)用戶權(quán)限。遺憾的是,指數(shù)級(jí)增長(zhǎng)有時(shí)也會(huì)停止。

我們是怎么把 Pro 的智能,一代代塞進(jìn) Flash 里的?

Logan Kilpatrick:這太瘋狂了。我們需要一部關(guān)于這個(gè)的電影。另外,回過頭來反思這三年半、甚至更長(zhǎng)的時(shí)間,坐在現(xiàn)在的立場(chǎng)上,有沒有什么事情是讓你們感到既“正面驚喜”又“負(fù)面驚喜”的?比如某些方面你們希望我們能取得更多進(jìn)展,但很驚訝我們居然沒有;而另一些方面,我們?nèi)〉玫倪M(jìn)展可能遠(yuǎn)遠(yuǎn)超出了你們的想象。顯然,這里面的很多東西在5年前是很難想象的,但有什么讓你們所有人印象深刻的嗎?

Oriol Vinyals:也許我先從正面的開始,這也非常符合今天的主題:我真的沒想到我們能一代接一代地做到這件事——就是把 Pro(專業(yè)版)的智能水平重新壓縮塞進(jìn) Flash(閃電版)里。這就好比,這種情況在 1.0 時(shí)代發(fā)生時(shí),你可以說:“好吧,那只是第一代跑出來的結(jié)果,某些方面還很不成熟,所以我們改進(jìn)了配方,這說得通?!钡谀撤N程度上,這種進(jìn)化有時(shí)甚至在加速。不管我們看哪個(gè)版本,新一代的 Flash 表現(xiàn)都超過了上一代的 Pro。我的意思是,僅僅去理解“蒸餾”是如何工作的,我都依然感到著迷,我們?cè)趺茨茉诿孔止?jié)或每個(gè)參數(shù)里塞進(jìn)這么多的智能?

蒸餾就是“擠檸檬”,用的還是十年前的配方

Logan Kilpatrick:是蒸餾技術(shù)本身發(fā)生了根本性的改變了嗎?我們之所以能不斷把更多能力‘塞進(jìn)’小模型里,是因?yàn)樵谡麴s方法上有了架構(gòu)層面的改進(jìn)?還是說,現(xiàn)在用的技術(shù)其實(shí)跟你們當(dāng)年最初發(fā)明時(shí)的基本原理差不多?”

Oriol Vinyals:的確,我想說它甚至變得更簡(jiǎn)單了。我的意思是,我們最初在 Softmax 中使用了一些溫度調(diào)節(jié)的技巧,而且我們不得不采用模型集成。

Koray Kavukcuoglu:別泄密。

Oriol Vinyals:哈哈,不,我不會(huì)說出來的。

Koray Kavukcuoglu:我只是確保一下。

Jeff Dean:我正準(zhǔn)備把配方抖出來呢。只要你有一個(gè)非常非常優(yōu)秀的“老師(Teacher 模型)”,然后有一個(gè)“學(xué)生(Student 模型)”就行。你不需要一個(gè)由 50 個(gè)老師組成的集成,你只需要一個(gè)真正頂尖的老師和一個(gè)學(xué)生。你幾乎可以直接使用原始論文中描述的方法,加上一些適度的調(diào)整,但這個(gè)想法的核心精神基本上是一樣的。

Koray Kavukcuoglu:讓我給你一個(gè)最技術(shù)性的解釋:這就像擠檸檬。你擠檸檬,汁水流出來,那些都是精華,然后你把它倒進(jìn)玻璃杯里,這個(gè)杯子就是你的小模型。

Logan Kilpatrick:我喜歡這個(gè)比喻,太形象了。

Oriol Vinyals:你應(yīng)該去讀讀那篇論文的導(dǎo)言,它有一段關(guān)于幼蟲和昆蟲的很詩意的引入。

Noam Shazeer:那篇原始論文是關(guān)于軟標(biāo)簽(Soft labels)的,對(duì)吧?

Oriol Vinyals:是的,差不多。

當(dāng)年的“單搜索框”,終于搭配上了通用 AI 后端

Logan Kilpatrick:那么,考慮到過去三年半里 Gemini 在各方面取得的巨大進(jìn)展,有沒有什么事情是你們驚訝于我們居然還沒能搞定的?

Noam Shazeer:談到好的一面,回想過去,這也和谷歌的初衷有關(guān),對(duì)吧?我們一直有這種“單搜索框(One Box)”的哲學(xué),對(duì)吧?Jeff,你一定記得一個(gè)框搞定一切。

Jeff Dean:就像那個(gè)搜索框,你輸入某些內(nèi)容它會(huì)顯示體育比分,輸入另一些內(nèi)容它會(huì)顯示股票行情,

Noam Shazeer:對(duì),而在后端,這些全都是各自獨(dú)立的、定制構(gòu)建的后端,有些帶有 AI 色彩,有些則沒有。

Jeff Dean:比如拼寫糾錯(cuò)里的“你是不是要找”,我沒記錯(cuò)的話很大程度上是 Noam 的入門項(xiàng)目。

Noam Shazeer:當(dāng)時(shí)用戶會(huì)理所當(dāng)然地認(rèn)為:“噢,這背后一定有一個(gè)極其聰明的通用 AI,它什么都懂,能處理所有這些不同的事情?!倍F(xiàn)在,我們真的把它做出來了,我們構(gòu)建出了這個(gè)“單框”的通用 AI。

Jeff Dean:它確實(shí)變成了一個(gè)框。

Noam Shazeer:它就是一個(gè)框,而且它變成了一個(gè)統(tǒng)一的后端。我們終于為前端配上了正確的后端,因?yàn)槲覀兇蛟炝诉@個(gè)完美的“單框”。

不同 MoE 架構(gòu):Jeff Dean 心中更具“有機(jī)生命感”的架構(gòu)

Oriol Vinyals:可是 Logan 想要聽個(gè)負(fù)面的東西。

Logan Kilpatrick:不,不是負(fù)面的。但顯然,人們總是想要更多,對(duì)吧?有什么是你們希望實(shí)現(xiàn)但還沒實(shí)現(xiàn)的?

Koray Kavukcuoglu:但我認(rèn)為你應(yīng)該能理解,這對(duì)我們來說挺難的,對(duì)吧?因?yàn)槲覀兩钐幤渲?。特別是對(duì)于研究人員來說,你不會(huì)帶著太多的負(fù)面情緒去工作。如果某些東西行不通,那就是一次學(xué)習(xí),你會(huì)在它的基礎(chǔ)上繼續(xù)構(gòu)建。從你的角度來看,你原本期望看到什么,但現(xiàn)在卻沒有看到?你的失望點(diǎn)在哪?

Logan Kilpatrick:這是一個(gè)好問題,我不會(huì)把它定義為“失望”。

Koray Kavukcuoglu:但他顯然是有想法的。

Jeff Dean:我有一部分是工程師,一部分是研究人員,所以工程師可能會(huì)更挑剔、更偏向負(fù)面一點(diǎn)。我的意思是,我原本覺得我們?cè)凇俺掷m(xù)學(xué)習(xí)”和那些不那么結(jié)構(gòu)化的模型架構(gòu)上會(huì)取得更多進(jìn)展。比如現(xiàn)在我們擁有的都是混合專家模型(MoE),它們的結(jié)構(gòu)都非常相似。我總覺得一種更具“有機(jī)生命感(Organic style)”的架構(gòu)會(huì)是我們……

Koray Kavukcuoglu:是的,我們總是想象那種更龐大的架構(gòu)。

Jeff Dean:我依然認(rèn)為這會(huì)很有趣,但我們現(xiàn)在還沒有這么做。不過,我們目前采用的方法看起來非常管用。

Noam Shazeer:所以,我有那么一點(diǎn)點(diǎn)失望。好吧,我們目前也還沒有治愈每一種疾病。你不能直接輸入“幫我發(fā)明一種治愈癌癥的方法”之類的話,然后它就直接幫你搞定了。但是,我們正在朝這個(gè)方向前進(jìn)。

算法創(chuàng)新,如何讓大模型從每個(gè) Token 中榨取千倍信息?

Logan Kilpatrick :是的。我很想聽聽你們對(duì)此的反應(yīng)。我認(rèn)為這不是一件負(fù)面的事,但讓我感到驚訝的是:把各種能力融合到單個(gè)模型中,居然需要耗費(fèi)如此多的能量和心血。顯然,這是一場(chǎng)非常艱難的“雜?!保闳诤线M(jìn)一種新能力,它并不會(huì)直接開箱即用,你往往要拿其他能力做權(quán)衡,并且必須做出一些調(diào)整來彌補(bǔ)這些差距。從我的角度來看,這并不符合直覺。

Koray Kavukcuoglu:有一點(diǎn)讓我對(duì)模型感到驚嘆,那就是模型內(nèi)部依然蘊(yùn)含著令人難以置信的巨大容量,我們一直在不斷往里塞東西。試想一下,目前的模型其實(shí)并沒有比三四年前的尺寸大多少,對(duì)吧?但我們卻在不斷塞進(jìn)越來越多、越來越強(qiáng)的能力和信息。我們可以做到這一點(diǎn),模型里居然還有這么大的空間,這也許就是硬幣的另一面。但對(duì)我來說,我們一直在這么做,而且里面依然有空間,這些模型里還有如此巨大的潛力。這也是為什么我其實(shí)感到很興奮,因?yàn)榫?AI 算法的發(fā)展而言,還有非常大的想象空間。我深信,這些模型的實(shí)際容量遠(yuǎn)遠(yuǎn)超出了我們目前所壓榨出來的水平。未來將會(huì)有重大的創(chuàng)新,讓我們能夠利用這些模型做更多的事情。

Jeff Dean:是的。我想其中一部分在于,我們確實(shí)需要構(gòu)想出一些算法層面的創(chuàng)新,好讓模型從看到的每一級(jí)數(shù)據(jù)、每一個(gè)示例或每一個(gè) Token 中獲取多得多的信息。因?yàn)槿绻憧匆幌氯祟惖膶W(xué)習(xí)效率,它比我們這種 LLM 的學(xué)習(xí)效率要高出一千倍。大語言模型需要看比一個(gè)真正聰明的人類多出一千倍的數(shù)據(jù),然后才能達(dá)到與人類大致相當(dāng)?shù)哪芰λ健苍S在某些方面稍好一點(diǎn),在另一些方面又稍遜一籌。但它需要多出一千倍的數(shù)據(jù)。所以,如果我們能讓模型從每一個(gè)示例中獲取一千倍的信息,那將是非常驚人的。

Noam Shazeer:一個(gè)人一生中大概能聽到10億個(gè)詞,而一個(gè)模型卻要在成百上千兆(數(shù)萬億)的數(shù)據(jù)上進(jìn)行訓(xùn)練,并且還能記住它們。

Oriol Vinyals:話雖如此,但你難道不稍微反對(duì)一下這個(gè)觀點(diǎn)嗎?其實(shí)人類也是被“預(yù)訓(xùn)練”過的,你又不是第一個(gè)人類。所以無論如何,關(guān)于這一點(diǎn)也是有一些爭(zhēng)論的。

Jeff Dean:但是人類的“源代碼”(基因庫)非常小,我們只有幾個(gè)吉字節(jié)(GB)的源代碼。

Logan Kilpatrick:這就是我的疑問所在……

大模型評(píng)估問題被低估了,

如何讓大模型完美泛化到“任何問題”上?

Oriol Vinyals:順便說一句,關(guān)于“什么事情一直很困難”,我有一個(gè)比較硬核的體會(huì)。我認(rèn)為評(píng)估非常困難。即使是從 Koray 提到的學(xué)術(shù)界時(shí)代開始,在社區(qū)里這都有點(diǎn)被低估了。

孤立地評(píng)估模型的能力,或者評(píng)估接下來的大事件將是什么,以及如何以一種不會(huì)讓數(shù)據(jù)泄露到訓(xùn)練集里的方式進(jìn)行評(píng)估,并且還要讓用戶認(rèn)同這個(gè)評(píng)估數(shù)字。這里面有大量的工作和進(jìn)展。但我感覺這依然出乎意料地難。也許是因?yàn)槲覀冞^去習(xí)慣了論文里的一張數(shù)字表格,而現(xiàn)在我們面對(duì)的是真實(shí)的用戶和反饋。這雖然讓人意外,但也很讓人興奮,因?yàn)槊慨?dāng)你發(fā)現(xiàn)困難的事情時(shí),你就會(huì)有動(dòng)力去嘗試解決它。評(píng)估是一件大事,它需要不斷變得更好。

Jeff Dean:所有 AI 研究人員一直以來的夢(mèng)想,都是如何構(gòu)建出能夠泛化到它們從未面對(duì)過的事情上的系統(tǒng)。這正是核心所在。即使你是在針對(duì)特定任務(wù)訓(xùn)練特定模型,你也希望它能泛化到該任務(wù)的新示例上。但我認(rèn)為我們現(xiàn)在嘗試做的是:泛化到任何人可能提出的任何問題上。這確實(shí)是一個(gè)難題。但通過擁有大量的用戶,你可以獲得大量的反饋,知道“好吧,在這類問題上我們泛化得挺好,但在那類問題上我們還不夠好”。

數(shù)據(jù)驅(qū)動(dòng)達(dá)成共識(shí):

Jeff 想構(gòu)建一些更具靈活性、更具可塑性且更流動(dòng)的系統(tǒng)

Logan Kilpatrick:我對(duì)你們所有人有一個(gè)有些爭(zhēng)議性的問題:你們顯然已經(jīng)以不同的身份在一起工作了很長(zhǎng)時(shí)間。有哪些研究領(lǐng)域是你們至今仍未達(dá)成共識(shí)的?我想先做個(gè)鋪墊,我認(rèn)為這也許是一件好事。讓擁有不同視角的人在一起的奇妙之處就在于,大家會(huì)有分歧,從而會(huì)去嘗試不同的事情。我很好奇你們腦海中會(huì)不會(huì)浮現(xiàn)出什么具體的例子?;蛘哒f你們其實(shí)意見完全一致?

Koray Kavukcuoglu:我在努力想。我倒不覺得我們意見完全一致,但我不認(rèn)為會(huì)有什么重大的原則性分歧。因?yàn)槲艺J(rèn)為在 Gemini 設(shè)計(jì)的宏大藍(lán)圖里,這個(gè)團(tuán)隊(duì)已經(jīng)對(duì)各種各樣的方案進(jìn)行了實(shí)驗(yàn)。我們通過實(shí)驗(yàn)提煉出了很多想法。我知道 Jeff 一直有這樣一個(gè)想法:構(gòu)建一些更具靈活性、更具可塑性且更流動(dòng)的系統(tǒng)。我們目前還沒有走到那一步,但這并不意味著我們對(duì)此有分歧。只是我認(rèn)為現(xiàn)有的系統(tǒng)已經(jīng)在經(jīng)驗(yàn)上為我們指明了道路,這就是我們正在打造的模型。除此之外,我認(rèn)為我們并沒有什么巨大的分歧。

Jeff Dean:在任何特定時(shí)期,我們每個(gè)人都會(huì)把更多的精力花在某一個(gè)或幾個(gè)特定的事情上,而其他人不一定在那個(gè)事情上投入同樣多的時(shí)間。比如,我現(xiàn)在把大量時(shí)間花在“未來的推理硬件應(yīng)該是什么樣子的”這個(gè)問題上,因?yàn)槲艺J(rèn)為這是一項(xiàng)超級(jí)重要的核心能力。你可能沒花那么多時(shí)間在上面,但當(dāng)我在廚房里向你描述時(shí),你會(huì)說:“噢,聽起來很棒!我們什么時(shí)候能用上它?”

Noam Shazeer:現(xiàn)實(shí)是讓大家達(dá)成共識(shí)的一種很好方式。你看到了實(shí)驗(yàn)結(jié)果,看到了什么是管用的,什么是管不用的。

Jeff Dean:所以,我的意思是,總的來說,Gemini 是相當(dāng)數(shù)據(jù)驅(qū)動(dòng)的。很多人在小規(guī)模上運(yùn)行實(shí)驗(yàn),然后說:“看,這是結(jié)果。”大家就會(huì)說:“這看起來很有前景,你有沒有試過把它和這個(gè)東西結(jié)合起來?”而且你必須以最有效的方式去使用研究級(jí)算力池,并且以數(shù)據(jù)為驅(qū)動(dòng)來進(jìn)行決策。

Koray Kavukcuoglu:如果你思考一下 Gemini,或者更廣泛地談?wù)?AI,它融合了太多層面的東西,從硬件到模型設(shè)計(jì),再到產(chǎn)品以及所有的一切。所以我認(rèn)為,能有這樣一個(gè)團(tuán)隊(duì)聚在一起協(xié)同工作,實(shí)際上是讓它真正運(yùn)轉(zhuǎn)起來的最核心因素之一。正如 Jeff 所說,他專注于硬件,Noam 專注于模型,Oriol 一直專注于模型并且現(xiàn)在正深入研究智能體并在那里做著非常深度的工作。而我試著專注于:好的,我們要帶著 Gemini 走向何方?我們和產(chǎn)品的對(duì)接是否順暢?我們是否獲得了那種好的體驗(yàn)?我們的運(yùn)轉(zhuǎn)是否良好?所以,我認(rèn)為我們所有人一起工作的方式,是在各自照料這個(gè)技術(shù)變革中不同且重要的一面。因?yàn)檫@是一場(chǎng)正在發(fā)生的、全面的技術(shù)變革,我認(rèn)為能夠有對(duì)這場(chǎng)技術(shù)變革的不同側(cè)面進(jìn)行深度思考的人在一起,這就是它能夠成功的原因。

押注 2027:當(dāng) Gemini 開始用自己寫的代碼“改進(jìn)”Gemini

Logan Kilpatrick:太棒了。我們應(yīng)該做一些預(yù)測(cè),這樣一年后當(dāng)我們回顧這段對(duì)話時(shí),就能有一些“被打臉”的談資。顯然,今年 I/O 大會(huì)展示了巨大的進(jìn)展和許多令人興奮的事情。如果我們坐在這里展望 2027 年,總覺得 2027 年看起來很不真實(shí),感覺像是好久以后的未來,但實(shí)際上也就剩 6 個(gè)月或者差不多時(shí)間。從模型能力的角度或類似的方向來看,你們有什么預(yù)測(cè),或者說希望到時(shí)候有哪些功能能真正落地嗎?

我們可以聊聊方向。就拿我們現(xiàn)在的進(jìn)展來看,比如編程,顯然我們?cè)诰幊棠芰ι先〉昧司薮蟮倪M(jìn)步。到那時(shí)這方面會(huì)飽和嗎?我們還會(huì)花同樣多的時(shí)間專注于它嗎?智能體也是一樣。畢竟感覺我們?cè)诤脦追N不同能力上都處于指數(shù)級(jí)增長(zhǎng)的軌道中。

Koray Kavukcuoglu:也許我先來插一句。我認(rèn)為一年后可能會(huì)發(fā)生的一件事是自我學(xué)習(xí)。

Logan Kilpatrick:自我學(xué)習(xí)和持續(xù)學(xué)習(xí)是一回事,還是有區(qū)別?

Koray Kavukcuoglu:我覺得它們是相關(guān)的。也許對(duì)某些人來說它們是一回事,但我們現(xiàn)在正處于一個(gè)模型更具“智能體特性”的時(shí)代,而且它們非常擅長(zhǎng)寫代碼。我們已經(jīng)在研究中開始使用它們了。我認(rèn)為慢慢地,我們會(huì)在研究中越來越多地使用它們,并且遲早會(huì)走到一個(gè)節(jié)點(diǎn),至少在某些實(shí)驗(yàn)層面上,我們將依賴模型來改進(jìn) Gemini 的不同部分。我的預(yù)測(cè)是,明年我們絕對(duì)會(huì)在這條路上前行,而且很可能會(huì)開始探討這個(gè)問題。讓我們拭目以待。

Jeff Dean:到那時(shí),我們可能可以明確指出我們模型中某個(gè)非常重要的部分,其實(shí)是由模型和智能體自己協(xié)同生成的。

Noam Shazeer:沒錯(cuò)。到時(shí)候你不用再對(duì)團(tuán)隊(duì)成員說:“嘿,你為什么不針對(duì)這個(gè)做點(diǎn)實(shí)驗(yàn),下周告訴我進(jìn)展如何?”我們直接讓模型去干就行了。

不更新權(quán)重也能變聰明?

下一代 Gemini 如何跨越“陡峭的增長(zhǎng)曲線”?

Oriol Vinyals:這很難讓人不贊同。但如果把這建立在持續(xù)學(xué)習(xí)的基礎(chǔ)上,作為一種更進(jìn)一步的能力,我的意思是,模型能夠通過其經(jīng)驗(yàn)和交互來提升自己,而不需要去更新它的權(quán)重,比如某種運(yùn)行得非常好的知識(shí)庫更新。我們確實(shí)有這方面行得通的例子,但我認(rèn)為這項(xiàng)能力還沒有迎來那種陡峭的增長(zhǎng)曲線,還沒好到成為每個(gè)人都會(huì)在模型中理所當(dāng)然去使用和開啟的必備功能。所以,這是我希望屆時(shí)能看到的一點(diǎn)。一年時(shí)間似乎是有可能的。

Logan Kilpatrick:是的,可能這里面還有很多有趣又古怪的問題需要解決。感覺在當(dāng)今這個(gè)時(shí)代,我總能遇到這樣的例子:你問模型一個(gè)問題,它會(huì)扯進(jìn)來一些莫名其妙的個(gè)人背景信息,比如某個(gè)朋友的生日派對(duì),這跟我的問題完全無關(guān),但它不知怎么就覺得有聯(lián)系。所以這確實(shí)讓人覺得它還需要再發(fā)展一年。

我們有點(diǎn)處在自己的科技泡沫里:當(dāng)模型獨(dú)立運(yùn)行30天

Koray Kavukcuoglu:我們有點(diǎn)身處自己的科技泡沫里,對(duì)吧?因?yàn)槲覀儽旧砭吞幱谶@項(xiàng)技術(shù)的研究核心。從你的角度來看,畢竟你比我們更接地氣、更融入現(xiàn)實(shí)世界,你會(huì)想看到什么?你期待什么?



Logan Kilpatrick:問得好。雖然這并不是一個(gè)“Logan 專訪”環(huán)節(jié)。

Koray Kavukcuoglu:不過也許我們以后應(yīng)該搞幾期。

Logan Kilpatrick:哈哈,不,你才不想聽我要說什么呢?!澳P途褪钱a(chǎn)品”,這就是我要說的全部。我只希望模型能變得更好。不,說認(rèn)真的,我認(rèn)為“長(zhǎng)時(shí)間運(yùn)行”的東西會(huì)非常有趣。因?yàn)槲矣X得這是一個(gè)我們可以非常輕松去追蹤的前沿。即使編程模型明天提高了20%并且變得非常好,我依然認(rèn)為你會(huì)在“你希望模型自主運(yùn)行多久”這個(gè)問題上遇到瓶頸。感覺到了 2027 年的 I/O 大會(huì),如果我們能說:“這個(gè)模型在 I/O 大會(huì)開幕前已經(jīng)自主運(yùn)行了30天左右。”這會(huì)讓很多人感到非常驚喜。也許我們到時(shí)候不會(huì)這么說,但這可以作為一個(gè)奮斗的目標(biāo)。

Koray Kavukcuoglu:這種由模型獨(dú)立完成的工作量,將會(huì)是一件大好事。

Logan Kilpatrick:是的,那會(huì)非常令人吃驚。而且我認(rèn)為這其實(shí)需要整個(gè)技術(shù)棧的配合才能實(shí)現(xiàn)。比如你需要類似記憶系統(tǒng),你需要持續(xù)學(xué)習(xí),你還需要更好的硬件,因?yàn)樽屢粋€(gè)東西運(yùn)行30天會(huì)消耗天文數(shù)字般的 Token。

Jeff Dean:沒錯(cuò)。而且你也希望更好的硬件能帶來超低的延遲。因?yàn)槿绻谝惶靸?nèi)就運(yùn)行完了,你會(huì)比等30天要高興得多。

Logan Kilpatrick:30天是一個(gè)很好的營(yíng)銷文案,但能一天搞定我確實(shí)會(huì)更高興。

當(dāng) AI 速度無限快,現(xiàn)有的軟件工具就成了最大瓶頸

Jeff Dean:噢,另一個(gè)預(yù)測(cè)(不是針對(duì)產(chǎn)品發(fā)布的預(yù)測(cè)):我認(rèn)為這些智能體將會(huì)把我們的所有工具都逼到極限,暴露出它們太慢的問題。這些智能體依賴的很多工具,即使你把模型本身的速度提升到無限快,你也會(huì)在提升實(shí)際工作效率時(shí)遇到瓶頸。因?yàn)楣ぞ叩慕换ネ菫榱诉m應(yīng)人類的延遲或工作頻率而設(shè)計(jì)的,對(duì)吧?

Noam Shazeer:那30天里有29天半都花在等待各種列表的加載上了。

五年后的谷歌:只有 1 個(gè)產(chǎn)品,還是有 10,000 個(gè)產(chǎn)品?

Logan Kilpatrick:另外還有一個(gè)稍微有些爭(zhēng)議的問題,我很想聽聽大家的看法。Koray,我很喜歡從研究的角度來探討這個(gè),這也是我感興趣的原因。我前幾天問過 Josh(Josh Woodward)這個(gè)問題:五年后,谷歌是要么只有3個(gè)產(chǎn)品,要么擁有10,000個(gè)產(chǎn)品。你們?cè)趺纯??哪種情況看起來更說得通?

Koray Kavukcuoglu:只有1個(gè)產(chǎn)品。那個(gè)產(chǎn)品就是模型。



Logan Kilpatrick:好的,我喜歡這個(gè)回答。你們其他人怎么看?

Jeff Dean:我的意思是,如果你有一個(gè)能力極其強(qiáng)悍的模型,它就能做非常非常多的事情。我想你在 I/O 大會(huì)的搜索演示中也看到了,它甚至可以在搜索內(nèi)部為你量身定制、創(chuàng)建出各種小應(yīng)用和可視化效果,并且能寫代碼。所以從某種意義上說,如果用戶量巨大,我不知道這算是一個(gè)產(chǎn)品,還是10,000個(gè)產(chǎn)品,甚至是1000萬個(gè)產(chǎn)品。

Koray Kavukcuoglu:但說認(rèn)真的,我覺得人們希望以不同的方式來消費(fèi)信息。我認(rèn)為像“搜索”這個(gè)功能很重要。我認(rèn)為五年后我們肯定還會(huì)有搜索,可能配上一個(gè)更具魔法感的搜索框。但人們想要獲取信息、并為了自己去消費(fèi)和吸收這些信息的這種“學(xué)習(xí)活動(dòng)”,我認(rèn)為依然是本質(zhì)的需求。所以我真的認(rèn)為它會(huì)存在。并且,我們大概會(huì)有多得多的產(chǎn)品,因?yàn)樽霎a(chǎn)品會(huì)變得非常容易,因?yàn)樗鼈儽澈笤絹碓蕉嗟赜赏粋€(gè)智能核心來驅(qū)動(dòng)。

從比特世界到原子世界!

即使大模型無所不能,我依然需要“關(guān)注點(diǎn)分離”

Jeff Dean:我認(rèn)為會(huì)有很多的產(chǎn)品外顯形式,而讓這些產(chǎn)品變得驚艷的核心要素其實(shí)只有少數(shù)幾個(gè)。這就好比在 I/O 大會(huì)上展示的那款眼鏡(智能眼鏡項(xiàng)目),它是一個(gè)獨(dú)立的產(chǎn)品,但它會(huì)因?yàn)槟P妥兊酶谩⒏纛l、能更好地與你對(duì)話而變得更出色。但它依然是一個(gè)有別于搜索的、獨(dú)立的產(chǎn)品。

Oriol Vinyals:我想我們很清楚,無論具體產(chǎn)品是什么,背后絕對(duì)是由同一個(gè)模型來驅(qū)動(dòng)的。我不是這方面的專家,但作為用戶,有時(shí)我覺得自己在操作數(shù)字設(shè)備時(shí)會(huì)做出主動(dòng)的選擇,對(duì)吧?比如我想查看日歷、發(fā)郵件,或者買點(diǎn)東西。這種界限分明可能更多是出于人類習(xí)慣的考量,而不是技術(shù)上無法將這些功能整合到一個(gè)產(chǎn)品里。但我感覺,決定自己想要專注于做什么的這種選擇,無論是最終會(huì)消失,還是我們純粹進(jìn)化到不再需要它,我還不確定,但我發(fā)現(xiàn)自己有時(shí)依然喜歡這種“關(guān)注點(diǎn)分離”。所以,至少目前就我自己而言,我是不會(huì)去賭未來只有一個(gè)產(chǎn)品的。

Noam Shazeer:我想我們一直在討論的是“信息形態(tài)的產(chǎn)品”,即傳遞信息的產(chǎn)品。在這一層面上,你只需要探討人類想要如何消費(fèi)這些信息。是通過視覺?文本?眼鏡?還是某種直接將模型內(nèi)部嵌入直接輸入到你神經(jīng)元里的腦機(jī)接口或類似古怪的東西?不過同樣是由 Omni 這類的技術(shù)來驅(qū)動(dòng)的。也許未來我們會(huì)涉足物理實(shí)體產(chǎn)品,開始去搬動(dòng)“原子”,而不僅僅是處理“比特”。不過,這是對(duì)遙遠(yuǎn)未來的預(yù)測(cè)了。

Logan Kilpatrick:我喜歡這個(gè)說法,“搬動(dòng)原子而非比特”就是未來。非常感謝你們四位抽空坐下來聊天。這里面有很多帶點(diǎn)爭(zhēng)議性的回答,但這真的很精彩,也非常有趣。去年在 I/O 大會(huì)的一次對(duì)話中我發(fā)表過這個(gè)評(píng)論,我想當(dāng)時(shí)我是對(duì)你說的,Koray,我覺得 I/O 大會(huì)把大家聚集在一起并發(fā)布這些東西,讓你在和大家一起構(gòu)建這項(xiàng)技術(shù)時(shí),能夠感受到“人類的溫度”。今天的這段對(duì)話也讓我有了這種感覺。所以非常感謝大家。也謝謝大家收聽和觀看本期的《Release Notes》,我們下期再見。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女生辦健康證性生活卻被印在上面,內(nèi)容太辣眼!醫(yī)院態(tài)度讓人氣憤

女生辦健康證性生活卻被印在上面,內(nèi)容太辣眼!醫(yī)院態(tài)度讓人氣憤

小鋭?dòng)性捳f
2026-05-31 14:57:47
5月31日俄烏最新:輝煌的戰(zhàn)果

5月31日俄烏最新:輝煌的戰(zhàn)果

西樓飲月
2026-05-31 18:05:56
降價(jià)2萬!上汽大眾官宣:全新SUV,價(jià)格下調(diào)

降價(jià)2萬!上汽大眾官宣:全新SUV,價(jià)格下調(diào)

科技堡壘
2026-05-31 09:34:47
中國(guó)沒給面子,普京回國(guó)后認(rèn)清現(xiàn)實(shí),沉默一周后,終究還是妥協(xié)了

中國(guó)沒給面子,普京回國(guó)后認(rèn)清現(xiàn)實(shí),沉默一周后,終究還是妥協(xié)了

斜煙風(fēng)起雨未
2026-05-30 22:36:40
破“唯論文”桎梏:南京大學(xué)首位沒有“畢業(yè)論文”的博士答辯通過

破“唯論文”桎梏:南京大學(xué)首位沒有“畢業(yè)論文”的博士答辯通過

澎湃新聞
2026-05-31 17:18:31
剛剛,直線拉升!狂飆12%!特朗普,突然發(fā)聲

剛剛,直線拉升!狂飆12%!特朗普,突然發(fā)聲

新浪財(cái)經(jīng)
2026-05-31 12:43:53
明天,新材料龍頭來了!A股又見“大肉簽”

明天,新材料龍頭來了!A股又見“大肉簽”

新浪財(cái)經(jīng)
2026-05-31 11:59:10
溫柔且堅(jiān)韌!亞歷山大談?chuàng)屍呤Ю痪湓挼辣M雷霆衛(wèi)冕的心酸!

溫柔且堅(jiān)韌!亞歷山大談?chuàng)屍呤Ю痪湓挼辣M雷霆衛(wèi)冕的心酸!

田先生籃球
2026-05-31 12:16:21
NBA最大錦鯉誕生!總決賽未打卻已奪冠,索漢詮釋何為真正玄學(xué)!

NBA最大錦鯉誕生!總決賽未打卻已奪冠,索漢詮釋何為真正玄學(xué)!

田先生籃球
2026-05-31 11:53:57
敦促平臺(tái)立即糾正處置“耿同學(xué)”的錯(cuò)誤行為

敦促平臺(tái)立即糾正處置“耿同學(xué)”的錯(cuò)誤行為

不主流講話
2026-05-30 18:55:08
暴跌93%,國(guó)產(chǎn)葡萄酒崩盤了

暴跌93%,國(guó)產(chǎn)葡萄酒崩盤了

毒sir財(cái)經(jīng)
2026-05-30 22:44:12
新加坡防長(zhǎng)寫打油詩總結(jié)"香會(huì)" 現(xiàn)場(chǎng)用中文朗讀

新加坡防長(zhǎng)寫打油詩總結(jié)"香會(huì)" 現(xiàn)場(chǎng)用中文朗讀

看看新聞Knews
2026-05-31 18:36:09
吳官正:難忘那夜的秋雨

吳官正:難忘那夜的秋雨

坦腹齋
2018-09-01 16:32:58
央視怒批!“絕望的文盲”丟臉到國(guó)外,馮遠(yuǎn)征的話終于有人信了

央視怒批!“絕望的文盲”丟臉到國(guó)外,馮遠(yuǎn)征的話終于有人信了

八斗小先生
2026-05-30 19:15:35
金融危機(jī)要來了?專家預(yù)測(cè):未來12到18個(gè)月,世界將爆發(fā)金融風(fēng)暴

金融危機(jī)要來了?專家預(yù)測(cè):未來12到18個(gè)月,世界將爆發(fā)金融風(fēng)暴

別人都叫我阿腈
2026-05-30 20:32:28
香會(huì)現(xiàn)場(chǎng)反差拉滿:美國(guó)不敢提臺(tái)灣,我方直接點(diǎn)名敲打日本

香會(huì)現(xiàn)場(chǎng)反差拉滿:美國(guó)不敢提臺(tái)灣,我方直接點(diǎn)名敲打日本

南宗歷史
2026-05-31 06:51:48
28歲女鄰居太漂亮,男子不滿足偷窺潛入人家屋中,2008年將她殺死

28歲女鄰居太漂亮,男子不滿足偷窺潛入人家屋中,2008年將她殺死

漢史趣聞
2026-05-30 14:07:14
"我的錢可以買你的命!",男子高鐵怒懟乘警,網(wǎng)友:查一下來源

"我的錢可以買你的命!",男子高鐵怒懟乘警,網(wǎng)友:查一下來源

鯨探所長(zhǎng)
2026-05-31 09:57:29
剛官宣就撞車!比亞迪智駕兜底首案來了,車主已報(bào)案

剛官宣就撞車!比亞迪智駕兜底首案來了,車主已報(bào)案

北緯的咖啡豆
2026-05-31 14:40:49
央媒調(diào)查稻城亞丁“道路設(shè)卡擺渡收費(fèi)”:收的什么費(fèi)?景區(qū)有權(quán)設(shè)卡嗎?

央媒調(diào)查稻城亞丁“道路設(shè)卡擺渡收費(fèi)”:收的什么費(fèi)?景區(qū)有權(quán)設(shè)卡嗎?

澎湃新聞
2026-05-31 07:54:04
2026-05-31 19:44:49
風(fēng)向觀察
風(fēng)向觀察
關(guān)注新聞
244文章數(shù) 4456關(guān)注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

香會(huì)上中方全英文發(fā)問菲律賓 菲防長(zhǎng)語無倫次答非所問

頭條要聞

香會(huì)上中方全英文發(fā)問菲律賓 菲防長(zhǎng)語無倫次答非所問

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

朱軍退休,正義雖遲但到,女方受懲

財(cái)經(jīng)要聞

醫(yī)學(xué)首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
親子
本地

教育要聞

看我怎么來做這道題目,很難嗎?

梓渝:慢下來,也很好

房產(chǎn)要聞

紅動(dòng)五月!全國(guó)搶入核心資產(chǎn),廣州盯緊凱旋新世界!

親子要聞

2026年提高免疫力嬰幼兒奶粉:免疫配方成分臨床驗(yàn)證深度解析

本地新聞

用剪紙的方式,打開江蘇揚(yáng)州

無障礙瀏覽 進(jìn)入關(guān)懷版