網易首頁 > 網易號 > 正文申請入駐

Transformer的八個爹媽，如今都在哪？

2026-06-29 10:27:31　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

前幾天，谷歌接連痛失兩員大將。

6 月 18 日，Transformer 論文的共同作者之一 Noam Shazeer 在 X 上宣布離職，加入 OpenAI。兩天后，2024 年諾貝爾化學獎得主、AlphaFold 團隊負責人 John Jumper 也宣布離開 Google DeepMind，去向是 Anthropic。

兩條消息接連砸下來，資本市場的反應很大：谷歌母公司 Alphabet 股價一度暴跌超過 7%，市值蒸發逾 3000 億美元。多家分析機構都把這次拋售歸因于「人才出走」。D.A. Davidson 的分析師 Gil Luria 直言，Shazeer 投奔 OpenAI、Jumper 投奔 Anthropic，兩人前后腳離職，讓市場開始擔心谷歌正在 AI 人才爭奪戰中落于下風。

Shazeer 的這次離開尤其值得玩味——這已經是他第二次離開谷歌了。

2021 年，他因為不滿公司不愿公開發布自己主導研發的聊天機器人，出走創辦了 Character.AI；2024 年 8 月，谷歌又花了大約 27 億美元買下 Character.AI 的技術授權，順勢把他請回了 DeepMind，讓他出任 Gemini 項目的工程副總裁、與 Jeff Dean 一起共同領導這個項目。不到兩年后，他還是走了，這次去的還是死對頭 OpenAI。

至此，那篇九年前發表的論文《Attention Is All You Need》的八位共同作者，已經全部離開了谷歌。

用戶 Tyler Maran 做了一張圖，把他們如今各自的去向畫在了一起，這張圖在社交網絡上被瘋狂轉發。

不過，這張圖可能很快就要過時了。就在過去兩天，市場上流傳出消息稱，英偉達正在悄悄吸納 Essential AI 的核心團隊，其中就包括 Transformer 論文作者之一、Essential AI 聯合創始人兼 CEO Ashish Vaswani。截至發稿，英偉達和 Essential AI 均未對此事做出正式回應。

借著這個機會，我們不妨完整地盤點一下，這八位被稱為「Transformer 之父」的人九年來的履歷，以及他們如今真正的去處。

需要說明的是，《Attention Is All You Need》論文的作者順序是隨機排列的。論文腳注里寫得很清楚：所有作者貢獻均等，排序隨機，因此并不存在所謂的「第一作者」或「通訊作者」。本文也就按照論文原本的署名順序，依次介紹這八個人。

「萬物起源」：八個不務正業的谷歌人

要理解他們今天的去向，得先回到 2017 年。當時，機器翻譯領域的主流做法是循環神經網絡（RNN），模型必須一個詞一個詞按順序處理句子，像在單行道上排隊過馬路，沒法并行計算，訓練起來又慢又貴。

谷歌大腦的八個人決定試一試一個近乎冒進的想法：把循環結構整個扔掉，只留下「注意力機制」，讓模型一次性看完整句話，自己判斷哪個詞該重點關照哪個詞。論文標題里那句「Attention Is All You Need」，化用了披頭士那首《All You Need Is Love》，此后也成為許多論文標題模仿的形式。

論文的作者貢獻說明，簡短記錄了每個人具體做了什么：

Jakob Uszkoreit最先提出用自注意力取代循環結構，并主導了對這個想法的早期驗證；
Ashish VaswaniIllia Polosukhin一起設計并實現了最初的 Transformer 模型，幾乎參與了項目的每一個環節；
Noam Shazeer提出了縮放點積注意力、多頭注意力機制以及無參數的位置表示方法，是另一位幾乎事事親力親為的人；
Niki Parmar在最初的代碼庫和后來的 tensor2tensor 框架里，設計、實現并調試了數不清的模型變體；
Llion Jones同樣嘗試了大量新的模型變體，并負責了最初的代碼庫、推理效率優化和可視化工作；
?ukasz KaiserAidan N. Gomez則花了無數個日夜搭建 tensor2tensor 的各個模塊，替換掉早期的代碼庫，大幅提升了實驗結果和研究效率。

這段說明也間接揭示了一個細節：盡管論文署名順序隨機，但 Uszkoreit、Vaswani、Polosukhin 和 Shazeer 顯然承擔了架構層面更核心的角色，而 Parmar、Jones、Kaiser 和 Gomez 則在工程實現和系統搭建上扛起了大旗——這恰恰也是后來八個人各自選擇不同道路時，性格與專長差異的一處早期注腳。

「Transformer」這個名字本身也有一段軼事。Uszkoreit 喜歡這個詞的發音，于是團隊內部干脆自稱「Team Transformer」，早期的設計文檔封面上還畫了變形金剛動畫里的六個角色。

論文發表至今，引用量已經超過 26 萬次，是 21 世紀被引用最多的論文之一。

Ashish Vaswani

Vaswani 出生于 1986 年，印度人，2002 年從印度比拉理工學院（BIT Mesra）拿到計算機科學學士學位，隨后赴美，在南加州大學跟隨 David Chiang 攻讀博士，研究方向是統計機器翻譯和神經網絡語言建模。完成博士學業后，他在南加大信息科學研究所做了兩年計算機科學家，2016 年正式加入 Google Brain，成為研究科學家，一直工作到 2021 年。

按照論文的作者貢獻說明，Vaswani 與 Illia Polosukhin 一起設計并實現了最初的 Transformer 模型，是「幾乎參與了項目每一個環節」的核心人物之一。

離開谷歌后，Vaswani 在 2021 年與 Niki Parmar、前 OpenAI 工程副總裁 David Luan 等人共同創辦了 Adept AI，擔任首席科學家，目標是打造能在任意軟件里自主完成操作的「行為模型」。

Adept 一度融到超過 4 億美元，估值約 10 億美元，但產品遲遲未能落地，團隊內部也出現了分歧。Vaswani 和 Parmar 很早就選擇退出——他在 Adept 的首席科學家任期止于 2022 年 11 月。

2023 年初，Vaswani 與 Parmar 再次聯手，共同創立 Essential AI，由他出任 CEO。公司先后拿到谷歌、英偉達、AMD 的戰略投資：種子輪 830 萬美元由 Thrive Capital 領投，2023 年底的 5650 萬美元 A 輪由 March Capital 領投，谷歌、英偉達、AMD、KB Investment、Franklin Templeton 等機構跟投。2026 年初，公司完成 1.75 億美元 B 輪融資，由 Lightspeed Venture Partners 領投，Thrive Capital 跟投，估值站上 10 億美元，正式成為獨角獸。

2025 年底，公司發布了首個開源模型系列 Rnj-1（以印度數學家拉馬努金 Ramanujan 命名）。

然而就在過去兩天，風向突變。據報道，英偉達正在招募 Essential AI 的核心團隊，Vaswani 本人也在其中，未來將參與英偉達開源模型 Nemotron 的研發。

消息人士透露，原因相當現實：Essential AI 的融資正在遇到瓶頸，而把 Vaswani 和團隊從英偉達的競爭對手 AMD 的陣營里拉走（AMD 一直是 Essential AI 的早期戰略投資人之一，公司也長期依賴 AMD 的 GPU），本身就是一樁劃算的買賣。已有幾位 Essential AI 的研究員（包括 Alok Tripathy、Saurabh Srivastava）更新了領英資料，顯示已經加入英偉達。不過截至目前，英偉達和 Essential AI 都沒有正式確認這一消息。

Noam Shazeer

Shazeer 出生于 1976 年的費城，是一名正統猶太教徒；父親 Dov Shazeer 是數學教師出身的工程師，姐妹則被希伯來學院授予拉比資格。他少年時期就展露過人天賦，1994 年作為美國隊成員參加國際數學奧林匹克競賽并獲得滿分金牌，隨后進入杜克大學學習數學和計算機科學，是 Angier B. Duke 紀念獎學金的獲得者，并在 Putnam 數學競賽中獲獎。

2000 年，Shazeer 加入谷歌，早年的成名作是修好了谷歌搜索的拼寫糾錯功能。

按照 Transformer 論文的作者貢獻說明，他提出了縮放點積注意力、多頭注意力機制以及無參數的位置表示方法，是除了 Vaswani 和 Polosukhin 之外，「幾乎參與了每一個細節」的人。

2017 年合著 Transformer 論文之后，他和同事 Daniel De Freitas 一起做出了聊天機器人 Meena，但谷歌出于審慎考慮沒有把它公開發布。兩人在 2021 年選擇離職，創辦了 Character.AI，一度從 a16z 等機構融到超過 1.5 億美元，做成了一款頗受歡迎的角色扮演聊天應用。

2024 年 8 月，故事出現轉折：谷歌與 Character.AI 達成一項授權協議，金額據報道高達 27 億美元，Shazeer 和 De Freitas 帶著一小批同事回到谷歌 DeepMind，他被任命為工程副總裁，與 Jeff Dean、Oriol Vinyals 一起共同領導 Gemini 項目。由于他本人持有 Character.AI 約三成到四成的股份，這筆交易讓他個人套現規模據估算在 7.5 億到 10 億美元之間。2026 年，他被選為美國國家工程院院士，履歷看起來如日中天。

可僅僅幾個月之后，他又一次選擇了離開，這次去向是 OpenAI，據報道將負責一個名為「架構研究」的方向，恰好趕上 OpenAI 為沖擊 IPO 招兵買馬的窗口期（公司已于 6 月 8 日向美國證券交易委員會秘密提交了 S-1 文件，估值傳聞高達 8520 億美元）。

OpenAI CEO Sam Altman 罕見地公開表態：「從 OpenAI 創立的第一天起，他就是我最想合作的人之一」，還說這次招聘「醞釀了整整十年」。

對谷歌而言，這是一次代價高昂的「回購未遂」：兩年前花 27 億美元請回來的人，如今又投奔了頭號競爭對手，而這也成了本周谷歌股價大跌的直接誘因之一。

Niki Parmar

Parmar 出生于印度浦那，本科就讀于浦那計算機技術學院（Pune Institute of Computer Technology），主修信息技術。在校期間，她通過吳恩達和 Peter Norvig 開設的網絡公開課對人工智能和機器學習產生了興趣，隨后赴美在南加州大學讀計算機科學碩士，跟隨教授 Morteza Dehghani 用機器學習方法研究社會科學問題。

2015 年，Parmar 加入谷歌研究院做軟件工程師，2017 年轉入谷歌大腦做研究軟件工程師——據報道，她是當時谷歌大腦團隊里最年輕、也是唯一沒有博士學位的研究人員。

按照論文的作者貢獻說明，她在最初的代碼庫和后來的 tensor2tensor 框架里，設計、實現并調試了數不清的模型變體。論文發表之后，她繼續把 Transformer 推向語言之外的領域，參與了把自注意力機制擴展到圖像生成和計算機視覺的研究工作。

2021 年，Parmar 離開谷歌，與 Ashish Vaswani、David Luan 等人共同創辦 Adept AI，擔任首席技術官。她和 Vaswani 一樣很早就從 Adept 退出，2023 年初又與 Vaswani 一起創立 Essential AI，繼續做聯合創始人。

但她沒有等到 Essential AI 后來的 B 輪融資和獨角獸身份。2024 年底，Parmar 悄悄離開了 Essential AI，轉身加入了 Anthropic，并在 2025 年 2 月公開宣布這一消息。她在 X 上寫道：「今天和往常一樣適合分享：我去年 12 月加入了 Anthropic。」

她隨后參與了 Claude 3.7 Sonnet 的開發——那是 Anthropic 歷史上最重要的一次模型發布之一。如今她是 Anthropic 的技術團隊成員（Member of Technical Staff），專注于前沿能力研究和強化學習方向的工作。

兩位曾經形影不離的合著者、兩次共同創業的搭檔，最終走向了兩個完全不同的歸宿：Parmar 提前一年多悄然抽身，安靜地融入了一家頭部實驗室；而 Vaswani 選擇繼續把 Essential AI 往前推，直到這周才被競爭對手伸出的手接住。

Jakob Uszkoreit

Uszkoreit 出生在一個語言學世家。他的父親 Hans Uszkoreit 是知名的計算語言學家。兒子提出「單靠注意力機制就夠用」這個假設時，連父親本人都是懷疑的。Uszkoreit 在柏林工業大學拿到博士學位，后來在谷歌大腦做到了「杰出科學家」（Distinguished Scientist）的級別。

按照論文的作者貢獻說明，正是 Uszkoreit 最先提出用自注意力機制取代循環神經網絡，并主導了對這個想法的早期驗證——這個假設的種子，其實在他 2016 年與 Ankur Parikh、Oscar T?ckstr?m,、Dipanjan Das 合著的「可分解注意力模型」論文里就已經埋下。

「Transformer」這個名字，也是因為他喜歡這個詞的發音才定下來的；團隊內部自稱「Team Transformer」，早期設計文檔封面上畫的，是變形金剛動畫里的六個角色。

2020 年底，DeepMind 的 AlphaFold2 證明 Transformer 式的模型可以解決蛋白質折疊這種「生物學圣杯」級別的難題。他也越來越清楚地意識到，深度學習之所以還沒能真正改變生物學，缺的不是算法，是數據。「這幾乎成了一種道德義務，」他后來回憶說。

于是他在 2021 年和斯坦福大學生物化學教授、知名 RNA 設計游戲 Eterna 的開發者 Rhiju Das 共同創立了 Inceptive，公司總部設在伯克利，研究團隊留在柏林——他本人就住在柏林，員工還分布在蘇黎世、倫敦、溫哥華和美國東海岸多個城市。公司的核心思路是反過來做實驗：不是先有數據再訓練模型，而是用機器人和人工大規模生成全新的 RNA 實驗數據，再喂給模型學習。

Inceptive 已經從英偉達、a16z、Obvious Ventures、Section 32 等機構融到約 1.2 億美元。最新的進展發生在這個月：6 月初，RNA 干擾療法的開創者 Alnylam 制藥與 Inceptive 簽署戰略合作，借助 Inceptive 的基礎模型加速 siRNA 候選藥物的設計，首付款 3000 萬美元，據報道整筆合作的潛在總金額可達約 20 億美元。Uszkoreit 在聲明里說：「大多數藥物設計依然靠試錯——測試成千上萬個分子，賭其中一個能成功。Inceptive 的出發點不一樣：生命遵循著極其復雜的規律，只有 AI 才能學會它們。」

八位作者里，他是唯一一個徹底轉行做生物科技的人，而這恰好印證了那篇論文當年留下的一句預言：注意力機制的潛力，遠不止機器翻譯。

Llion Jones

Jones 是威爾士人，畢業于伯明翰大學，2011 年加入谷歌做軟件工程師，一干就是十多年，是八位作者里少數沒有博士學位、純靠工程直覺摸出門道的人。

按照論文的作者貢獻說明，他嘗試了大量新的模型變體，并負責了最初的代碼庫、推理效率優化和可視化工作。

他后來回憶過那個決定性的瞬間：「我們當時剛開始嘗試把模型的某些部分直接砍掉，就為了看看效果會變差多少。結果讓人意外的是，它反而變好了。」這正是「循環結構其實是多余的」這一假設第一次被驗證的時刻。

2023 年，Jones 和同樣出身谷歌的 David Ha 一起在東京創立了 Sakana AI。「Sakana」在日語里就是「魚」的意思。Ha 出任 CEO，Jones 出任 CTO，公司另一位聯合創始人 Ren Ito 任 COO。

Jones 如今常駐東京，在社交媒體上自稱「住在東京的威爾士 AI 研究員」。這家公司的研究路線帶著鮮明的反潮流色彩：與其一味堆算力、堆參數，不如借鑒自然演化的邏輯，讓一群更小的模型像魚群一樣協作，公司的代表性研究成果包括 Continuous Thought Machine（連續思維機）和能夠自主開展端到端研究的「AI Scientist」項目。近日，該公司更是發布了性能前沿的 Sakana Fugu 模型。

Sakana AI 累計融資已達 3.79 億美元，包括 2026 年 3 月完成的 B 輪融資，三菱電機也是其投資方之一。2026 年 3 月，公司還拿下了三菱日聯金融集團（MUFG）的多年合作協議。后者計劃用 Sakana 的技術改造銀行業務系統，據報道這筆合作能讓這家估值約 15 億美元的公司在一年內實現盈利。

Jones 本人在多個場合表達過對單純「scaling」的懷疑。2026 年 3 月，他在一場銀行業內部活動上說，當下的 AI 研究面臨一個尷尬的現實：投資和人才大量涌入，理論上該催生更多突破，但實際效果可能恰恰相反：投資人催著出成果，競爭催著搶首發，留給研究者「自由摸索」的空間反而被壓縮了。他提到，Sakana 內部一直保留著一小部分「沒有 KPI」的研究自由度，因為下一個突破注定來自這種不計后果的長線投入——這其實就是當年那間谷歌大腦辦公室孕育出 Transformer 的方式。

他還說過一句被反復引用的話：要讓某個新架構真正取代 Transformer，光是「更好」不夠，必須「明顯地、毫無疑問地更好」。

Aidan N. Gomez

Gomez 是八位作者中年紀最小的一個。論文發表那年，他只是谷歌大腦一名 20 歲的本科實習生，正在多倫多大學念計算機和數學雙學位。

按照論文的作者貢獻說明，他和 ?ukasz Kaiser 花了無數個日夜搭建 tensor2tensor 框架的各個模塊，替換掉早期的代碼庫，大幅提升了實驗結果和研究效率。「我當時只是想搞明白注意力機制到底是怎么運作的，」他后來回憶道，「完全沒想到它會變成『萬物的架構』。」論文之后，他去牛津大學讀博士，中途暫停學業創業，2024 年才正式拿到博士學位——可以說他是邊創業邊把學位補回來的。

2019 年，Gomez 和 Ivan Zhang、Nick Frosst 一起創辦了 Cohere，把公司定位為企業級 AI 服務商，刻意避開了消費級聊天機器人的燒錢競賽，主打數據隱私、本地化部署和多語言能力，客戶多是大型企業和各國政府。2023 年，Gomez 入選《時代周刊》評選的 AI 領域百大影響力人物，他和兩位聯合創始人也一起拿下了《麥考林》雜志當年評選的 AI 趨勢先鋒榜首位；2025 年 4 月，他又被選入電動車公司 Rivian 的董事會。

這個相對「不性感」的打法反而讓公司跑出了不錯的財務數據：截至 2026 年中，Cohere 年化經常性收入已超過 2 億美元，過去一年增長了 6 倍，毛利率約 70%，累計融資接近 17 億美元，估值約 70 億美元；公司在 2025 年 8 月請來曾參與 Uber 上市的 Francois Chadwick 擔任首位 CFO，員工二級市場賣出股份的窗口也已經開放過一輪，Gomez 本人多次表示 IPO 「快了」，但截至目前公司仍未向監管機構提交招股書。

Gomez 這幾年越來越像一個地緣政治意義上的 AI 發言人。就在這周，他在《財富》雜志撰文，呼吁各國正視「數字主權」問題。文章直接提到 Anthropic 模型訪問權限近期被收緊的事件，警告各國不能把自己的未來「租」給少數幾家中心化的科技巨頭，并提出要建立一個真正多元的生態，讓各國可以依賴不同的 AI 供應商，同時保有自己的價值觀、語言和法律體系。

他還公開表示過，外界對「AI 末日」式存在風險的擔憂被夸大了，他更擔心的現實風險，是虛假信息在社交媒體上被自動化放大。Gomez 如今談論的已經不只是模型本身，而是誰有資格決定全世界用什么樣的 AI。

?ukasz Kaiser

Kaiser 是波蘭人，最初的學術訓練是邏輯學、自動機理論、算法模型論和博弈論等理論計算機科學方向：他在弗羅茨瓦夫大學拿到數學和計算機科學雙碩士學位，又在德國亞琛工業大學完成博士學業，隨后在法國國家科學研究中心（CNRS）和巴黎七大擁有終身教職，專注于邏輯學和自動機理論的純理論研究。后來他轉向應用，在谷歌大腦工作了將近八年，期間也是 TensorFlow 的合著者之一，并與 Samy Bengio 合作發表過「主動記憶能否取代注意力」的早期論文，與 Ilya Sutskever 合作發表過「神經 GPU 學習算法」。

按照論文的作者貢獻說明，他和 Aidan N. Gomez 花了無數個日夜搭建 tensor2tensor 框架，大幅提升了實驗結果和研究效率。

八位作者中，他是唯一一個沒有去創業、始終留在大型實驗室做純研究的人。

2021 年他加入了 OpenAI，那時 ChatGPT 還沒有面世。在 OpenAI，他參與了 Codex 的研發（后來成為 GitHub Copilot 的技術基礎）以及配套的 HumanEval 編程基準，也參與了 GSM8K 數學題數據集的研究，這項工作早早展示了「讓模型在推理時多算一會兒、多采樣幾次」可以顯著提升準確率——這正是后來推理模型范式的雛形。

他還是 GPT-4 技術報告的署名作者之一，后來成為 OpenAI 首個推理模型 o1（2024 年 9 月發布）的核心貢獻者，被認為是「研究負責人」級別的角色，此后一路延續到 o3 以及更新的推理范式，直到今天的 GPT-5 系列。

他最近在 Matt Turck 主持的 MAD Podcast 上談到，Transformer 已經被數學證明可以解決任何問題，只要允許模型生成足夠多的中間推理步驟。某種程度上講，這是對九年前那篇論文的一次遲到的、更精確的注解。

Illia Polosukhin

Polosukhin 來自烏克蘭哈爾科夫，本科學的是應用數學，還是國際大學生程序設計競賽（ICPC）的冠軍選手。據他本人回憶，十歲那年看了《黑客帝國》之后，他就對人工智能產生了近乎執念的興趣。2014 年，他加入谷歌，參與 TensorFlow 相關的研究工作，也做過機器閱讀理解和問答系統方面的研究。

按照論文的作者貢獻說明，他與 Ashish Vaswani 一起設計并實現了最初的 Transformer 模型，他負責的部分主要是驗證這套架構在機器翻譯任務上的有效性。

論文發表之后，他在 2017 年離開谷歌，與 Alexander Skidanov 共同創辦了一家最初叫 NEAR.AI 的人工智能公司。但很快他們發現，做去中心化的基礎設施可能比做模型更有意思，于是公司在 2018 年前后轉型成了區塊鏈項目 NEAR Protocol。

NEAR 采用了名為 Nightshade 的分片技術，并通過 Aurora 提供與以太坊兼容的二層網絡，2020 年主網正式上線，迄今已從 a16z、Coinbase、老虎環球基金、Hashed、Dragonfly Capital 等機構融資超過 5.3 億美元。

如今的 Polosukhin 正試圖把自己最初的兩個身份重新拼到一起：2026 年 3 月，他告訴媒體，「區塊鏈未來的用戶將是 AI 智能體，而不是人類」，并把 NEAR 定位成智能體經濟的「結算層」。同年 4 月，他公開呼吁建立更完善的監管框架來應對自主 AI 智能體；他認為現有的機構和制度還沒準備好處理這類系統帶來的責任歸屬和系統性風險問題，呼吁建立更清晰的問責機制和「人在回路」式的監督。

他目前常駐葡萄牙。在「寫了奠基性 LLM 論文」和「經營一家市值數十億美元的區塊鏈公司」這兩個身份之間，能同時擁有兩者的人，全世界恐怕只有他一個。

八條路，繼續探索

2024 年 3 月，英偉達 GTC 大會上，八位作者里的七位（Niki Parmar 因故缺席）第一次以群體身份同臺亮相，接受了黃仁勛的訪談。

黃仁勛說：「我們今天享受的一切，都能追溯到那一刻。

對話結束時，他給每個人都送上了一塊刻著「你們改變了世界（You transformed the world）」的英偉達 DGX-1 超算簽名紀念牌。同年 11 月，日本 NEC C&C 基金會把當年的 C&C 獎頒給了這八個人組成的「Transformer 團隊」，與他們同臺領獎的，是三位研究跨洋海底光纜傳輸技術的資深工程師。兩種完全不同領域的基礎設施建設者，被放在了同一個獎項里。

九年過去，這八條人生軌跡已經分散到幾乎不會再相交的地方：硅谷的企業服務賽道，東京的演化算法實驗室，柏林的分子生物學公司，葡萄牙的區塊鏈協議，還有這周仍在重新排列組合的幾家頭部 AI 實驗室。

但如果把他們這些年說過的話放在一起看，會發現一個共同的判斷反復出現：沒有人真的相信 Transformer 會是終點

Aidan N. Gomez 說，世界需要比 Transformer 更好的東西；Llion Jones 說，下一個架構必須「明顯地、毫無疑問地更好」才能取代它；?ukasz Kaiser 則仍在用數學語言，試圖說清楚這套九年前誕生的架構，到底還能把人類帶多遠。

這或許才是這篇論文留下的最持久的遺產：它的八位作者散落天涯，卻沒有一個人停止尋找下一個答案。

https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

https://x.com/TylerMaran/status/2067772926695522454

https://www.nvidia.com/zh-tw/on-demand/session/gtc24-s63046/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.