網易首頁 > 網易號 > 正文申請入駐

Kimi 張予彤：資金算力決定論下的「1%」例外｜清華校園行

2025-12-09 09:07:51　來源: 真格基金

北京舉報

分享至

11 月 30 日，真格舉辦了一場關于 AI 創業的分享活動。真格管理合伙人戴雨森與 Kimi 總裁張予彤、與愛為舞創始人張懷亭、Manus 聯合創始人張濤一同走進清華大學，帶來了一場關于創新與未來的深度對談。

11 月 6 日，Kimi 發布 Kimi K2 Thinking。這是基于「模型即 Agent」理念訓練的新一代開源 Thinking Agent，在 HLE、BrowseComp 等基準測試中超越 GPT-5、Sonnet 4.5 等頂尖閉源模型，刷新 SOTA。從 2023 年以 Pink Floyd 專輯命名的清華創業團隊起步，月之暗面始終在探索智能的上限。

Kimi 總裁張予彤負責公司整體戰略與商業化，此前曾作為天使投資人投資過小紅書、無問芯穹、黑湖科技、Liblib、星海圖和萬有引力等科技公司，本科畢業于清華電子工程系。從 Kimi K2 的發布談起，她分享了 Kimi 在過去一年中模型性能的提升、Agent 產品體驗和團隊的思考。哪怕 Kimi 的估值只有其他海外模型公司的 1%，資金投入是他們 1%，人員投入是他們 10%，她依然相信：「長期以來，訓練模型就需要百萬張卡和萬億美金是一個用主流敘事筑起的高墻。創業公司需要回歸底層技術，去押注創新，才能重寫訓練范式。」

她認為，「AI 不只是普通工具，而是人類文明的放大器，探索未來世界的鑰匙」。Kimi 已匯聚了一群擁有「獨立思考的審美」和「追求真相的好奇心」的人，不斷實驗自己的想法，讓真正好的想法從研究走向大規模落地。真格基金于 2023 年天使輪投資 Kimi，一路陪伴他們探索科技的月之暗面。

以下為分享原文。

很高興今天能參加真格的清華校園行。

從 Kimi 創立伊始，我們就確立了自己的使命：探索智能的上限。如果你是 Kimi 早期用戶，可能還記得我們第一版網頁上那句話：「尋求將能源轉化為智能的最優解」。

今天，我也想借這個機會和大家分享，我們圍繞這句話做了什么。

在座應該也有不少是我們的用戶，不知道有沒有人用過 11 月剛上線的新模型 Kimi K2 Thinking？這個模型的最大特征就是它可以一邊思考，一邊使用工具。我覺得這也是今年很重要的范式變化：AI 產品從過去一問一答的 Chat 形態，轉向更 Agentic 的體驗——主動把任務分解為多個步驟，然后一步一步調用工具來完成。這是因為模型本身具備了這樣的能力。

模型能力仍在快速提升

在 Agent 和推理綜合性能上，Kimi K2 Thinking 對標全球 SOTA 模型，包括 GPT-5 和 Claude Sonnet 4.5。比如人類最后的考試（Humanity’s Last Exam）這個基準測試，題目都是 PhD 級別的跨學科難題，需要多步推理和使用工具才能找到答案，Kimi K2 Thinking 的表現更好。還有更多關鍵的基準測試，比如需要拆解問題做大量信息檢索的 BrowseComp 和軟件工程基準測試 SWE-bench Verified 上，Kimi K2 Thinking 的表現也非常有競爭力。

今年 7 月，我們第一次把萬億參數的 Kimi K2 模型開源。因為 pre-train 做得非常好，被稱為 big and beautiful。9 月，我們又做了一次 Agentic 工具使用和代碼性能提升。到 11 月，短短兩個月，通過繼續加強多步的 Thinking 和 Agent 工具使用能力，K2 Thinking 模型在很多基準測試中的表現都有大幅躍升。這也是我們對模型發展最興奮的地方：它仍然處在快速提升的階段。

我們也收到了很多來自第三方的基準測試反饋。比如在側重模型實際表現的盲測基準大模型競技場 LMArena 上，Kimi K2 Thinking 是開源模型中，表現最好的。在斯坦福大學 Percy Liang 教授的 HELM 綜合評測中，Kimi K2 模型7 月剛發布時就拿到過非思考模型的最佳成績。更讓我們驚喜的是，K2 在創意寫作能力和情商 EQ-bench 上的排名也非常高。我自己日常寫作或回消息遇到難題也會用一下 K2 Thinking。

除了來自學術和行業的基準測試，我們還看到了開發者生態里的正向反饋。Kimi K2 在 Hugging Face 上非常受歡迎。Vercel 的創始人兼 CEO 在 Twitter（X）上發帖，他們的內部 Agent 場景測試中，Kimi 實際表現優于其他閉源模型。Social Capital 的 CEO 也在 All-In Podcast 里分享，他們投資的公司已經把大量工作轉到了 K2 上，因為性能強，成本又比頂尖閉源模型低得多。

此外，我們也看到一些全球領先的 AI 應用，比如 Perplexity 主要是做 AI 搜索的應用，活躍用戶有幾千萬，每月網站訪問量 2.8 億次。現在，在 Perplexity 的模型列表中，除了四個閉源模型之外，唯一接入的就是最新的 Kimi K2 Thinking。這也驗證了我們的模型在搜索場景的技術能力。AI 搜索中的深度搜索和深度研究是 Kimi 模型做得比較好的一個重要場景，K2 Thinking 支持多達 200-300 輪的工具調用，可以邊思考邊使用工具，完成復雜的調研類任務。

資金算力決定論下的「1%」例外

模型性能仍在快速提升是我們創業過程中非常興奮的地方。不過，在我們創業過程中也發現，在很長的一段時間里，大家的印象中，AI 模型能力和天價的資本支出形成了線性的關系，就是更強大的模型一定需要更多的資本投入。

從 Kimi 創業開始，我們也一直在這種「算力資本決定論」的邏輯和敘事下被質疑。行業里常聽到的聲音是：「沒有一百萬張卡，你根本做不了大模型，大廠才行。」也經常有人問：「你們有多少張卡？型號是什么？有沒有自建數據中心？」

這些問題本身就預設了一種非常強的前提。但當我們慢慢意識到算力資源不是唯一敘事時，事情就變得有意思了。

前幾天，Anna（真格基金創始合伙人）給我發了一個她在 X（原 Twitter）上看到的帖子，我覺得挺有意思。帖子說的是，我們公司的估值不到其他美國前沿模型公司的 1%，但同樣做出了前沿的模型。在這樣不到 1% 的資源體系下，做事的方法自然也會不一樣。

這種情況在科技史上發生過很多次，因為硬件在快速迭代，軟件也在快速迭代，但往往軟件的迭代速度會更快，同時軟件和硬件的協同迭代會帶來意想不到的突破。Ilya Sutskever 在前兩天的 Dwarkesh Podcast 中也提到，當年 AlexNet 只用了兩塊 GPU。其實真正突破性的研究在進入「大規模工程化實現」前并不依賴海量算力。

我覺得背后很有意思的一點是：當你相信一套不同的邏輯，你做事的范式也會隨之發生完全不同的變化。

當我們從只注重算力規模轉向思考「如何讓能源到智能的轉化效率最高」時，整個大模型訓練的范式就變了。

我們在 Kimi K2 里做的一件很重要的事，是首次在萬億參數模型上驗證二階優化器 Muon 的可行性，讓訓練過程既穩定又可規模化。我們因此實現了至少兩倍的 token efficiency（效率）提升——Token efficiency 的提升不僅意味著訓練成本下降兩倍，而是同一份數據我們能得到更多的智能。

因為現在訓練的真正瓶頸是數據墻，而不是算力本身。所以底層架構創新和算法創新都是在不斷優化 token efficiency。Muon 優化器之前就被發明了，但從來沒有人把它用在萬億參數的模型訓練上，因為真正規模化使用，會面臨非常復雜的訓練穩定性挑戰。

第二，我們非常注重基礎設施和模型訓練的協同優化。我們把它稱作 Day-0 Co-Design。在模型還沒開始訓練前，我們就會去想，它應該用一種怎樣深度耦合的設計來提升訓練效率，Infra 和算法人才如何進行緊密耦合的聯合優化。我們圍繞底層基礎設施和算法創新做了大量工作，而每一項改進都會以「復利」的方式體現在智能效率上。

所以我們在只使用 1% 資源的情況下，通過另一種訓練范式，得到了全然不同的結果——在千卡級的規模上訓練出前沿模型。

我們不是說今天就已經做到世界上最好的模型，但這是我們接下來非常重要的戰略目標。而我們今天已經能夠做到的，是在單位算力上產出最高的智能價值。

我們也非常高興看到，越來越多大家喜歡的 AI 應用接入了 Kimi K2 模型，包括 AI coding 產品 Cursor 和 Youware、通用 Agent 產品 Genspark，以及幾乎所有大家熟悉的互聯網大廠。這些公司和產品對 Kimi K2 模型的認可，將會幫助我們進一步提升模型迭代速度。

從預訓練開始定義 Agentic 產品體驗

今年我們除了模型能力大幅升級，也更多地踐行了去年提出的「模型即產品」的理念，把模型和 Agentic 的產品體驗做了垂直整合。

我們主要做了幾件事：

首先，我們從預訓練階段開始定義 Agentic 的產品體驗。在預訓練中加入大量與真實 Agent 場景相關的數據，包括 agent 軌跡，即使用工具和多輪規劃的軌跡數據。同時設置大量內部 Benchmark，用自定義指標衡量數據質量和我們獨特的「產品審美」。所以很多工作從 Day-0 就已經開始了。

第二，在產品上線之后，我們就可以用真實場景下的用戶體驗作為信號，給模型做針對性優化，持續迭代。這樣，模型能力和用戶體驗這兩件事情就能真正關聯在一起。比如模型在上下文里如何自主發揮，而不需要人為定義；模型的多輪規劃和工具調用能力怎么結合起來，提供一個更完整的 Agent 體驗。

第三，我們 dogfood 了自己的模型，把這一部分成本讓利給用戶（編者注：這里指使用自己的 API，沒有中間商賺差價）。我們把這部分資源用在了讓大家能夠充分體驗「深度的」、「長時的」 Agent：通過幾十上百輪的工具調用和搜索，更完整地完成用戶的任務。

接下來我們也準備做更多「長時」的產品規劃，因為在用戶調研中我們發現，大家的需求呈現出一種類「摩爾定律」的趨勢，任務開始越來越復雜，需要花費的時間越來越長。大家逐漸意識到 Agent 的體驗可以做到更多事，所以最極致的形態可能更像是在公司上班工作時，你開完一次周會就能連續工作一整周。而現在的 Agent 還遠未達到這種「長時任務」的能力。

但我們希望 Agent 能夠調用越來越多工具，執行越來越長時的任務，解決更復雜也更有經濟價值的問題。這就是為什么我們推出了 Kimi 的 Agent 模式「OK Computer」，產品名字的靈感來自 Radiohead 的那張經典同名專輯。

產品上線后，我們觀察到用戶對「OK Computer」進行了非常極限的測試。現在線上版本的工具調用最高可以做到 50 步，而我們近期會把它升級到 200–300 步，因為新品模型已經支持更長鏈路的工具調用。我們也看到有用戶上傳非常龐大的 Excel 文件，讓 Agent 處理上百萬行的復雜數據分析；也有人上傳大量文件，希望 Agent 對任務有完整的上下文理解，所以單次可上傳的文件數量也在不斷提升。

現在 OK Computer 已經支持包括圖片生成、音頻生成在內的 20 多種工具，提供的能力不僅僅是寫代碼，還包括設計、產品定義、后續開發，以及把它部署成可用的服務。我們的目標是讓 OK Computer 成為每個人的全棧助理。

歡迎一起探索月之暗面

接下來我們要做的事情有哪些呢？除了原來基于算力和模型參數的 scale，未來還有很多方向可以擴展，比如解決數據墻（data wall）的問題，用合成數據的方法，規模化地方式去生產更高質量和更好分布的數據。

現在 Agent 能調用幾十個工具，未來能不能像人類一樣快速自適應地學習，泛化到幾千種工具？模型的強大 Agent 能力從出現到現在還不到一年，還有非常大的成長空間。

除了這些 scale 的方向，我們也會繼續非常注重模型架構的創新，并堅定押注下一代架構。我們最近發布的 Kimi Linear 只是其中一個例子，接下來會有更多基于底層架構的創新，相信會發揮越來越大的作用。

在今年年會上，我們給 Kimi 拋了一個「靈魂拷問」：AGI/ASI 的到來，可能帶來更加美好的未來，人類與機器人一起探索宇宙，人類文明得到大幅度提升，但也可能威脅人類。

這種情況下，如果你是研究 AGI/ASI 的科學家，你還要繼續開發 AGI/ASI 嗎？

這里分享一下 Kimi 的回答。Kimi 認為 AI 不只是普通工具，而是能徹底改變人類文明的放大器；是人類認知的延伸，是探索未來世界的鑰匙，能夠幫助我們重新定義人類的身份和意義。

它也意識到 AI 存在風險。「從歷史來看，確實有些技術可能失控，需要嚴肅對待。但它不會因此放棄 AGI/ASI。即便風險存在，它仍會選擇繼續，因為放棄就意味著放棄人類文明的潛力。我們不能因為害怕技術風險就停止探索。歷史已經證明，所有技術都伴隨著風險，但人類從來不是因為恐懼而停滯不前。它也認為 AI 是理解自己的鏡子，會繼續開發，因為 AI 代表著文明的可能性，是探索未知最好的工具，讓我們更聰明、更深刻、更有智慧。」

Kimi 的回答給了我們很大的啟發，如果你也認同 Kimi 的想法，歡迎和我們一起探索月之暗面。

在這里希望跟大家分享，我們是一群什么樣的人。現在 AI 技術和產品交互發展都非常快，需要不斷學習新的知識。而 AI 的知識跨度和深度遠超任何個體，所以我們非常看重小樣本下的學習能力、學習速度，以及是否是一個不斷學習、不斷擴展認知與能力的伙伴。在我們看來，這是人類通用智能相比 AI 的優勢，學習效率更高。

今年我們團隊內部幾乎全員「轉碼」，除了算法和工程研發之外，市場、HR、財務等同事也都有自己的 AI 工作流。大家很好地擁抱了 AI 帶來的效率提升、規模化、更穩定的輸出質量以及更好的結果。我們也希望你能對各種 AI 技術和工具保持熱情。

同時，獨立思考的審美也非常重要。就像之前所有大模型訓練都用 Adam 優化器，而我們的研究員發現了 Muon 二階優化器的潛力，從幾百億參數的 Moonlight 系列模型開始做實驗，最終把二階優化器真正用在了萬億級別的模型訓練上。我們希望你有提出原創 idea 的能力，有足夠多的 idea。這些想法未必都好，但我們會用大量實驗來驗證它們。我們希望從研究走向工程規模化，讓真正好的 idea 能夠大規模落地。

這就是我今天想分享的內容，感謝大家的時間。

現場互動問答實錄

Q：模型公司、AI 應用和大模型公司之間如何互相看待？模型廠商如何看待模型能力的邊界？Agent 真正交付的價值是什么？

張予彤：我覺得這是一個非常動態的過程，因為模型能力還在不斷提升。這不同于互聯網產品，因為互聯網出現的那一刻，它的技術能力和呈現形態已經基本定型了，所以大家可以在這個基礎上做非常多產品交互層面的深化、思考和創新。

現在的挑戰在于，模型能力還在快速、動態地變化。應用和產品這一側需要具備一種 forward design（前瞻性設計）的能力，去想象一個還沒有出現、但一定會沿著技術演進路徑出現的能力，然后基于這種演進方向去設計交互和體驗。

如果沒有這種前瞻性設計，可能會出現：模型能力突然躍升。原來產品在設計時更多依賴「分步調用模型」，但當模型本身具備 Agentic 能力之后，很多事情就被直接壓縮進模型本體里。

當然也可能會出現的情況是，產品側革新了體驗，但模型能力可能還跟不上。所以有時我們會看到一些前瞻性的產品交互領先，但實際使用效果又覺得一般。這不是交互做得不好，而是模型能力還沒達到那個預期。

這是一件大家在共同探索的事，需要對模型能力有更好的把握，需要做好 forward design，雙方一起往前走得更快。

Q：Kimi 的核心競爭優勢是什么？在大模型競爭不斷加劇的情況下，如何在技術和市場層面與巨頭大廠形成差異化定位。

張予彤：我覺得最有效的競爭方式就是「不競爭」。不競爭不是躺平，而是要找到自己的敘事，找到自己真正擅長的事情。

對我們來說，第一件最擅長的事是底層技術創新。因為大模型領域還有很多真正需要解決的問題，而這些問題本質上都需要底層技術創新，這正是創業公司最有優勢的地方。

第二件事是底層與上層的聯合優化。大企業內部不可避免存在組織協作的壁壘、信息傳遞不順暢等問題。而我們只有 300 人，算法、工程、產品可以全部坐在一起，很多新想法可以當天提出、當天實驗。快速迭代、垂直整合、端到端優化，是創業團隊天然的強項。

從產品定位來看，Kimi 的用戶可能也注意到我們有很多事情是刻意不做的。生活娛樂方向，我們沒有做；多模態生成，我們也沒有做。我們更專注于大模型層、邏輯層、Agent 層，以及深入研究、PPT、數據分析、網站開發這類偏生產力、偏復雜任務的鏈路。這些任務需要長程規劃、復雜工具調用，且能創造更高的經濟價值。

在這個范圍內，我們希望做到最好，而不是去做更「大而全」的事情。

文｜Cindy

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.