網易首頁 > 網易號 > 正文 申請入駐

Kimi 張予彤:資金算力決定論下的「1%」例外|清華校園行

0
分享至


11 月 30 日,真格舉辦了一場關于 AI 創業的分享活動。真格管理合伙人戴雨森與 Kimi 總裁張予彤、與愛為舞創始人張懷亭、Manus 聯合創始人張濤一同走進清華大學,帶來了一場關于創新與未來的深度對談。

11 月 6 日,Kimi 發布 Kimi K2 Thinking。這是基于「模型即 Agent」理念訓練的新一代開源 Thinking Agent,在 HLE、BrowseComp 等基準測試中超越 GPT-5、Sonnet 4.5 等頂尖閉源模型,刷新 SOTA。從 2023 年以 Pink Floyd 專輯命名的清華創業團隊起步,月之暗面始終在探索智能的上限。

Kimi 總裁張予彤負責公司整體戰略與商業化,此前曾作為天使投資人投資過小紅書、無問芯穹、黑湖科技、Liblib、星海圖和萬有引力等科技公司,本科畢業于清華電子工程系。從 Kimi K2 的發布談起,她分享了 Kimi 在過去一年中模型性能的提升、Agent 產品體驗和團隊的思考。哪怕 Kimi 的估值只有其他海外模型公司的 1%,資金投入是他們 1%,人員投入是他們 10%,她依然相信:「長期以來,訓練模型就需要百萬張卡和萬億美金是一個用主流敘事筑起的高墻。創業公司需要回歸底層技術,去押注創新,才能重寫訓練范式。」

她認為,「AI 不只是普通工具,而是人類文明的放大器,探索未來世界的鑰匙」。Kimi 已匯聚了一群擁有「獨立思考的審美」和「追求真相的好奇心」的人,不斷實驗自己的想法,讓真正好的想法從研究走向大規模落地。真格基金于 2023 年天使輪投資 Kimi,一路陪伴他們探索科技的月之暗面。

以下為分享原文。

很高興今天能參加真格的清華校園行。

從 Kimi 創立伊始,我們就確立了自己的使命:探索智能的上限。如果你是 Kimi 早期用戶,可能還記得我們第一版網頁上那句話:「尋求將能源轉化為智能的最優解」。

今天,我也想借這個機會和大家分享,我們圍繞這句話做了什么。

在座應該也有不少是我們的用戶,不知道有沒有人用過 11 月剛上線的新模型 Kimi K2 Thinking?這個模型的最大特征就是它可以一邊思考,一邊使用工具。我覺得這也是今年很重要的范式變化:AI 產品從過去一問一答的 Chat 形態,轉向更 Agentic 的體驗——主動把任務分解為多個步驟,然后一步一步調用工具來完成。這是因為模型本身具備了這樣的能力。


模型能力仍在快速提升

在 Agent 和推理綜合性能上,Kimi K2 Thinking 對標全球 SOTA 模型,包括 GPT-5 和 Claude Sonnet 4.5。比如人類最后的考試(Humanity’s Last Exam)這個基準測試,題目都是 PhD 級別的跨學科難題,需要多步推理和使用工具才能找到答案,Kimi K2 Thinking 的表現更好。還有更多關鍵的基準測試,比如需要拆解問題做大量信息檢索的 BrowseComp 和軟件工程基準測試 SWE-bench Verified 上,Kimi K2 Thinking 的表現也非常有競爭力。


今年 7 月,我們第一次把萬億參數的 Kimi K2 模型開源。因為 pre-train 做得非常好,被稱為 big and beautiful。9 月,我們又做了一次 Agentic 工具使用和代碼性能提升。到 11 月,短短兩個月,通過繼續加強多步的 Thinking 和 Agent 工具使用能力,K2 Thinking 模型在很多基準測試中的表現都有大幅躍升。這也是我們對模型發展最興奮的地方:它仍然處在快速提升的階段。

我們也收到了很多來自第三方的基準測試反饋。比如在側重模型實際表現的盲測基準大模型競技場 LMArena 上,Kimi K2 Thinking 是開源模型中,表現最好的。在斯坦福大學 Percy Liang 教授的 HELM 綜合評測中,Kimi K2 模型7 月剛發布時就拿到過非思考模型的最佳成績。更讓我們驚喜的是,K2 在創意寫作能力和情商 EQ-bench 上的排名也非常高。我自己日常寫作或回消息遇到難題也會用一下 K2 Thinking。

除了來自學術和行業的基準測試,我們還看到了開發者生態里的正向反饋。Kimi K2 在 Hugging Face 上非常受歡迎。Vercel 的創始人兼 CEO 在 Twitter(X)上發帖,他們的內部 Agent 場景測試中,Kimi 實際表現優于其他閉源模型。Social Capital 的 CEO 也在 All-In Podcast 里分享,他們投資的公司已經把大量工作轉到了 K2 上,因為性能強,成本又比頂尖閉源模型低得多。


此外,我們也看到一些全球領先的 AI 應用,比如 Perplexity 主要是做 AI 搜索的應用,活躍用戶有幾千萬,每月網站訪問量 2.8 億次。現在,在 Perplexity 的模型列表中,除了四個閉源模型之外,唯一接入的就是最新的 Kimi K2 Thinking。這也驗證了我們的模型在搜索場景的技術能力。AI 搜索中的深度搜索和深度研究是 Kimi 模型做得比較好的一個重要場景,K2 Thinking 支持多達 200-300 輪的工具調用,可以邊思考邊使用工具,完成復雜的調研類任務。


資金算力決定論下的「1%」例外

模型性能仍在快速提升是我們創業過程中非常興奮的地方。不過,在我們創業過程中也發現,在很長的一段時間里,大家的印象中,AI 模型能力和天價的資本支出形成了線性的關系,就是更強大的模型一定需要更多的資本投入。

從 Kimi 創業開始,我們也一直在這種「算力資本決定論」的邏輯和敘事下被質疑。行業里常聽到的聲音是:「沒有一百萬張卡,你根本做不了大模型,大廠才行。」也經常有人問:「你們有多少張卡?型號是什么?有沒有自建數據中心?」

這些問題本身就預設了一種非常強的前提。但當我們慢慢意識到算力資源不是唯一敘事時,事情就變得有意思了。


前幾天,Anna(真格基金創始合伙人)給我發了一個她在 X(原 Twitter)上看到的帖子,我覺得挺有意思。帖子說的是,我們公司的估值不到其他美國前沿模型公司的 1%,但同樣做出了前沿的模型。在這樣不到 1% 的資源體系下,做事的方法自然也會不一樣。

這種情況在科技史上發生過很多次,因為硬件在快速迭代,軟件也在快速迭代,但往往軟件的迭代速度會更快,同時軟件和硬件的協同迭代會帶來意想不到的突破。Ilya Sutskever 在前兩天的 Dwarkesh Podcast 中也提到,當年 AlexNet 只用了兩塊 GPU。其實真正突破性的研究在進入「大規模工程化實現」前并不依賴海量算力。

我覺得背后很有意思的一點是:當你相信一套不同的邏輯,你做事的范式也會隨之發生完全不同的變化。

當我們從只注重算力規模轉向思考「如何讓能源到智能的轉化效率最高」時,整個大模型訓練的范式就變了。


我們在 Kimi K2 里做的一件很重要的事,是首次在萬億參數模型上驗證二階優化器 Muon 的可行性,讓訓練過程既穩定又可規模化。我們因此實現了至少兩倍的 token efficiency(效率)提升——Token efficiency 的提升不僅意味著訓練成本下降兩倍,而是同一份數據我們能得到更多的智能。

因為現在訓練的真正瓶頸是數據墻,而不是算力本身。所以底層架構創新和算法創新都是在不斷優化 token efficiency。Muon 優化器之前就被發明了,但從來沒有人把它用在萬億參數的模型訓練上,因為真正規模化使用,會面臨非常復雜的訓練穩定性挑戰。

第二,我們非常注重基礎設施和模型訓練的協同優化。我們把它稱作 Day-0 Co-Design。在模型還沒開始訓練前,我們就會去想,它應該用一種怎樣深度耦合的設計來提升訓練效率,Infra 和算法人才如何進行緊密耦合的聯合優化。我們圍繞底層基礎設施和算法創新做了大量工作,而每一項改進都會以「復利」的方式體現在智能效率上。

所以我們在只使用 1% 資源的情況下,通過另一種訓練范式,得到了全然不同的結果——在千卡級的規模上訓練出前沿模型。

我們不是說今天就已經做到世界上最好的模型,但這是我們接下來非常重要的戰略目標。而我們今天已經能夠做到的,是在單位算力上產出最高的智能價值。


我們也非常高興看到,越來越多大家喜歡的 AI 應用接入了 Kimi K2 模型,包括 AI coding 產品 Cursor 和 Youware、通用 Agent 產品 Genspark,以及幾乎所有大家熟悉的互聯網大廠。這些公司和產品對 Kimi K2 模型的認可,將會幫助我們進一步提升模型迭代速度。


從預訓練開始定義 Agentic 產品體驗

今年我們除了模型能力大幅升級,也更多地踐行了去年提出的「模型即產品」的理念,把模型和 Agentic 的產品體驗做了垂直整合。


我們主要做了幾件事:

首先,我們從預訓練階段開始定義 Agentic 的產品體驗。在預訓練中加入大量與真實 Agent 場景相關的數據,包括 agent 軌跡,即使用工具和多輪規劃的軌跡數據。同時設置大量內部 Benchmark,用自定義指標衡量數據質量和我們獨特的「產品審美」。所以很多工作從 Day-0 就已經開始了。

第二,在產品上線之后,我們就可以用真實場景下的用戶體驗作為信號,給模型做針對性優化,持續迭代。這樣,模型能力和用戶體驗這兩件事情就能真正關聯在一起。比如模型在上下文里如何自主發揮,而不需要人為定義;模型的多輪規劃和工具調用能力怎么結合起來,提供一個更完整的 Agent 體驗。

第三,我們 dogfood 了自己的模型,把這一部分成本讓利給用戶(編者注:這里指使用自己的 API,沒有中間商賺差價)。我們把這部分資源用在了讓大家能夠充分體驗「深度的」、「長時的」 Agent:通過幾十上百輪的工具調用和搜索,更完整地完成用戶的任務。

接下來我們也準備做更多「長時」的產品規劃,因為在用戶調研中我們發現,大家的需求呈現出一種類「摩爾定律」的趨勢,任務開始越來越復雜,需要花費的時間越來越長。大家逐漸意識到 Agent 的體驗可以做到更多事,所以最極致的形態可能更像是在公司上班工作時,你開完一次周會就能連續工作一整周。而現在的 Agent 還遠未達到這種「長時任務」的能力。

但我們希望 Agent 能夠調用越來越多工具,執行越來越長時的任務,解決更復雜也更有經濟價值的問題。這就是為什么我們推出了 Kimi 的 Agent 模式「OK Computer」,產品名字的靈感來自 Radiohead 的那張經典同名專輯。

產品上線后,我們觀察到用戶對「OK Computer」進行了非常極限的測試。現在線上版本的工具調用最高可以做到 50 步,而我們近期會把它升級到 200–300 步,因為新品模型已經支持更長鏈路的工具調用。我們也看到有用戶上傳非常龐大的 Excel 文件,讓 Agent 處理上百萬行的復雜數據分析;也有人上傳大量文件,希望 Agent 對任務有完整的上下文理解,所以單次可上傳的文件數量也在不斷提升。


現在 OK Computer 已經支持包括圖片生成、音頻生成在內的 20 多種工具,提供的能力不僅僅是寫代碼,還包括設計、產品定義、后續開發,以及把它部署成可用的服務。我們的目標是讓 OK Computer 成為每個人的全棧助理。


歡迎一起探索月之暗面

接下來我們要做的事情有哪些呢?除了原來基于算力和模型參數的 scale,未來還有很多方向可以擴展,比如解決數據墻(data wall)的問題,用合成數據的方法,規模化地方式去生產更高質量和更好分布的數據。

現在 Agent 能調用幾十個工具,未來能不能像人類一樣快速自適應地學習,泛化到幾千種工具?模型的強大 Agent 能力從出現到現在還不到一年,還有非常大的成長空間。

除了這些 scale 的方向,我們也會繼續非常注重模型架構的創新,并堅定押注下一代架構。我們最近發布的 Kimi Linear 只是其中一個例子,接下來會有更多基于底層架構的創新,相信會發揮越來越大的作用。

在今年年會上,我們給 Kimi 拋了一個「靈魂拷問」:AGI/ASI 的到來,可能帶來更加美好的未來,人類與機器人一起探索宇宙,人類文明得到大幅度提升,但也可能威脅人類。

這種情況下,如果你是研究 AGI/ASI 的科學家,你還要繼續開發 AGI/ASI 嗎?


這里分享一下 Kimi 的回答。Kimi 認為 AI 不只是普通工具,而是能徹底改變人類文明的放大器;是人類認知的延伸,是探索未來世界的鑰匙,能夠幫助我們重新定義人類的身份和意義。

它也意識到 AI 存在風險。「從歷史來看,確實有些技術可能失控,需要嚴肅對待。但它不會因此放棄 AGI/ASI。即便風險存在,它仍會選擇繼續,因為放棄就意味著放棄人類文明的潛力。我們不能因為害怕技術風險就停止探索。歷史已經證明,所有技術都伴隨著風險,但人類從來不是因為恐懼而停滯不前。它也認為 AI 是理解自己的鏡子,會繼續開發,因為 AI 代表著文明的可能性,是探索未知最好的工具,讓我們更聰明、更深刻、更有智慧。」

Kimi 的回答給了我們很大的啟發,如果你也認同 Kimi 的想法,歡迎和我們一起探索月之暗面。


在這里希望跟大家分享,我們是一群什么樣的人。現在 AI 技術和產品交互發展都非常快,需要不斷學習新的知識。而 AI 的知識跨度和深度遠超任何個體,所以我們非常看重小樣本下的學習能力、學習速度,以及是否是一個不斷學習、不斷擴展認知與能力的伙伴。在我們看來,這是人類通用智能相比 AI 的優勢,學習效率更高。

今年我們團隊內部幾乎全員「轉碼」,除了算法和工程研發之外,市場、HR、財務等同事也都有自己的 AI 工作流。大家很好地擁抱了 AI 帶來的效率提升、規模化、更穩定的輸出質量以及更好的結果。我們也希望你能對各種 AI 技術和工具保持熱情。

同時,獨立思考的審美也非常重要。就像之前所有大模型訓練都用 Adam 優化器,而我們的研究員發現了 Muon 二階優化器的潛力,從幾百億參數的 Moonlight 系列模型開始做實驗,最終把二階優化器真正用在了萬億級別的模型訓練上。我們希望你有提出原創 idea 的能力,有足夠多的 idea。這些想法未必都好,但我們會用大量實驗來驗證它們。我們希望從研究走向工程規模化,讓真正好的 idea 能夠大規模落地。

這就是我今天想分享的內容,感謝大家的時間。


現場互動問答實錄

Q:模型公司、AI 應用和大模型公司之間如何互相看待?模型廠商如何看待模型能力的邊界?Agent 真正交付的價值是什么?

張予彤:我覺得這是一個非常動態的過程,因為模型能力還在不斷提升。這不同于互聯網產品,因為互聯網出現的那一刻,它的技術能力和呈現形態已經基本定型了,所以大家可以在這個基礎上做非常多產品交互層面的深化、思考和創新。

現在的挑戰在于,模型能力還在快速、動態地變化。應用和產品這一側需要具備一種 forward design(前瞻性設計)的能力,去想象一個還沒有出現、但一定會沿著技術演進路徑出現的能力,然后基于這種演進方向去設計交互和體驗。

如果沒有這種前瞻性設計,可能會出現:模型能力突然躍升。原來產品在設計時更多依賴「分步調用模型」,但當模型本身具備 Agentic 能力之后,很多事情就被直接壓縮進模型本體里。

當然也可能會出現的情況是,產品側革新了體驗,但模型能力可能還跟不上。所以有時我們會看到一些前瞻性的產品交互領先,但實際使用效果又覺得一般。這不是交互做得不好,而是模型能力還沒達到那個預期。

這是一件大家在共同探索的事,需要對模型能力有更好的把握,需要做好 forward design,雙方一起往前走得更快。

Q:Kimi 的核心競爭優勢是什么?在大模型競爭不斷加劇的情況下,如何在技術和市場層面與巨頭大廠形成差異化定位。

張予彤:我覺得最有效的競爭方式就是「不競爭」。不競爭不是躺平,而是要找到自己的敘事,找到自己真正擅長的事情。

對我們來說,第一件最擅長的事是底層技術創新。因為大模型領域還有很多真正需要解決的問題,而這些問題本質上都需要底層技術創新,這正是創業公司最有優勢的地方。

第二件事是底層與上層的聯合優化。大企業內部不可避免存在組織協作的壁壘、信息傳遞不順暢等問題。而我們只有 300 人,算法、工程、產品可以全部坐在一起,很多新想法可以當天提出、當天實驗。快速迭代、垂直整合、端到端優化,是創業團隊天然的強項。

從產品定位來看,Kimi 的用戶可能也注意到我們有很多事情是刻意不做的。生活娛樂方向,我們沒有做;多模態生成,我們也沒有做。我們更專注于大模型層、邏輯層、Agent 層,以及深入研究、PPT、數據分析、網站開發這類偏生產力、偏復雜任務的鏈路。這些任務需要長程規劃、復雜工具調用,且能創造更高的經濟價值。

在這個范圍內,我們希望做到最好,而不是去做更「大而全」的事情。


文|Cindy



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
4月24日俄烏最新:俄軍不戰而降,亞速海岸即將被切斷?

4月24日俄烏最新:俄軍不戰而降,亞速海岸即將被切斷?

西樓飲月
2026-04-24 19:21:02
羨慕!某研究所員工曬出26年前三個月收入

羨慕!某研究所員工曬出26年前三個月收入

微微熱評
2026-04-23 22:11:36
本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

白面書誏
2026-04-22 16:18:08
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
已失聯十余日 48歲中國羽協主席被帶走調查 曾蟬聯奧運會混雙金牌

已失聯十余日 48歲中國羽協主席被帶走調查 曾蟬聯奧運會混雙金牌

我愛英超
2026-04-24 23:18:47
廣東91-93福建,拉科空砍32+16,杜鋒賽后這番話批沒準備好季后賽

廣東91-93福建,拉科空砍32+16,杜鋒賽后這番話批沒準備好季后賽

順靜自然
2026-04-25 01:48:22
高曙光也沒想到,他52歲和富婆生下的兒子,如今成了他的“救贖”

高曙光也沒想到,他52歲和富婆生下的兒子,如今成了他的“救贖”

翰飛觀事
2026-03-10 19:34:31
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
兩男子應聘浦發銀行銷售代表,通過3輪面試,做了497元體檢,工資卡都辦好了,銀行卻以學歷不符為由拒絕入職

兩男子應聘浦發銀行銷售代表,通過3輪面試,做了497元體檢,工資卡都辦好了,銀行卻以學歷不符為由拒絕入職

大象新聞
2026-04-24 16:49:09
扎心!劉曉宇下半場三分4中4爆砍18分最佳一戰斷送北控季后賽希望

扎心!劉曉宇下半場三分4中4爆砍18分最佳一戰斷送北控季后賽希望

狼叔評論
2026-04-24 22:12:27
火湖G3懸念拉滿!里夫斯復出+杜蘭特傷停,天平將徹底傾斜!

火湖G3懸念拉滿!里夫斯復出+杜蘭特傷停,天平將徹底傾斜!

田先生籃球
2026-04-24 10:11:42
郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

娛說瑜悅
2026-04-23 16:04:39
伊朗處決米爾賈法里

伊朗處決米爾賈法里

新京報政事兒
2026-04-22 08:20:10
新聞大家應該都看到了,10萬億大規模化債正式落地。

新聞大家應該都看到了,10萬億大規模化債正式落地。

流蘇晚晴
2026-04-24 19:56:06
4月必辦!2個證件全國發放,人人都有,沒領的抓緊辦

4月必辦!2個證件全國發放,人人都有,沒領的抓緊辦

黑哥講現代史
2026-04-24 21:05:19
1-6脆敗!鄭欽文大崩盤,連輸5局,輸球原因曝光,數據一目了然!

1-6脆敗!鄭欽文大崩盤,連輸5局,輸球原因曝光,數據一目了然!

大秦壁虎白話體育
2026-04-24 17:44:00
一場50分慘敗讓廣東懵了?北京狂勝鎖定第4:11冠王又要首輪游了

一場50分慘敗讓廣東懵了?北京狂勝鎖定第4:11冠王又要首輪游了

籃球快餐車
2026-04-25 01:35:13
老人1500元賣掉自家大狗,小孫女舍不得哭得撕心裂肺,狗販心軟不收了,只要求退回1300元,“那200塊就當補償小姑娘吧”

老人1500元賣掉自家大狗,小孫女舍不得哭得撕心裂肺,狗販心軟不收了,只要求退回1300元,“那200塊就當補償小姑娘吧”

觀威海
2026-04-24 10:56:04
美專家警告美國:若不發動戰爭,與中國搞零和博弈,是一個大錯誤

美專家警告美國:若不發動戰爭,與中國搞零和博弈,是一個大錯誤

清歡百味
2026-04-24 09:55:28
2026-04-25 06:28:49
真格基金 incentive-icons
真格基金
創業,來真格的。
1543文章數 3663關注度
往期回顧 全部

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

家居
旅游
教育
數碼
公開課

家居要聞

自然肌理 溫潤美學

旅游要聞

朔州崇福寺:金代遺構,塞北千年佛殿

教育要聞

高考地理|各種地形圖知識點總結大全

數碼要聞

蘋果繼續拓展賽道!換帥后將進軍新品類?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版