![]()
李楠 | linan@pingwest.com
孫芮 | sunrui @ pingwest.com
“你做的很多產品,是我小學時候很喜歡的。”
“你是說我們是老登么。”
“你覺得外界說騰訊慢了,怎么回事?”
“感覺這應該是我問你的問題。”
能夠和騰訊最高管理群“總辦”成員們談笑風生的年輕人,估計也就一個姚順雨。
在6月5日的騰訊云AI產業應用大會上,騰訊集團高級執行副總裁湯道生,和從OpenAI加入騰訊后便備受關注的首席AI科學家姚順雨做了個對話。
身為騰訊首席AI科學家,姚順雨在加入騰訊后,負責的業務一路擴展,從模型拓展到整個基礎設施,騰訊在模型上和AI產品上的動作也開始打上姚順雨的鮮明烙印。
在對話里他提到騰訊追求模型和產品的共同進步,這在內部其實更多時候是一個信任的問題。而從這場對話的設計來看,騰訊有種通過對外展示來對內喊話的意味:
姚順雨獲得了最高的信任,接下來他就是騰訊AI模型,以及產品與模型配合這事上的唯一話事人(當然,與微信業務有關的一切除外)。
而從對話里罕見透露的一些細節,也可以看出,姚順雨不只是一個科學家的身份,他在如何在公司不同業務之間打交道也有自己的方法,比如他提到,在接手模型訓練,但預訓練徹底重建還沒做好的時候,他先做了一件事,派后訓練最好的團隊去現場駐扎,苦哈哈幫助元寶做好了DeepSeek的適配。“當時團隊也有不理解,但后面這種信任建立是看到了回報的。”
在這場對話里,兩人也談了很多重要話題,以下為一些核心信息和觀察,以及對話全文。
1. “下半場”被濫用了。姚順雨加入騰訊原因:騰訊“有問題”,有真正的AI需要的好問題
姚順雨表示,“AI下半場”這個概念有些被濫用。他認為,過去幾十年AI更重要的是尋找好方法,比如為了圍棋做AlphaGo,為了翻譯做特定模型;但在預訓練和后訓練成熟后,大模型變成了一把“萬能的錘子”,可以解決各種問題。于是,真正稀缺的開始變成“好問題”:模型能力具備通用性之后,企業需要判斷應該把它用在哪里,解決什么問題,產生什么價值。這也是姚順雨加入騰訊一個很重要的原因——“騰訊有很多好的問題,有很多很多產品”。
2. 環境很重要,context更重要。競爭壁壘有時來自于有沒有最原始的輸入
姚順雨強調了環境的重要性,沒有好的環境,Agent就沒有辦法去做各種各樣的事情。如果你沒有一個點外賣的tool,那你就沒有辦法去點外賣。但最重要的是context。無論企業還是個人,越來越重要的事情是context。因為模型越來越擅長把一個非常復雜的輸入變成一個輸出,很多時候你的競爭壁壘就來自于你有沒有那個最原始的輸入。
3. 在AI下半場最重要的目標:在中國建立長期的、基于AGI的組織
姚順雨個人的目標是,在中國建立一個長期的、基于AGI的組織。他提到,今天的AI主要有三個部分:首先是foundation的部分,我們怎么樣去把預訓練和后訓練這些最基礎的東西做得非常solid;第二部分是產品,我們怎么去把這樣的技術真正為人和社會產生價值;第三就是frontier,我們怎么去探索新的研究范式,探索新的機會。最重要的是,要構建一個非常均衡的、像三角形一樣的組織。
4. 騰訊追求模型與產品Co-Design,但姚順雨認為一切的前提依然是模型
談到騰訊內部高頻提到的Co-Design,姚順雨認為,第一前提是模型本身要做得扎實。預訓練是相對product-agnostic的事情,它提供可泛化的foundation,能夠讓各種下游任務持續受益。后訓練方面,最重要的是設立好正確的eval。姚吐槽,國內可能有一個不太好的傾向,就是比較喜歡刷榜。但更應該關心的是,如何實事求是地基于產品、基于真正的應用去構造更加真實的eval。實用性的價值是大于刷榜價值的。
5. 真實產品反饋能發現benchmark看不到的問題
姚順雨也不否認benchmark的價值,但相比之下,真實世界的數據至少有三類價值:第一,發現榜單無法暴露的底線問題;第二,理解真實用戶的prompt distribution,因為現實用戶的問題往往模糊、短促、多輪追問,而benchmark題目通常更精確、更單輪;第三,產品本身還可能啟發新的評測方向,推動尚未被很好定義的能力領域。
6. 以模型之名,騰訊的不同產品終于有了點“互相流通”
姚順雨指出,LLM時代與過去AI的根本差異是泛化性。過去做翻譯模型,只需要翻譯數據;做圍棋程序,只需要圍棋數據。但今天即便只做Coding Agent,也需要聊天、搜索、指令遵循、推理等多種能力。因此,擁有多個產品場景的公司會具備體系化優勢。例如,元寶中的聊天和搜索能力,可以遷移到ima或WorkBuddy等產品中,不同產品貢獻不同數據,又能相互擴散,形成一個像網絡一樣的體系。
此前,騰訊的打法被外界形容為“賽馬”。不同業務做相同方向的產品,彼此競爭,很少有形成合力的感覺,現在似乎以AI之名開始有所改變。
7. Hy3的核心變化,是重建基礎設施、重做數據,并依賴大量taste-driven的決策
對于Hy3 Preview,姚順雨說“大模型沒有什么秘密”:要把infrastructure做好,把數據做好,算法部分反而相對簡單。他提到,混元3主要做了幾方面改變:一是重建了預訓練和強化學習基礎設施;二是對數據做了很大改變,包括定義更真實的問題、豐富data taxonomy、提高數據質量;三是許多關鍵決策沒有清晰公式,需要在招人、模型節奏、資源取舍中不斷做trade-off,本質上是一個很taste-driven的過程。
8. 元寶與混元的合作,最難的部分不是技術,而是信任
姚順雨透露,元寶早期階段,混元曾派出很強的算法骨干,幫助元寶先把DeepSeek的后訓練做好。彼時混元自己的預訓練模型還沒有ready,不少算法同學一開始不理解。但姚順雨認為,維護元寶這樣的產品和DAU,對后續做模型和長期合作都很重要。現在回頭看,這個動作讓產品團隊意識到模型團隊真正站在產品角度思考,也為后續Hy3 Preview在元寶上線打下了信任基礎。
9. Agent與Coding Agent已成為模型公司的基礎能力
姚順雨認為,今天Agent,尤其Coding Agent,有點像預訓練一樣,是每家模型公司都不得不做的基礎能力。Coding Agent之所以本質,是因為當模型能控制file system、擁有container時,它就接近一個complete system。但他也強調,做好Coding Agent需要遠遠超過coding數據本身,還需要聊天、搜索、推理等綜合能力。騰訊的做法會更強調體系全面化、線上回流,以及對新范式的探索。
10. 回應“騰訊AI慢了”:下半場剛剛開始,AI會是長期且多元的游戲
對于外界“騰訊慢了”的討論,姚順雨給出兩個判斷:第一,AI是長期游戲,而不是短期游戲;第二,AI會變得更多元,而不是沿著單一主線前進。他認為,ChatGPT和Claude Code不會是唯一的super app,否則世界會非常灰暗。今天更像PC剛出現的早期階段,還有大量機會沒有展開。Coding Agent、生產力、多模態、具身智能等方向都剛剛開始,過去走過彎路并不奇怪,關鍵在于能不能誠實面對反饋、持續改變,并保持耐心。
以下為對話實錄,經不違原意的編輯處理。
![]()
湯道生:歡迎順雨。
姚順雨:大家好,我平時都在海淀區,現在很少來朝陽區。
湯道生:我們就直奔主題,直接交流吧。今天我們兩個的對話可能是一個比較新的形態,如果有什么出乎意料的,我想也是給大家一個驚喜。順雨你加入騰訊之前,我記得當時我還問過你一些問題,你為什么會選擇來到騰訊?你認為 AI 的下半場最重要的是什么?
姚順雨:對,我想首先解釋一下什么叫做“下半場”,因為我最近感覺這個詞有點被濫用了。
這個概念其實是我去年的一個博客里面提出來的。在去年之前,AI 已經發展了幾十年,但是更加重要的是怎么去解決問題,去尋找好的方法。但是最近我覺得很明顯的是方法論已經變得非常成熟,尋找問題變得非常困難。
我舉個例子,比如說過去我們做下圍棋,我們會發明像 AlphaGo 這樣的方法。但這種方法它可能只適合下圍棋,或者像這種棋類。你會為了翻譯做一個特別的模型,感覺它可能只能做翻譯,不能做其他事情。但是有了預訓練和后訓練之后,我們發現現在有了一個萬能的錘子,它可以去砸任何釘子。它是一個通用的方法論,可以解決各種各樣的問題。那么反而更困難的是怎么去尋找好的問題去解決。
所以其實我覺得加入騰訊很重要的一點就是說,這里有很多好的問題,有很多很多產品。我覺得這一點會在接下來變得越來越重要。其實好的產品能夠解決第一個問題是我們做了這樣的好的預訓練和后訓練之后,我們到底要把它應用在什么樣的場景,就是它的價值。
第二,環境是比較重要的。如果沒有好的環境,那 Agent 就沒有辦法去做各種各樣的事情。
比如說,如果你沒有一個點外賣的平臺,那你就沒辦法去點外賣,很多事情你做不到。但是我覺得可能最重要的是 Context。其實無論是企業還是個人,就像我上次說的那樣,非常重要的是進程 Context。因為模型越來越擅長把一個非常復雜的輸入變成一個輸出。
那很多時候你的競爭壁壘就來自于你有沒有那個最原始的輸入,你知不知道這個人他在干什么,你知不知道這個企業的各種各樣的信息。那這一點的話,我覺得騰訊有非常強的優勢。
但我覺得最重要的原因是文化。我還記得我第一次跟你聊天的時候,包括和很多其他同伴的老板聊天的時候,我第一感覺就是大家都非常的誠實。就是哪里做得好,哪里做得不好,都非常直白,不會去掩蓋。我知道我這里做得好,我知道我這里不知道,我知道這里應該怎么做,我不知道哪里應該怎么做。我覺得這種坦誠是我的第一印象。
第二點是,我覺得騰訊總體是一個基于 Trust 而不是基于 Metric 去運轉的公司。我覺得這一點對于做 AI 是非常重要的。包括我們的文化其實有非常 Low Ego,非常相對的這一面。這些文化都是可能對于長期來做一個內在的組織是非常重要的,包括我們對長期主義的這種堅持。
所以 AI 下半場最重要的是什么?我個人的目標是,我們應該在中國建立一個長期的基于 AGI 的組織。今天的 AI 其實主要有三個部分:
Foundation 的部分:我們怎么樣去把預訓練和后訓練之中最基礎的東西做得非常扎實。
產品:我們怎么去把這樣的技術真的為人和社會產業加持。
Frontier:我們怎么去探索新的研究范式,探索新的機會。
最重要的是我們要構建一個非常均衡的三角形一樣的基礎。那我覺得對于做 Frontier Exploration 來說最重要的其實就是:
需要充足的資源。
需要正確的做事方式,這其實跟我們剛剛說的文化那一點也是吻合的。那么對于產品來說,我覺得就是有好的產品 Sense,有這種做產品的經驗是至關重要的。
我覺得就是說在中國,我們今天可能所做的探索還不夠多。所以我也希望能把這種 Frontier Exploration 的精神能更多的注入到我們組織中。
湯道生:你提到的跟總辦聊的過程中感受到的真誠或者務實,其實也是經常我跟客戶交流得到的反饋。畢竟 AI 賽道還是一個長跑,有時候認知其實也很重要。那些我們做得好的,那些做得不好的也得認。但關鍵這是一個多維度的競賽。我們看到現在模型有很多的進步,我們做產品其實也是有越來越多的形態,不同的場景有不同的需求。
你剛才提到模型跟產品,產品可以說提供一個環境,里面要給模型提供 Context 上下文。那我想問一個問題,我們平時開會提得比較多的一個詞是 Co-design,怎么把產品跟模型能夠比較緊密的結合起來?尤其今天有這么多豐富的產品,從我們合作非常緊密的像元寶這樣的一個聊天機器人,包括 AI 搜索,企業里面也有部署一些智能客服、智能營銷。另外最近非常火的這個類 Copilot 的像 Copilot 和 Web Copilot 這樣的產品,其實對模型的能力依賴很深。你怎么去思考 Co-design 這個方式?
姚順雨:我覺得有三點。首先,Co-Design 的前提是模型本身要做得很 solid,有很多 foundational work 要做好。預訓練是一個相對 product-agnostic 的事情,它做得非常 solid,就可以提供一個非常強的 foundation。而且預訓練最大的特點是,它是一個可泛化的學習過程,它的進步可以給各種各樣的下游任務持續帶來價值提升。
后訓練的話,我覺得最重要的一點是要設立好正確的 eval。我覺得中國可能有一個不太好的傾向,就是比較喜歡刷榜。但是,如何實事求是地基于產品、基于真正的應用去構造更加真實的 eval,我覺得首先你要有好的產品出口,第二你要意識到,實用性的價值是大于刷榜價值的。
這一點上,我們做了大量工作,就是跟各種各樣的產品進行了深度的 Co-Design。我覺得 Co-Design 很關鍵的一點是要產生相互的信任,這一點我們也做了大量工作去取得互信。怎么把產品的數據用好,怎么把這種回流用好,怎么把 eval 做好,這里有很多細節,我就不贅述了。
第三點我想說的是,我覺得 LLM 時代和過去的 AI 最本質的區別就是泛化性。在 LLM 之前,比如你做一個翻譯產品,只要把翻譯的數據做得特別好就行;你做一個圍棋程序,只要把圍棋的數據做得特別好就行。但是今天,即使你只想做一個 Coding Agent,你會發現需要的也不僅僅是 coding 數據,你需要非常好的聊天能力,非常強的搜索能力,非常強的指令遵循能力,非常強的推理能力。它其實是一個非常復雜的 technology,我覺得你需要對這件事情有 taste。
這個事情的一個推論是,有很多產品的體系化布局,其實會有一個比較大的優勢。比如說,我們和元寶的 Co-Design,可以使模型產生很強的聊天和搜索能力。但這樣的能力又可以被遷移到 ima、WorkBuddy 等其他產品。所以這些產品能夠提供不同的數據,而這些數據之間又可以相互擴散、相互遷移,形成一個像網絡一樣的體系。我覺得這一點的價值會越來越重要。
湯道生:外部刷榜其實也是屬于 eval 的一種。我們內部做 eval,和外部這些榜有什么區別?
姚順雨:我覺得首先這些 benchmark 還是有它的價值,不是說它完全沒有價值,只是現在這些榜非常容易 saturate。基于真實世界的數據有幾個幫助。首先,你能發現模型很多底線問題。實際上,我們想要發一個 preview 模型,最重要的目的之一,就是希望能獲得真實世界的反饋,修復各種榜單中沒法發現的底線問題。我覺得這一點會在正式版上有非常大的改進。
第二點是,你對真實的 prompt distribution 會有一個更深的了解。比如 benchmark 上面的題目可能都是非常精確的,有非常長的 concrete description,而且一般來說是一個單輪問題。但是在現實場景中,大家問的問題可能都是比較模糊的,可能就一兩句話,然后他會不停追問。這些 setup 上的 difference,就可以啟發我們怎么去更好地做這樣的訓練。
第三,我覺得我們甚至可以在這些產品上獲得一些靈感,去推進現在還沒有的榜單,或者還沒有被很好定義的領域。所以我覺得產品和模型的互相成就,是越來越重要的一個 AI 話題。
湯道生:我記得我們早期做元寶的時候,還碰到過多輪遵循的問題。用戶在產品里迭代 prompt 的方式,和 benchmark 也有一些差異。真正在產品里面,大家使用所需要的能力,確實跟 benchmark 有蠻大的差異。
姚順雨:你問了我這么多問題,我也問一點你的。其實我記得第一次跟你聊的時候,你給我講了很多過去的經歷,從 QQ 空間、QQ 秀的時代一路到現在。跟你聊天很有意思,因為你做過各種各樣的產品,To C 的也有,To B 的也有,遠古時代的也有,最近 AI 時代的產品也有。
所以我比較好奇,你覺得你做產品的第一性原理是什么?哪些經驗或者價值是不變的?哪些東西變了?
![]()
湯道生:我覺得最終做產品還是奔著用戶到底有什么需求,我怎么去解決他的痛點,怎么給用戶或者客戶創造價值。在不同的時代,甚至不同的行業,做一個產品還是需要能夠給用戶帶來價值,他才會買單,才會使用。
所以我倒覺得,從 PC 互聯網時代,我們做空間、做各種各樣的內容產品,到產業互聯網做云,其實我們也要花很多時間精力去聽客戶的聲音,嘗試幫助他們解決問題。底層邏輯沒有那么大的變化。但是確實,在 PC 互聯網、移動互聯網時代做產品,跟今天在 AI 時代做產品,還是有蠻多不一樣的地方。
首先從范式的角度來看,在 AI 時代以前,我們做產品很多時候想的是通過功能來滿足用戶的需求。
你作為一個產品提供方、服務提供方,要想清楚我提供怎樣的能力,讓用戶可能通過界面、通過某些菜單去選擇。這有點像預制菜,用戶只能在里面點一樣。
但是在 AI 時代做產品,它這種開放式的服務形態會帶來很不一樣的要求和挑戰。
用戶通過簡單的交互方式,可能是自然語言,可能是語音。作為產品方,你也不知道用戶會問什么,所以要充分利用模型能力去理解用戶的需求。然后,通過今天大模型的推理能力、調用工具的能力,產品給模型提供各種各樣可以使用的工具,來應對這種開放式的需求。這個是我覺得跟過去做產品很不一樣的地方。
甚至也包括你剛才提到的 eval。以前做產品,我們有很清晰的 specification,有很清晰的產品細節和功能描述。怎么做設計,怎么做研發,怎么做測試,瀑布式流程也比較清晰。但在做 AI 產品時,我發現最大的變化是整個流程可能都要重新設計。
尤其今年,大部分代碼都由 AI 生成。我們的工程師可能會花更多時間去做設計、做架構設計,把寫代碼的工作交給 AI,然后定期去指導一下、修正一下。測試也要左移,更前置地想清楚,針對各種案例、環境,以及我們對于開放式答案的一些要求,甚至 alignment,怎么對齊用戶所需要的風格。
所以我感覺,今天 AI 時代做產品,對能力的要求更全面,也更難了。那我問你一下,Hy3preview,大家都在說這是你在騰訊的首秀。具體 Hy3preview 做了什么改變?你能給大家介紹一下嗎?
姚順雨:其實我覺得沒有什么秘密。今天的大模型,從某種程度來說,是一個比較 trivial 的事情,就是我們應該把 infrastructure 做好,應該把數據做好,算法的部分反而是比較簡單的。
主要有幾個點。第一,我們把 infrastructure 進行了重建,無論是預訓練還是強化學習。
第二,我們把數據和以往相比做了很多大的改變,如何定義更真實的問題,如何豐富 data taxonomy,如何提高數據質量,這是一個永無止境的追求。
第三,有很多很重要的決策,包括怎么招人,怎么設立模型的節奏,每天有很多 decision,需要考慮很多 trade-off。我覺得這可能沒有一個很清晰的公式,它是一個很 taste-driven 的事情。所以我其實也挺好奇,想問你一個問題。因為你剛剛跟我討論 Co-Design 這個概念,我也很好奇,你對 Co-Design 這件事情是怎么想的?你覺得哪些事情應該是模型做,哪些事情應該是產品做?
湯道生:我覺得 Co-Design 在不同階段,過去這兩年,其實一直在變化。這個變化某種程度上是隨著模型能力的升級而變化。當然,整個行業市場、用戶需求在變化的過程中,也會帶來模型和產品兩邊需要更好地去滿足。
給我一個比較深的感受是怎么去對齊。因為我們一起做產品、做 alignment 對齊的時候,會有很多不同角色。產品可能要針對某個方向去解決一些問題,模型到底怎么做才能滿足這個需求?同時又要回到模型需要數據,數據應該怎么標注,到什么顆粒度,什么是好的標注,什么是不好的標注。因為有些地方要獎勵,有些地方要懲罰。
然后還有 eval,還有評測。因為如果產品認為好的產品體驗,評測不認同,大家做出來的產品就會不一致。所以 Co-Design 給我的感覺,更多是在項目組里面,不同角色都參與到產品設計中,定下產品的目標方向。怎么讓多個角色能夠對于一些開放式問題有比較好的對齊?如果沒有做到這樣的對齊,你會發現產品行為會不可預測,甚至有時候會有一些隨機性,因為模型在訓練過程中可能也被混淆了。這是我這兩年和產品、模型團隊做 Co-Design 比較深的感受。
姚順雨:就像剛剛說的,我覺得首先最難的一點就是要建立 trust,并且我覺得同理心很重要。
因為說到底,做模型的目標和產品的目標有很多 align 的部分,也有很多不 align 的部分。模型的人他會希望我這些能力越強越好,但產品的人他可能希望用戶的需求滿足得越好。所以天然有很多不 align 的部分。
我覺得很重要的一點就是要換位思考的能力。其實你剛剛問我,我們是怎么一步一步 Code Design 元寶的。如果你還記得的話,有一個很重要的細節是,我們當時其實派了后訓練最強的骨干力量去幫助元寶,先把 DeepSeek 的后訓練先做好。因為在那個時候,我們自己的預訓練還沒有 ready。
但是我們知道,維護這樣的產品以及它的 DAU 會對于我們接下來做模型也非常非常重要,而且會對于長期的合作非常重要。所以當時其實很多同學也不理解,然后我需要去很努力地解釋。但我覺得現在看起來,就是這些努力都是 pay off,對吧?我覺得這樣的一個動作,就是讓產品和模型的同學意識到,模型的同學是真的在為產品著想。這個對于我們之后的合作,包括混元在元寶上成功的上線,起到了非常重要的作用。
當然有很多技術的部分可以探討,但我覺得可能最難的部分其實反而是怎么樣去建立信任,怎么樣換位思考。
湯道生:對,非常認同。那我換一個話題,你是 React 架構的提出者,博士研究也是圍繞著語言智能體展開的。那你幾年前的一些觀點到今天兌現了嗎?比如有哪些?
姚順雨:對,那天我還挺感慨的。因為我重新讀了自己的博士論文,感覺又回到了一個很遠古的時代。就是我的博士論文的 title 叫做 《Language Agent: from Next Token Prediction to Digital Automation》(語言智能體:從預測下一個Token到數字自動化)。那是2019 年,七年前,那是 GPT-2 的時候,它當時只能做 Next Token Prediction,而且它產生的可能一段話還不太連續,或者還有很多毛刺。所以當時人們是很難想象到,它會有一天成為一個改變世界的力量。
當時我覺得可能大家做的研究,稍微有想象力的一些,他會做一些研究。比如說中國的首都市,這樣的話,如果你做 Next Token Prediction,它會回答北京。那 somehow 它是一個有 knowledge 的事情。能做到這點,大家其實當時就非常開心了,覺得這個技術很有意思。
當時我的想象力可能比較狂野吧。我覺得 GPT 是一個非常優美的東西,吐下一個 token 是一個非常極簡且非常通用的事情。我覺得它有一天潛力不僅僅是在于吐下一個 token,而是在于把這個世界上所有的事情全部 automate。我當時想的可能還不夠大,我想的是 digital automation,但是現在看起來也有可能是 digital and physical automation。
我博士期間主要做兩部分:如何建立一個 Agent 的方法論和怎么去定義 Digital Automation 的任務
第一,如何建立一個 Agent 的方法論。如何把一個 Next Token Prediction 的機器變成一個 Agent,變成一個自動化的機器。那其實就像你說的,最重要的一篇工作可能是 React。
我還記得就是 22 年 7 月份的時候,某一天晚上,我當我把第一次把我記得當時是 Palm 2 的 API 和我當時自己手寫的一個 Wikipedia 的 API 連在一起,然后它第一次可以基于這個網頁回答問題,并且多輪的交互的時候,我當時感覺就像微弱的電燈絲突然亮了的感覺一樣。據我所知,可能這是第一次人類把 LLM 和真正的互聯網連在一起,并且去做這種多輪的交互。
我當時的感覺這個可能在 5 年或者 10 年會改變這個世界。但是可能比我想象中還要更快。包括我記得當時我們第一次提出 Sweep 的 idea 在 brainstorm 的時候,如果這個事情能做到,那很顯然它會帶來巨大的價值。當然可能是幾百億上千億,但現在可能是數萬億,數十萬億,可能我想的還是太小了。
第二,怎么去定義 Digital Automation 的任務。比如說 WebShop 是第一個基于互聯網的 Web Agent 的 task。然后包括 InterCode 和 Sweep Engine 是最早的 Coding Agent 這樣的任務。現在看起來 Agent 的基礎最重要的兩個部分,確實是 Web 的 Agent 和 Coding 的 Agent。
那天我還在群里跟大家聊天,我說我看我那個博士論文的結尾,就是我在 24 年的時候寫我的 future work:
Train models for agent
Safety and robust deployment
Scientific discovery
怎么樣去 help human
我很感慨,我說我現在很幸運,我現在在做我當時列的 future work。Prediction 太厲害了,都一看到這個整個行業針對這些方向在推動。想的還是不夠大。我覺得當時我當時已經覺得自己想的夠大了,但可能還是不夠大。我覺得技術的發展往往超乎我們的預期。
湯道生:那我再深一點,智能體今天大家都說需要消耗很多的 token。這對于混元做下一代的模型的研發,你覺得你的側重有哪些地方是比較重要的?
姚順雨:我覺得 Code Agent 非常本質,有很多原因,其中有一個很重要的原因,是說它是一個有點像圖靈完備的這樣一個事情。就是當你有能力去控制自己的 File System,當你有一個 Container 的時候,其實你是一個 Complete 的這樣的一個 System。
今天我覺得 Agent 毫無疑問是每一家模型所發力的重點。我覺得我們做的方法可能會有幾個區別:
即使可能今天 Code Agent 也是最重要的事情,但是我們還是會強調體系的全面化。我始終認為,真的要把 Code Agent 做好,其實需要的遠遠不止 Code Agent 的數據。你也需要,像我剛剛說的,聊天、Instruct、Following、推理,各種各樣不同的東西。因為大模型最重要的點是泛化性。
產品的作用越來越重要。如何利用好線上的回流,我覺得是一個每一個模型廠商都在應對和思考的問題。這里我覺得我們剛剛積累了很多 Code Design 的這些經驗會變得非常重要。
還需要更多想象力。無論是技術的演進,還是產品的演進,還是甚至下一個范式的演進,我覺得我們還是需要做一些探索性的,甚至不確定性的工作。
湯道生:從產品側來看,大家越來越多有 token 焦慮的聲音,token 成本持續爆發式增長。我也聽到很多客戶,甚至用戶,包括身邊同事,也在緊盯積分消耗或者 token 消耗。怎么可以讓我們的模型在解決某個問題、完成某一個任務時,token 效率最高?
姚順雨:現在中國大家討論性價比,可能更多討論的是模型架構。但它其實是一個很復雜的體系。最重要的事情首先是 performance。很多人跟我說,用一個更強的模型,有時候比用一個更弱的模型最后更省錢,因為你更快地把這個事情做對了,也省了人的精力。所以最重要的事情是 performance。如果你的 performance 好,其實它就是性價比最關鍵的事情。
尤其今年,很多簡單任務的魯棒性會變得更加重要。如何一次把很多相對簡單的任務做對,這可能是性價比更關鍵的部分,而不僅僅是模型架構。第二部分是成本。成本本身也是性價比的一部分。我覺得第一是“性”,如果性能不好,性價比就很難成立。第二是“價”,也就是成本。成本上,中國其實是領先于世界的,我們做了大量工作去優化成本。
成本和體驗里,可能最重要的事情是,怎么用一個更小的模型,把更高價值的任務做好。在這個基礎上,當然架構創新、長文管理、腳手架都有很多需要做的事情。但我個人看法是,如果我們能做一個相對較小的模型,同時又能夠比肩大模型的性能,而且在大部分任務上做到很強的 robustness,這可能比在很多非常長程的、fancy 的 task 上實現一兩個點的提升,在今天的中國更有價值。
其實我也挺好奇,Dawson,你是什么時候意識到 Agent 是一個新的產品機會的?你現在的認知是什么?你覺得現在我們離一個好用的 Agent,bottleneck 在哪里?
湯道生:我們做的 Agent 針對不同場景,其實有不同的產品形態。在 Agent 的設計上,很大程度是在盡量發揮好模型的能力。當然,模型在迭代,它能力越強,可能 Agent 要做的工作也越來越少。
我看我們好幾個產品,在過去這段時間,其實隨著模型能力加強,可以把產品、把 Agent 做得更簡化,更多是給模型提供不同工具,創造更多 skills,讓模型能夠更高效地完成任務。也給模型提供更多我們叫“記憶”的東西,比如用戶過去使用的一些習慣,我們所能提取出來的用戶 preference 信息,作為上下文 feed 過去。
在 coding 環境里,有相關的 context 給到模型。在 WorkBuddy 里面,辦公協作、做 PPT 時,大家關注的內容,或者該給到模型的 context,也會不一樣。所以我們做不同 Agent 時,我覺得更重要的還是了解那個場景下,什么內容、什么信息是重要的,是比較 relevant 的,能夠跟模型配合好,讓模型有它需要的信息,同時也發揮它的能力。
姚順雨:最近我們確實推出了一些像 WorkBuddy 這樣口碑很不錯的產品,背后我觀察到很多小團隊在快速迭代產品。我其實挺好奇,相對于傳統產品研發,你覺得在這種新的 Agent 時代,研發和組織管理上,產品團隊發生了什么變化?你的思考是什么?
湯道生:我前一陣子在幫 WorkBuddy 做一個組織發文,我看了一下他們非常扁平化的組織,和我們過去其他產品的組織架構有很大的差異。更多是小團隊,三個人、五個人,可能圍繞某一個領域去攻堅,而且里面有很多實驗。
所以組織還要支持好這種 AI 用法去做實驗,讓不同的小分隊可以去探索,然后再驗證。因為實驗大部分可能拿不到正向反饋,我們也要包容團隊去試錯,通過大量實驗提煉出對用戶留存、對我們想要的結果有正向幫助的東西。
這是我覺得今天做 Agent、做 AI 產品,原生 AI 產品的組織形態要能夠比較好支撐的地方。另外,原來很多工程師有大量時間花在寫代碼上,但今天毫無疑問,這些工作可以交給 AI 了。所以我們會看到更多角色的融合。可能大家都是產品經理,都要透徹了解用戶需求,并且設計出我們想要的產品形態。
每一個工程師可能更像一個有想法的 leader,驅動多個 Coding Agent,針對我們想要的產品需求去做研發開發。同時也像我剛才說的,要把評測、測試更前置,也要用好 AI 的能力,把質量保證的工作、alignment 對齊的工作做到前面來。
那我也想再問一個大家討論比較多的問題。很多自媒體都會提到,騰訊慢了,在 AI 上沒有及時抓住一些機會。你覺得我們真的慢了嗎?到底下半場是什么?你能再多說一下嗎?
姚順雨:感覺這應該是我問你的問題。我覺得今天有兩個重要判斷。第一個是,我們認為 AI 是一個短期游戲,還是一個長期游戲?因為在硅谷,大家彌漫著很多情緒,說兩年后所有人都要失業了,AI 就要取代所有人的工作,我們應該趕快賺兩年錢,然后退休。那這是一個判斷。
![]()
很顯然,我們的判斷是,這是一個長期游戲。AI 才剛剛開始,從某種程度上說,下半場才剛剛開始。我不認為 ChatGPT 和 Claude Code 會是唯一的 super app。我覺得那會是一個非常灰暗的世界,肯定會有源源不斷的新機會誕生。今天可能就像七十年代 PC 剛剛產生的時候,還有很多很多事情需要做。
第二個判斷是,它會是一個更線性的游戲,還是一個更多元的游戲?過去幾年,大家看到的是 pre-training,然后 post-training、RL,然后 Agent、Codex、Coding Agent,似乎有一條非常清晰的主線。坦白說,所有人都在 copy,所有人都在做一樣的事情,這也是一個非常灰暗的事情。
那未來到底會變得更單一,還是更多元?我的個人看法是,會變得更多元。毫無疑問,Coding Agent、生產力會變得更加重要,而且它才剛剛開始。這個世界還有 trillions of dollars 的 market 沒有被填滿。但是多模態、具身智能,很多很多新的事情都在發生,或者剛剛發生。
所以從這個角度來說,如果我們認為下半場才剛剛開始,那可能確實不晚。當然,過去模型和產品都做了很多探索,也走了很多彎路,我覺得這是正常的。你沒有做過一件事情,第一次做肯定會有曲折。但是更重要的是,能不能誠實面對自己,能不能 be real,能不能看到 feedback 然后去改變,能不能保持耐心。我覺得這些事情可能是在下半場非常重要的事情。
湯道生:大家對騰訊經常喜歡挑某一個點來批評,當然我們也歡迎大家給我們提更高的要求。我們還是一個非常多業態、很多產品在很多賽道,同時也有很多團隊在推進不同的項目和事情。
毫無疑問,在這樣一個復雜的組織里面,有些地方可能我們做得快了,有些地方做得慢了,有些地方可能會做失敗,在探索。我覺得這些提醒都非常好,確實有些地方我們是可以做得更好。
但就像你說的,這是一個長跑,這是一個馬拉松。騰訊還是有非常豐富的場景,就像你一開始提到選擇騰訊,因為 AI 需要 context,模型需要很多的上下文。騰訊在過去多年的不同產品在不同賽道的這些積累,其實都是可以針對每一個場景去為模型提供有用的信息,提供這些 context 來發揮價值。
在這樣的一個長跑中,我相信模型會不斷迭代,用戶的需求也在不斷變化,也會有新的產品形態出現。比如今年年初我們對龍蝦這一波熱潮反應比較快,同時也有像 Work Buddy 這樣的智能體產品,其實也是幾年前已經開始做的產品。原來做 Coding 的 Code Buddy,慢慢看到非程序員也有很強的需求。今天也聽到很多客戶對于我們的不同產品怎么去組合起來有非常高的期待,所以我們正在長跑中。也請各位多給我們提醒,給我們建議,也多用我們的產品來給我們正向的 constructive 的反饋。
感謝順雨今天的分享。
![]()
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.