![]()
One More Thing
文章來源|量子位(ID:QbitAI)
離職阿里后,前千問大模型負(fù)責(zé)人林俊旸的最新動(dòng)態(tài)曝光了。
他的下一步,是創(chuàng)業(yè)。
具體公司還不知道名字,但據(jù)說種子輪目標(biāo)估值已經(jīng)高達(dá)20億美元(約135億元人民幣)。
根據(jù)The Information消息,兩家知名投資機(jī)構(gòu)被曝就投資事宜與該實(shí)驗(yàn)室進(jìn)行深入洽談。
![]()
對(duì)于一家還沒發(fā)產(chǎn)品的中國AI初創(chuàng)公司而言,這一估值,幾乎沒有先例。但相比林俊旸之前同臺(tái)競(jìng)速的硅谷同行,不算貴。
Qwen負(fù)責(zé)人,還是太有含金量了。
![]()
![]()
Qwen前負(fù)責(zé)人創(chuàng)業(yè)
林俊旸2019年加入阿里,早期研究方向集中在搜索、推薦場(chǎng)景下的自然語言處理和多模態(tài)建模。
2020年起,他開始投身大規(guī)模預(yù)訓(xùn)練模型研究與部署。
此后,他深度參與M6等超大規(guī)模預(yù)訓(xùn)練模型工作。M6是阿里早期最有代表性的多模態(tài)大模型項(xiàng)目之一。
2022年以后,他轉(zhuǎn)向通用大模型方向。
Qwen項(xiàng)目成立后,林俊旸成為技術(shù)負(fù)責(zé)人,帶隊(duì)打造Qwen系列大語言與多模態(tài)模型,并主導(dǎo)開源工作。
Qwen后來變成了阿里AI對(duì)外最清晰的技術(shù)名片之一。
它有不同尺寸的模型,有面向開發(fā)者的開源路線,也有持續(xù)更新的多模態(tài)、代碼和輕量化模型版本。對(duì)開發(fā)者來說,Qwen是真正能下載、能微調(diào)、能部署、能二次開發(fā)的實(shí)用模型。
這也是他創(chuàng)業(yè)備受關(guān)注的底層原因。
那么,林俊旸下一步到底想做什么?
在有具體消息之前,還可以從他離職后發(fā)的一篇長文尋找線索。
![]()
首篇長文給出線索:Agentic Thinking
林俊旸離職后的首篇長文,標(biāo)題為《From “Reasoning” Thinking to “Agentic” Thinking》。
這是他對(duì)過去一年模型競(jìng)爭(zhēng)的復(fù)盤,也像是下一階段創(chuàng)業(yè)方向的技術(shù)宣言。
![]()
他的判斷可以壓縮成一句話:
上一階段的AI競(jìng)爭(zhēng),是讓模型更會(huì)思考;下一階段的競(jìng)爭(zhēng),是讓模型為了行動(dòng)而思考。
思考模型花更多推理算力,強(qiáng)化學(xué)習(xí)得到更穩(wěn)定的反饋,數(shù)學(xué)、代碼、邏輯等可驗(yàn)證任務(wù)成為核心訓(xùn)練場(chǎng)景。
但林俊旸認(rèn)為,問題已經(jīng)開始變了。
尤其是在代碼和智能體工作流里,真正重要的是代碼庫導(dǎo)航、計(jì)劃拆解、錯(cuò)誤恢復(fù)、工具編排,以及長時(shí)間執(zhí)行任務(wù)的質(zhì)量。
這就引出全文核心概念:Agentic Thinking。
林俊旸把它定義為一種“為了行動(dòng)而思考”的能力。它不只是讓模型在回答前想更久,而是讓模型在環(huán)境里行動(dòng)、觀察反饋、修正計(jì)劃,再繼續(xù)推進(jìn)。
推理浪潮的第一階段確立了一件重要的事:
當(dāng)反饋信號(hào)可靠且基礎(chǔ)設(shè)施能夠支撐時(shí),語言模型之上的RL可以產(chǎn)出質(zhì)的飛躍式的認(rèn)知能力。
更深層的轉(zhuǎn)變是從推理式思考到智能體式思考:
從想得更久,到為了行動(dòng)而想。訓(xùn)練的核心對(duì)象已經(jīng)改變了——它變成了模型+環(huán)境的系統(tǒng),或者更具體地說,是智能體和圍繞它的編排框架。
這改變了哪些研究要素最重要:
模型架構(gòu)和訓(xùn)練數(shù)據(jù)當(dāng)然仍然重要,但環(huán)境設(shè)計(jì)、軌跡采樣基礎(chǔ)設(shè)施、評(píng)估器魯棒性、以及多智能體之間的協(xié)調(diào)接口同樣關(guān)鍵。
這也改變了“好的思考”的定義:
最有用的軌跡,是能在真實(shí)世界約束下維持有效行動(dòng)的那個(gè)——而非最長或最醒目的那個(gè)。
這也改變了競(jìng)爭(zhēng)優(yōu)勢(shì)的來源:
在推理時(shí)代,優(yōu)勢(shì)來自更好的RL算法、更強(qiáng)的反饋信號(hào)和更可擴(kuò)展的訓(xùn)練流水線。
在智能體時(shí)代,優(yōu)勢(shì)將來自更好的環(huán)境、更緊密的訓(xùn)練-推理耦合、更強(qiáng)的編排工程,以及在模型的決策與這些決策產(chǎn)生的后果之間實(shí)現(xiàn)閉環(huán)的能力。
![]()
One More Thing
自林俊旸發(fā)長文探討Agentic Thinking后,個(gè)人社交媒體賬號(hào)就沒在發(fā)聲。
不過轉(zhuǎn)發(fā)了一條持續(xù)學(xué)習(xí)基準(zhǔn)測(cè)試的消息。
難道與創(chuàng)業(yè)方向相關(guān)?
![]()
參考鏈接:
[1]https://x.com/jingyanghk/status/2054450088400093359
媒介合作聯(lián)系微信號(hào)|ciweimeijiejun
如需和我們交流可后臺(tái)回復(fù)“進(jìn)群”加社群
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.