![]()
![]()
Feeling AI要補(bǔ)齊的,是世界模型最被低估的一塊拼圖——?jiǎng)討B(tài)交互的模型層能力。
作者|周悅
編輯|王博
《上古卷軸5》發(fā)售已經(jīng)超過十四年,但有一個(gè)細(xì)節(jié)一直卡在Feeling AI創(chuàng)始人戴勃腦海里。
玩家在游戲里已經(jīng)是龍裔、戰(zhàn)友團(tuán)隊(duì)長(zhǎng)、盜賊公會(huì)會(huì)長(zhǎng),走南闖北成就了一番事業(yè),回到雪漫城,城門口的守衛(wèi)還是不認(rèn)識(shí)你。
“按道理你已經(jīng)是世界有名的人了,他的對(duì)話邏輯應(yīng)該要有變化的。”他說。
更讓他出戲的,是戰(zhàn)斗里的NPC:“打多了,能發(fā)現(xiàn)規(guī)律,甚至可以利用規(guī)律,知道它會(huì)在哪個(gè)時(shí)刻過來,然后耍一道帥氣的鐮刀背刺。”
戴勃把這種落差叫做“缺乏活人感”。不久前發(fā)布的MemBrain(記憶)和CodeBrain(規(guī)劃),正是為了解決這個(gè)問題。
但這兩個(gè)項(xiàng)目并非刻意設(shè)計(jì),而是在工程和產(chǎn)品化中催生的結(jié)果。
Feeling AI最初想做的是動(dòng)態(tài)交互世界,用戶和AI共同身處一個(gè)持續(xù)變化的世界,每個(gè)角色有記憶、性格和獨(dú)立的行動(dòng)邏輯。
在最初的嘗試中,大部分開發(fā)者和用戶都不排斥這個(gè)方向,“想法很好”,但彼時(shí)技術(shù)托不住產(chǎn)品效果。NPC能接話,但不能把前情自然帶到下一輪反饋;能生成幾步計(jì)劃,卻無法在變化的世界里連貫行動(dòng)。
戴勃說,核心問題在角色的記憶和規(guī)劃能力上。現(xiàn)有方案不夠用,團(tuán)隊(duì)索性自己動(dòng)手,做出了負(fù)責(zé)記憶的MemBrain和負(fù)責(zé)規(guī)劃的CodeBrain。跑完Benchmark發(fā)現(xiàn)性能高出業(yè)界方案,在全球基準(zhǔn)中都取得領(lǐng)先表現(xiàn)。“團(tuán)隊(duì)一致覺得應(yīng)該開源,因?yàn)榭傆懈嗳藭?huì)碰到類似需求。”
“CodeBrain和MemBrain,就是為了活人感而生的。”戴勃告訴「甲子光年」。其背后更重要的目標(biāo),是為世界模型配上一個(gè)原生的Agentic大腦。
從玩家執(zhí)念,到一頭扎進(jìn)的底層技術(shù),戴勃的履歷足夠支撐這種跨度。2014年他從上海交大ACM班畢業(yè)后進(jìn)入香港中文大學(xué)讀博,開始深耕生成式AI方向的研究,從語言、圖像到動(dòng)態(tài)視頻生成和3DGS,研究成果橫跨多種模態(tài)。
戴勃曾任職于新加坡南洋理工大學(xué)和上海人工智能實(shí)驗(yàn)室(AI Lab),創(chuàng)辦的Feeling AI已完成兩輪超億元融資,是國內(nèi)最早探索世界模型和3D動(dòng)態(tài)交互的團(tuán)隊(duì)之一。
![]()
Feeling AI創(chuàng)始人戴勃,圖片來源:受訪者
近期在接受「甲子光年」獨(dú)家專訪時(shí),戴勃首次完整復(fù)盤了這條隱秘的路線:一個(gè)游戲里的老問題,如何催生產(chǎn)品、開源項(xiàng)目,并最終指向了他們對(duì)世界模型的判斷。
同時(shí),戴勃還透露,Feeling AI即將發(fā)布并開源MemBrain1.5和CodeBrain。前者在多項(xiàng)指標(biāo)超越SOTA,并提供了可直接體驗(yàn)的可視化Demo;后者技術(shù)指標(biāo)領(lǐng)先,且大幅降低使用成本,支持多語言、Monorepo感知和零框架耦合等功能,并將20個(gè)底層LSP操作整合為大模型所需的工具。
1.記憶的“中庸之道”
AI究竟該擁有怎樣的記憶?
戴勃的判斷簡(jiǎn)單而直接:“完全不記得肯定不行,但什么都記得一字不差也很奇怪,人的記憶需要中庸。”
重要的事能保留下來,細(xì)節(jié)會(huì)隨時(shí)間模糊,舊經(jīng)歷會(huì)自然融入新反應(yīng),這才接近真實(shí)的人的狀態(tài),而不是一個(gè)什么都存、隨時(shí)精準(zhǔn)檢索的數(shù)據(jù)庫。
目前,智能體記憶(Agent Memory)的技術(shù)路線尚未收斂,現(xiàn)有的解法都難以呈現(xiàn)這種“中庸”的活人感。
一派偏向圖結(jié)構(gòu),將知識(shí)拆解為實(shí)體、關(guān)系和事件,依靠圖算法檢索和推理。優(yōu)點(diǎn)是結(jié)構(gòu)嚴(yán)密,但很死板;另一派則更接近OpenClaw這樣的純文本(Markdown-first)路線,把記憶寫成語言模型最熟悉的文本格式。雖然親和語言模型,但將海量信息的判斷全權(quán)交由模型發(fā)揮,穩(wěn)定性又無法保證。
為了實(shí)現(xiàn)“活人感”,MemBrain避開了這兩條老路,做了三處底層創(chuàng)新。
第一,打破線性流程。傳統(tǒng)記憶系統(tǒng)的調(diào)用順序是寫死的:檢索、總結(jié)、回答。但人的記憶是隨機(jī)的、跳躍的。“我說著說著突然想到了什么,然后說法又變了”,戴勃解釋說。為了模擬這種動(dòng)態(tài),MemBrain把記憶的抽取、整合、提取交給不同的子智能體(Sub-Agent)各司其職、自主協(xié)調(diào),提升靈活性。
第二,讓語言模型真正參與推理。許多主流方案依賴圖結(jié)構(gòu)存儲(chǔ)知識(shí),但在檢索時(shí),圖算法與大語言模型之間存在著難以逾越的范式差異——前者在圖節(jié)點(diǎn)上做復(fù)雜運(yùn)算,后者則是線性的Next-token(下一個(gè)詞)預(yù)測(cè)。“圖算法在算的時(shí)候,語言模型只能站在旁邊看著,幫不上忙。”為了解決這個(gè)問題,MemBrain改用了與語言模型更親和的組織方式,讓模型直接參與記憶處理,而不是干等圖算法出結(jié)果再接收。
第三,嚴(yán)控時(shí)間戳。“昨天”“上周三”“3月24號(hào)”……在自然語言中,同一個(gè)時(shí)間點(diǎn)有無數(shù)種模糊的表達(dá)。如果不做統(tǒng)一的標(biāo)準(zhǔn)化處理,事件的發(fā)生順序極易陷入混亂,記憶的溯源更是無從談起。MemBrain將時(shí)間戳嚴(yán)格精確到秒,并引入自適應(yīng)實(shí)體樹算法,優(yōu)化實(shí)體、事件與關(guān)系在時(shí)間軸上的組織結(jié)構(gòu)。
這套改法有一個(gè)共同的出發(fā)點(diǎn):不把AI記憶做成一個(gè)更精準(zhǔn)的檢索系統(tǒng),而是讓它更接近人的記憶運(yùn)作方式,有主見、有順序感、能自己判斷什么重要。
今年2月,F(xiàn)eeling AI正式開源了MemBrain 1.0。在LoCoMo和LongMemEval兩項(xiàng)主流測(cè)試基準(zhǔn)上,MemBrain 1.0分別以93.25%和84.6%的準(zhǔn)確率實(shí)現(xiàn)SOTA。而在考察隱性畫像捕捉能力的PersonaMem-v2測(cè)試基準(zhǔn)上,MemBrain 1.0以51.50%的準(zhǔn)確率超越現(xiàn)有方案。
但真正能驗(yàn)證“活人感”的,是那些更逼近人類能力的測(cè)試。
以Hugging Face廣受關(guān)注的Knowme-Bench基準(zhǔn)為例,該評(píng)測(cè)要求模型不能只做基礎(chǔ)的精確記憶抽取,而是必須基于龐雜的記憶內(nèi)容,完成深層分析與復(fù)雜推理。
結(jié)果顯示,Membrain 1.0在Knowme-Bench基準(zhǔn)測(cè)試高階認(rèn)知任務(wù)中表現(xiàn)出了明顯優(yōu)勢(shì)。特別是在難度登頂?shù)腖evel III級(jí)別(涵蓋心身交互與專家級(jí)心理分析的T6、T7 兩個(gè)子任務(wù))中,Membrain 1.0的成績(jī)比現(xiàn)有最高紀(jì)錄提升了300%以上。
「甲子光年」獨(dú)家獲悉,Feeling AI即將發(fā)布并開源MemBrain1.5。“除了各項(xiàng)指標(biāo)超越了之前的SOTA,還做了一些可以讓用戶直接嘗試的Demo和方便開發(fā)者測(cè)試使用的可視化工具。”戴勃介紹。
MemBrain解決“記住什么”,CodeBrain處理“接下去怎么做”。
今年春節(jié)前,CodeBrain-1搭載GPT-5.3-Codex底座模型在衡量Agent真實(shí)工程能力全球權(quán)威基準(zhǔn)Terminal-Bench 2.0榜單上沖到72.9%并躋身全球排行榜前列,成為榜單前10中唯一的中國團(tuán)隊(duì)。
規(guī)劃能力在現(xiàn)有Agent系統(tǒng)里并不罕見,技術(shù)深水區(qū)在于,當(dāng)任務(wù)復(fù)雜度呈指數(shù)級(jí)上升后,執(zhí)行的成功率還能否穩(wěn)得住。“如果規(guī)劃了三五次,成功率只有20%,你很難說這是個(gè)好的CodeBrain。”戴勃強(qiáng)調(diào)。
為此,CodeBrain在架構(gòu)中引入了一層極重的校驗(yàn)?zāi)K(Verification),模型在生成規(guī)劃鏈之后,必須先對(duì)該計(jì)劃的可行性進(jìn)行自我驗(yàn)證與倒推,把復(fù)雜任務(wù)的執(zhí)行成功率拉上來。
戴勃說,“CodeBrain一樣也會(huì)在幾天后開源,除了技術(shù)指標(biāo)的領(lǐng)先,CodeBrain還大幅降低了開發(fā)者和付費(fèi)用戶的使用成本。”預(yù)計(jì)開源的版本中還會(huì)支持多種供開發(fā)者靈活使用的功能,比如多語言支持、Monorepo感知和零框架耦合等,還直接將20個(gè)底層LSP操作整合為大模型實(shí)際需要的工具。
2.缺失的拼圖
但“活人感”不只是記憶和規(guī)劃的問題。
即使NPC記住了你、規(guī)劃出了下一步,如果它的動(dòng)作還像機(jī)器人,轉(zhuǎn)身的角度生硬,出拳的節(jié)奏固定,走路沒有慣性,仍然沒有活人感。記憶和規(guī)劃解決的是“想什么”,動(dòng)作本身才是活人感最直接的載體。
要理解這個(gè)問題,需要先看戴勃對(duì)世界模型的拆解。
在他看來,世界模型不是一個(gè)單一的模型,而是三層結(jié)構(gòu)。最上面是邏輯層,處理記憶和規(guī)劃,解決“我想干什么”——MemBrain和CodeBrain屬于這層。最下面是表現(xiàn)層,負(fù)責(zé)3D環(huán)境、視頻生成、交互界面,把結(jié)果呈現(xiàn)出來。
![]()
Feeling AI動(dòng)力學(xué)世界模型架構(gòu)圖,圖片來源:Feeling AI公眾號(hào)
夾在中間的是動(dòng)態(tài)層,負(fù)責(zé)把“想法”真正變成“行為和表現(xiàn)”。這正是他認(rèn)為整個(gè)行業(yè)最缺的那塊拼圖。
他用“口渴喝水”來解釋三層的關(guān)系:想到要去喝水是邏輯層;伸手拿杯子是動(dòng)態(tài)層;動(dòng)作呈現(xiàn)在屏幕里是表現(xiàn)層。少了中間那層,邏輯和表現(xiàn)之間就是斷的。
業(yè)內(nèi)關(guān)于世界模型的討論已經(jīng)很多,各方側(cè)重點(diǎn)不同。有人專注靜態(tài)的3D環(huán)境表征,以李飛飛的World Labs為代表;有人傾向于在壓縮隱空間內(nèi)做核心狀態(tài)預(yù)測(cè),以楊立昆(Yann LeCun)的AMI團(tuán)隊(duì)為代表。
“但我們覺得,中間還缺一個(gè)東西——?jiǎng)討B(tài)。”戴勃說。
動(dòng)態(tài)層的難點(diǎn)在于,現(xiàn)有的生成模型本質(zhì)上還在做“下一幀預(yù)測(cè)”,把過去若干幀作為輸入,靠概率去猜下一幀。這個(gè)黑盒學(xué)到的是視覺表觀的相關(guān)性,而不是物理因果。一旦拉長(zhǎng)推演時(shí)間或進(jìn)行實(shí)時(shí)交互,誤差便會(huì)積累,出現(xiàn)動(dòng)作漂移、接觸錯(cuò)位等問題,越來越像在模仿運(yùn)動(dòng),而不是真正掌握運(yùn)動(dòng)規(guī)律。
戴勃的解法,是先把圍繞以人為中心的“運(yùn)動(dòng)主體”和與人類運(yùn)動(dòng)息息相關(guān)的“交互客體”找到合適的結(jié)構(gòu)表示,再讓模型去學(xué)它們之間如何相互作用。換句話說,把物理先驗(yàn)作為模型的底層基礎(chǔ),而不只是外部約束。
當(dāng)模型具備了內(nèi)在的物理約束,推理過程就不再是黑盒。“它不是一個(gè)black box,你知道它背后是什么,就不會(huì)擔(dān)心下一個(gè)時(shí)刻動(dòng)態(tài)又不對(duì)了。”據(jù)戴勃透露,在這套世界模型架構(gòu)下,團(tuán)隊(duì)已經(jīng)取得了一些里程碑式的進(jìn)展。
通過這個(gè)全新架構(gòu)的動(dòng)力學(xué)世界模型,在3D原生的結(jié)構(gòu)下通過原創(chuàng)的IKGT算法(Interactable Kinetics Grounded Transformer),實(shí)現(xiàn)對(duì)人類運(yùn)動(dòng)交互的生成與狀態(tài)預(yù)測(cè)。模型首次在CPU上跑出300FPS的響應(yīng)速率,連續(xù)運(yùn)行40分鐘也不會(huì)出現(xiàn)明顯的動(dòng)作漂移,且模型通過實(shí)時(shí)推理達(dá)到了100%的狀態(tài)重置和糾偏,魯棒性極強(qiáng)。
3.四年四輪驗(yàn)證
把物理先驗(yàn)嵌進(jìn)大模型,不能停留在理論層面。在MemBrain和CodeBrain出現(xiàn)前,戴勃和團(tuán)隊(duì)在動(dòng)力學(xué)這條路上已經(jīng)走了四年,且每一輪都在主動(dòng)拉高難度。
2022年,從水和木頭起步。用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)粒子系統(tǒng)的動(dòng)態(tài)時(shí)序交互,取代傳統(tǒng)圖形學(xué)的物理公式求解。結(jié)果顯示,無論將方形木塊換成圓形或者其他形狀,或是改變水量,同一個(gè)神經(jīng)網(wǎng)絡(luò)都能正確預(yù)測(cè),泛化性顯著。
2023年,他們主動(dòng)把難度提高一個(gè)層級(jí),驗(yàn)證多層衣服的可能性。當(dāng)時(shí)公開研究多停留在單層衣物,戴勃覺得這個(gè)難度不夠,直接處理外套內(nèi)搭毛衣的接觸與摩擦。“我們覺得,不管一件還是幾件衣服,應(yīng)該用同一套方法處理。”測(cè)試表明,無論是層數(shù)增加、拓?fù)浣Y(jié)構(gòu)改變,還是人體動(dòng)作切換,模型都保持了穩(wěn)定。
2024年,團(tuán)隊(duì)嘗試了另一種難度維度的跨越,壓縮訓(xùn)練數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)只有一塊四方形布料的視頻,模型能否推演至由同材質(zhì)、任意形狀的衣服,在不同人做不同動(dòng)作時(shí)的動(dòng)態(tài)變化?
結(jié)果是可行的。“從F=ma出發(fā),因?yàn)椴剂虾屯N材質(zhì)的衣服遵循同樣的動(dòng)力學(xué)先驗(yàn),學(xué)會(huì)布料怎么動(dòng),自然就能泛化到更復(fù)雜的情況。”戴勃解釋,動(dòng)力學(xué)先驗(yàn)給了模型基礎(chǔ),它就不需要那么多數(shù)據(jù)了。
2024到2025年間,從仿真系統(tǒng)延伸至真實(shí)自然環(huán)境。團(tuán)隊(duì)從現(xiàn)實(shí)中重建花草樹木,讓模型學(xué)習(xí)它們受力后的動(dòng)態(tài)。“只觀察過它在某種風(fēng)力下的晃動(dòng),但學(xué)到了它的動(dòng)力學(xué)模型。用手撥它,把花壓到很低,松開之后它會(huì)彈,會(huì)自己在那晃——這個(gè)運(yùn)動(dòng)軌跡是合理的。“戴勃形容觀察到的變化。
從流體、固體到柔性物體,從極少數(shù)據(jù)到真實(shí)場(chǎng)景,四輪下來,每輪比上一輪難,每輪都對(duì)了。“一次、兩次、三次、四次驗(yàn)證了這一套技術(shù)路線,就非常信了。”戴勃說。即使在外界看來這條路屬于非共識(shí),團(tuán)隊(duì)也沒有換方向,“非共識(shí)有壓力,但也是機(jī)會(huì)。”
4.通往“綠洲”的現(xiàn)實(shí)路徑
“以終為始,求上得中。”戴勃用這句話解釋Feeling AI的底層邏輯,用工程和產(chǎn)品落地的硬性標(biāo)準(zhǔn),反向倒逼模型能力的進(jìn)化。
這條路不僅催生了MemBrain和CodeBrain,也讓他看清了另一件事,在底層能力沒到位之前,盲目的推進(jìn)產(chǎn)品,精力只會(huì)消耗在無休止的打補(bǔ)丁上。
他打了個(gè)比方:在GPT-2的時(shí)代做應(yīng)用,無論如何修補(bǔ),能力天花板就擺在那里。與其勉強(qiáng)應(yīng)付,不如先把模型推到GPT-3的水平,ChatGPT會(huì)自然生長(zhǎng)出來。
“從產(chǎn)品導(dǎo)向去回答這個(gè)問題,本身就不夠AI Native(AI原生)。”戴勃說這是創(chuàng)業(yè)以來最有價(jià)值的經(jīng)驗(yàn)。
在他看來,算法出身的創(chuàng)業(yè)者總有一種慣性,相信算法是萬能的,“有點(diǎn)唯算法論的意思”。但持續(xù)“求真”和“求證”的過程讓他意識(shí)到,不是所有體驗(yàn)都能靠產(chǎn)品設(shè)計(jì)修補(bǔ),哪層的問題就在哪層解決。
“用戶體驗(yàn)不會(huì)為模型的能力找借口,但會(huì)消耗用戶的熱愛。”Feeling AI的定位由此清晰,一家做世界模型的基模公司。
正如語言模型催生了OpenAI這類基模公司,戴勃相信世界模型在Scaling到一定階段之后,也會(huì)長(zhǎng)出自己的原生應(yīng)用。“但那是技術(shù)到位之后自然會(huì)發(fā)生的事,現(xiàn)在的重心應(yīng)該放在技術(shù)本身。”
2023年,視頻生成最火熱時(shí)他沒有選擇沿著爆火的AnimateDiff繼續(xù)往前走,2024年世界模型還只是個(gè)陌生的概念時(shí),他在講如何構(gòu)建Real-Sim-Real閉環(huán)。
2026年,他認(rèn)為:“現(xiàn)在終于有機(jī)會(huì)可以參與定義世界模型底層能力,這很AI Native。”
戰(zhàn)術(shù)隨之清晰,邏輯層離貼近現(xiàn)有大模型生態(tài),成熟快,率先開源接受驗(yàn)證;動(dòng)力學(xué)世界模型體量大、門檻高,現(xiàn)階段重心在其規(guī)模化(Scaling)上。“我們現(xiàn)在要走的是從Transformer到GPT-3的那段路。”
數(shù)據(jù)是核心瓶頸。物理先驗(yàn)雖然降低了門檻,但Scaling到一定規(guī)模,絕對(duì)數(shù)量依然龐大。
Feeling AI團(tuán)隊(duì)自研從視頻里抽取運(yùn)動(dòng)數(shù)據(jù)的算法,以“合成數(shù)據(jù)保量、真實(shí)數(shù)據(jù)保質(zhì)”。目標(biāo)是2026年下半年推出完成第一階段Scaling的版本,并開放API,從而打通邏輯層、動(dòng)態(tài)層和表現(xiàn)層。
戴勃把當(dāng)前世界模型賽道比作“盲人摸象”,有人摸到鼻子,有人摸到腿,說的都沒錯(cuò),但都是局部。Feeling AI選擇從第一性原理出發(fā),主動(dòng)思考如何構(gòu)建底層基礎(chǔ)設(shè)施:“動(dòng)力學(xué),或者說動(dòng)態(tài)交互能力,一定是最核心的那塊拼圖。”
“如何融合這些局部找到最終答案,是整個(gè)行業(yè)長(zhǎng)期的命題;而我們篤定從這個(gè)方向往里走,是因?yàn)橛X得動(dòng)力學(xué)最重要,也最被低估。”戴勃表示。
當(dāng)談及世界模型與具身智能。戴勃觀察到,世界模型正趨向具身智能,相關(guān)仿真訓(xùn)練和數(shù)據(jù)公司也在尋求合作。但他認(rèn)為,完整的世界模型架構(gòu),更可能先在游戲等互動(dòng)內(nèi)容中完成閉環(huán),“那里會(huì)是數(shù)字世界與真實(shí)世界相連接的第一個(gè)試驗(yàn)場(chǎng)。”
采訪臨近尾聲,當(dāng)被問及這套“人與AI共創(chuàng)、自然演進(jìn)”的愿景是否像電影《頭號(hào)玩家》里的“綠洲”時(shí),戴勃愣了一下,笑了:“這是創(chuàng)業(yè)最初的沖動(dòng),《頭號(hào)玩家》里的‘綠洲’就像是一個(gè)暗號(hào)。沒想到是你先說出來的。”
《上古卷軸5》里NPC那些套話,戴勃顯然記了很久。現(xiàn)在他做的事,是從底層解決“活人感”缺失的老問題。不是多塞幾句擬人臺(tái)詞,而是讓角色真正生活在有記憶、會(huì)演化、互相影響的動(dòng)態(tài)世界里。
從一塊方形的布,到一朵受力回彈的花,再到實(shí)戰(zhàn)催生出來的MemBrain和CodeBrain,這條路他走了四年,還沒走完。
“這是一個(gè)比較長(zhǎng)期的事情,”戴勃說,“但方向是對(duì)的。”
*參考材料:
1."Transformer with implicit edges for particle-based physics simulation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.
2."Towards multi-layered 3d garments animation." Proceedings of the IEEE/CVF international conference on computer vision. 2023.
3."Learning 3D Garment Animation from Trajectories of A Piece of Cloth." Advances in Neural Information Processing Systems 37 (2024): 41803-41825.
4."GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 7841-7850. 2025.
(封面圖來源:AI生成)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.