![]()
世界模型山雨欲來,Sora 還在牌桌上。
作者丨梁丙鑒
編輯丨馬曉寧
繼 3 月 24 日 Sora 業(yè)務(wù)線關(guān)停后,OpenAI 華人研究員王若宸發(fā)了一條朋友圈,公開了此舉的最新內(nèi)幕:Sora 團(tuán)隊的終極目標(biāo)一直是通用機(jī)器人,此番調(diào)整的核心原因是視頻生成和具身模型的研究路線越發(fā)分化,難以兼顧。業(yè)務(wù)線關(guān)停之外,對 Sora 研究團(tuán)隊的組織架構(gòu)無任何影響。
![]()
王若宸為 Sora 團(tuán)隊華人研究員。公開信息顯示,2024 年其博士畢業(yè)于美國加州大學(xué)洛杉磯分校,取得計算機(jī)科學(xué)專業(yè)博士學(xué)位,研究方向為自動化機(jī)器學(xué)習(xí)方法。2025 年 2 月,王若宸加入 OpenAI 擔(dān)任研究員,從事多模態(tài)方向研究。
在 LinkedIn 平臺上,他對這段工作經(jīng)歷的介紹是,“I trained the latest ChatGPT Voice- What's next?:)”
此前 OpenAI 已有表態(tài),Sora 團(tuán)隊接下來的任務(wù)是機(jī)器人方向研究。OpenAI 發(fā)言人 Kayla Wood 在接受媒體采訪時表示,Sora 團(tuán)隊“將繼續(xù)專注于世界模擬研究,以促成機(jī)器人的進(jìn)化,使其幫助人們解決現(xiàn)實世界中的物理任務(wù)。”
王若宸側(cè)面印證了這一口徑。在落地成為具身智能核心命題的當(dāng)下,此舉無疑意味著 OpenAI 在這一方向進(jìn)一步完成了研究力量的收縮整合,競爭烈度即將進(jìn)入全新階段。而在 OpenAI 此次調(diào)整后重新審視 Sora 團(tuán)隊的戰(zhàn)略地位,外界此前是否存在低估,值得重新考量。
01
王若宸的朋友圈,透露四點(diǎn)細(xì)節(jié)
第一,Sora 團(tuán)隊的定位一直是通用機(jī)器人研究,這是 Bill(William Peebles)和 Aditya(Aditya Ramesh)的共識。二人同為 Sora 團(tuán)隊三大負(fù)責(zé)人之一,前者是 Sora 核心創(chuàng)新的 DiT 模型作者,后者為 OpenAI 元老級成員,主導(dǎo)了三代 DALL-E(DALL-E 1/2/3)的研究。
第二,由于機(jī)器人的商業(yè)化周期更長,Sora 團(tuán)隊將視頻生成作為類似中間產(chǎn)物的商業(yè)化成果,此前的產(chǎn)品探索也聚焦于這一方向。
第三,自 2025 年底開始,Sora 團(tuán)隊發(fā)現(xiàn)作為終極愿景的機(jī)器人,和視頻生成這兩條研究路線分化的部分增加。出于保持短小精悍的團(tuán)隊氛圍的目的,Sora 團(tuán)隊一直在討論如何重新定義優(yōu)先級。
王若宸稱,包括自己在內(nèi)的大部分研究員都“傾向梭哈機(jī)器人,因為做讓人成癮的視頻實在不符合我們的價值觀。”
第四,Sora 負(fù)責(zé)人 Aditya Ramesh 去年整合了 OpenAI 內(nèi)部其余進(jìn)行機(jī)器人產(chǎn)品探索的團(tuán)隊,納入 Sora 團(tuán)隊內(nèi)部,新團(tuán)隊更名為 WorldSim。
此次調(diào)整僅涉及到視頻生成產(chǎn)品的關(guān)停,對研究團(tuán)隊不會造成任何變化,也不存在成員并入 WorldSim 團(tuán)隊的情況,“本來就是一個 org。”
王若宸表示,Sora 業(yè)務(wù)線的突然關(guān)停并非團(tuán)隊本意,但非常贊同 OpenAI 最近整體的戰(zhàn)略聚焦。
02
世界模型山雨欲來
此前 Sora 團(tuán)隊突然發(fā)布告別聲明,Sam Altman 內(nèi)部信隨后流出,信中通知 Sora 視頻平臺將全面停運(yùn),此時距離 Sora 2 發(fā)布僅僅過去半年。加之 Sora 初次發(fā)布時曾因超群的物理效果和場景還原能力一鳴驚人,Sam Altman 親自在 X 上為之站臺,展示效果,導(dǎo)致 Sora 長期被視為 OpenAI 在視頻生成賽道比肩 ChatGPT 的戰(zhàn)略產(chǎn)品。
高開低走的命運(yùn),引發(fā)外界眾多猜測。有報道稱 OpenAI 此舉是沖擊 IPO 前的戰(zhàn)略調(diào)整。
OpenAI CEO Fidji Simo 近期曾對員工解釋,關(guān)停 Sora 是 OpenAI 從"分散的副業(yè)"轉(zhuǎn)向核心生產(chǎn)力工具的戰(zhàn)略決策。而 OpenAI CFO Sarah Friar 則在 24 日接受媒體采訪時稱,OpenAI 需要“準(zhǔn)備好成為一家上市公司”,或暗示 Sora 的關(guān)停與 IPO 計劃有關(guān)。這進(jìn)一步引發(fā)了關(guān)于視頻生成模型算力成本承壓及商業(yè)模式的討論。
但根據(jù)王若宸透露的最新消息,為世界模型研發(fā)整合資源的因素,在此次業(yè)務(wù)線調(diào)整中的影響同樣舉足輕重。
為什么世界模型如此重要?
具身智能的落地應(yīng)用,面臨著真實世界交互數(shù)據(jù)匱乏,以及由對物理世界缺乏深層次理解和預(yù)判能力,導(dǎo)致的跨場景泛化問題。而世界模型在合成數(shù)據(jù)和閉環(huán)仿真方面的應(yīng)用將有效緩解數(shù)據(jù)壓力,統(tǒng)一的物理規(guī)律理解能力則能讓機(jī)器人在陌生環(huán)境中真正擁有物理直覺,正是為解決上述問題而生。
Sora 在發(fā)布之初就曾因具備初步的物理世界常識和時間邏輯被譽(yù)為視頻生成的 “GPT時刻”,在一眾視頻生成模型中,也以物理真實性見長。在技術(shù)特征上,這正是與世界模型的契合之處。如果 Sora 真的從 Day 1 就并非視頻生成團(tuán)隊,而是為世界模型進(jìn)行技術(shù)積累,那么最新成果相當(dāng)值得期待。
值得一提的是,相較于海外廠商以 Sora 為代表的“世界模擬器”路線,國內(nèi)的視頻模型廠商,如快手、字節(jié)、生數(shù)科技等,定位則更接近于內(nèi)容引擎。
如可靈的 MotionControl 功能可精準(zhǔn)控制物體移動軌跡,字節(jié) Seedance 主打多鏡頭敘事與音畫同步,生數(shù)科技的Vidu 3 主打電影級敘事,采用 U-Vit 架構(gòu)在單卡級推理上保障畫面連貫性。三者的共同點(diǎn)在于以生成結(jié)果的可控性見長,而非對物理規(guī)律的完美復(fù)現(xiàn)。
技術(shù)路線的選擇見仁見智。在大廠占據(jù)內(nèi)容平臺高地的背景下,內(nèi)容引擎可以更契合地融入自家生態(tài),兩者共同完成從內(nèi)容生成到分發(fā)的閉環(huán),同時生成結(jié)果更高的可控性進(jìn)一步優(yōu)化了 AI 短劇、漫劇的成本結(jié)構(gòu),商業(yè)化由此反哺模型迭代。國內(nèi)模型廠商在視頻生成賽道,構(gòu)建了難以撼動的生態(tài)壁壘。
但是在世界模型的競爭中,這一優(yōu)勢不復(fù)成立。
內(nèi)容引擎的生態(tài)壁壘,對具身智能而言是否會成為技術(shù)債務(wù)?新一輪的競爭中,又會是哪家模型廠商擔(dān)綱?值得拭目以待。
可以確定的是,具身智能賽道火熱的市場預(yù)期,最終要在落地場景中兌現(xiàn),此前頻現(xiàn)的巨額融資已經(jīng)累積了巨大的商業(yè)化壓力。而 Sora 在視頻生成賽道激流勇退的另一面,是為具身智能的又一次添柴加炭。
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.