網易首頁 > 網易號 > 正文 申請入駐

深度|115 篇接收、12 篇 Oral!字節跳動 ICLR 2026 成績單刷屏,基座+多模態火力集中

0
分享至


圖片來源:字節跳動

Z Highlights

  • 實現了規模與質量的雙重爆發:字節共計 115 篇論文被接收,其中 Oral 占比高達 10.4%,遠超大會 4.2% 的平均水平,證明其研究精品率極高。

  • 火力高度聚焦“基座+多模態”:字節 84.3% 的論文集中在基座大模型與多模態感知方向,這反映出一種典型的重倉式布局,而非均衡配置。

  • 呈現顯著的領域“超配”特征:字節在基座大模型和多模態方向的投入強度分別是大會平均水平的 1.47 倍和 1.79 倍,戰略重心極其明確。

  • 從單點突破轉向全棧 AI 平臺化:字節正系統性構建從底層基座、核心能力、應用場景到數據評測標準的完整體系,意在掌握 AI 話語權與標準定義權。

  • 構建了極高強度的全球科研聯盟:外部協作占比高達 90.4%,通過深度鏈接全球頂級高校和研究機構,將自身的研究規模放大了近 30 倍。

ICLR 2026 的最終接收論文名單剛剛公布,一份來自字節系的成績單,已經在圈內悄然傳開。

115 篇接收論文,占大會總量的 2.2%。單看數量,這已經是一支相當穩定的產業研究力量。但真正讓同行關注的,是另外幾個數字:12 篇 Oral,占比 10.4%,而 ICLR 整體的 Oral 占比為 4.2%,高出 6.2 個百分點;以及 90.4%的論文都帶有外部合作。


字節系論文數量概覽

這組數據放在一起,勾勒出的是一個已經形成穩定產出主線、并能在頂會前排持續輸出的研究體系。

雙核重倉:84.3%的火力集中在基座模型與多模態感知方向

如果說論文數量代表的是體量,那方向結構體現的就是布局思路。字節系在 ICLR 2026 上最鮮明的特征,是火力高度集中在兩個方向。基座大模型共 56 篇,占比 48.7%;多模態感知與跨學科應用共 41 篇,占比 35.7%。兩者相加共 97 篇,占全部字節系論文的 84.3%。這不是均衡配置,甚至不只是重點傾斜,而是一種典型的重倉式布局。

剩下的方向則更像是外圍梯隊。計算機理論與機器學習 2 篇,強化學習、可信與安全可解釋性各 4 篇,具身智能與自動駕駛 3 篇,系統方向 2 篇。這個結構釋放的信號很清晰:對字節而言,ICLR 2026 的主戰場仍然集中在基座大模型與多模態能力本身。


字節系論文研究領域大類分布

進一步拆解一級研究方向,字節的技術重心將暴露得更清楚。排在第一位的是“applications to computer vision, audio, language, and other modalities”,共 38 篇,占比 33.6%;隨后是“foundation or frontier models, including LLMs”(21 篇)、“generative models”(20 篇)和“datasets and benchmarks”(15 篇)。

這個結構很有意思,說明字節的 AI 研究呈現出鮮明的平臺化戰略:38 篇多模態應用(33.6%)占據首位,凸顯以視覺、音頻、語言等全模態驅動產品落地的優先導向;基礎模型與生成模型分別以 21 篇和 20 篇緊隨其后,構成底座能力+內容生產的雙輪閉環;而 15 篇數據與評測的投入,則超越了單純的模型研發,意在掌握數據源頭與標準定義權。四者共同構建起從底層基座、核心能力、應用場景到基礎設施的系統性技術體系,反映出字節跳動正從單點模型突破轉向全棧自主的 AI 平臺化布局。


字節系論文一級研究方向 Top 10

如果只看 12 篇 Oral,方向集中度會更高。按研究大類統計,7 篇來自基座大模型,4 篇來自多模態感知與跨學科應用,另外 1 篇來自強化學習。也就是說,首頁機構口徑下的字節 Oral,幾乎全部仍然落在“大模型 + 多模態”這條主軸上。在這兩個方向上,字節已經具備了持續產出高質量成果的能力。

與大盤對比,超配信號明顯:偏好指數 1.49 意味著什么?

把字節放回整場 ICLR 里看,結構差異會更明顯。

基座大模型是字節典型的超配方向。字節系在這一方向上的占比達到 48.7%,而整體 ICLR 的占比是 33.2%,占比差值達到 15.5 個百分點。如果用偏好指數來衡量,字節在基座大模型上的偏好指數達到 1.47。也就是說,字節在這個方向上的配置強度,大約是大會平均水平的 1.5 倍。


字節與整體 ICLR 方向分布對比


字節方向偏好指數

多模態感知與跨學科應用方向也不甘示弱,同樣成為了典型的超配方向。字節在這一方向上的占比為 35.7%,整體 ICLR 為 19.9%,偏好指數 1.79。這進一步印證了字節的主線布局:將資源明顯集中在“基座+多模態”兩塊。

一個容易被忽略的細節是計算機系統。它只有 2 篇論文,但由于整個 ICLR 系統方向本身也只占 0.8%,字節在這一方向上的偏好指數仍達到2.16。這說明系統雖然不是字節的主要敘事,但也沒有完全缺席。這種主線清晰、支線有選擇跟進的布局,正體現了一家成熟研究機構的戰略定力。

最后看一個最硬的結果指標:Oral 占比。字節系 Oral 占比為 10.4%,整體 ICLR 為 4.2%,相差約 6.2 個百分點。與許多靠規模取勝的產業隊伍不同,字節這次不只是論文數量多,精品率也確實跑在了前面。這意味著,字節的研究質量并未因規模擴張而被稀釋,反而在更高水平的競爭中保持了產出效率。


字節與整體 ICLR Oral占比對比

注:偏好指數 = 字節在某方向的論文占比 / 整體 ICLR 在該方向的論文占比。偏好指數大于 1 表示字節在該方向相對超配,小于 1 表示相對低配。 占比差值 = 字節在某方向的論文占比 - 整體 ICLR 在該方向的論文占比,用于直觀看結構差異。本文新增指標屬于描述性統計,用于說明方向結構,不做顯著性檢驗。

90.4%的協作率:一張覆蓋頭部高校的隱形聯盟

如果說方向結構體現的是字節將研究資源押注在哪些領域,那么合作結構則反映了字節通過什么方式將這些論文落地。答案很明確:靠合作,而且是高強度合作。


字節系論文合作版圖發布

115 篇字節系論文中,純字節獨立完成的只有 11 篇,占比 9.6%;其余 104 篇均有外部合作,外部協作占比達到 90.4%。在頂會語境下,這個數字幾乎可以被視作平臺型研究機構的典型特征——它通過一張高度成熟的合作網絡,將研究規模放大了近 30 倍。

從細分結構看,字節-高校合作有 90 篇,占比 78.3%;字節-高校-企業混合合作有 13 篇,占比 11.3%。兩者合計已覆蓋絕大多數樣本。純字節-企業合作只有 1 篇,說明字節在 ICLR 這類頂會上的合作邏輯,仍以高校/研究機構牽引為主導,而非單純的產業間聯名。這種選擇有其內在邏輯:高校和研究機構在基礎研究、人才培養和學術影響力上具有天然優勢,而產業方的優勢在于場景、數據和工程化能力。字節選擇的,正是高校做深、產業做寬的互補模式。

研究機構方面,前五名分別是 Data61 CSIRO(2 篇)、Georgia Institute of Technology(2 篇)、Institute of Automation, Chinese Academy of Sciences(2 篇)、Shanghai Collaborative Innovation Center of Intelligent Visual Computing(2 篇)和 Shanghai Key Laboratory of Multimodal Embodied AI(2 篇)。

這說明字節并不是只圍繞高校展開合作,同時也在和最強的一批研究平臺形成穩定共研。這些平臺往往介于學術界和產業界之間,既有學術深度,又具備一定的工程化能力,恰好是字節理想的合作伙伴。


字節合作研究機構 Top 5

企業方面,字節與 M-A-P 合作 3 篇,與 OPPO 合作 3 篇。這部分樣本規模不如高校合作,但它反映出的信號很直接:在前沿議題上,字節也在和其他產業玩家發生交叉聯動。這些合作可能集中在某些需要多方數據或多方能力的特定議題上,比如多模態、端側 AI 等。

注:合作機構計數采用“論文共現次數”口徑,同一篇論文內同一機構只計 1 次,不按作者人數或作者排序加權。因此,這里的“合作最多”應理解為共同署名最頻繁,而不是作者貢獻權重最高。

邁向下一代智能系統

字節在 ICLR 2026 上圍繞多模態生成、視覺驗證、強化學習驅動的主動推理、長上下文建模、高效模型訓練與結構優化等方向集中發布的一系列工作,本質上是在系統性地構建下一代智能系統的技術底座。這些研究既涵蓋視頻 avatar、視覺幾何、蛋白質結構生成等具體任務,也深入到混合專家路由、偏好優化、測試時訓練、記憶機制與 agent 強化學習等基礎性問題。再把視線拉回到這 115 篇論文中最具分量的 oral 部分,其中字節跳動多模態和世界模型負責人時光掛名的有兩篇,分別是 OmniVerifier 和 Deep Anything3。


SEEDVR2

視頻生成方面,字節在 ICLR 上的文章側重于生成過程如何被穩定控制、生成主體如何保持一致、生成系統如何走向高效部署。其中,Video-As-Prompt 將參考視頻本身轉化為統一語義提示,把風格、動作、運鏡等不同控制條件納入同一生成框架,本質上推動了視頻生成從任務特定控制向上下文驅動生成的演進;BindWeave 則進一步聚焦主體一致性,通過多模態語言模型與擴散 Transformer 的跨模態耦合,在單主體與多主體場景下實現更穩定的實體對齊與身份保持,使視頻生成具備了更強的角色約束能力;而 SeedVR2 則從效率側切入,以單步視頻恢復替代傳統多步擴散過程,顯著降低高分辨率視頻處理的推理成本。整體來看,這三項工作并不是彼此孤立的任務改進,而是分別對應視頻生成系統走向實用化所必需的控制能力、一致性能力與部署效率,體現出字節在該方向上已開始從“生成效果提升”轉向“生成系統完善”的整體布局。


OmniHuman-1.5

多模態生成方面,AvatarMind 的切入角度很清晰——傳統數字人方法過度依賴低層音頻驅動,缺乏對角色的語義表達與意圖理解。該工作引入多模態大模型生成結構化語義表示,并結合多模態擴散 Transformer 完成動作生成,將 avatar 建模從口型同步推進至認知狀態驅動,使情緒、意圖與語境在角色動畫中真正成為主導因素。

視覺幾何建模領域,RoSE 與 Deep Anything 3 呈現出相似的技術路徑。RoSE 不再直接從單張圖像回歸法向圖,而是先預測對幾何信息更為敏感的 shading sequence,再通過解析方式恢復法向圖;Deep Anything 3 則嘗試用統一的 Transformer 框架處理任意視角、任意數量輸入條件下的三維恢復問題,體現出從單一任務求解向統一視覺空間建模演進的技術趨勢。字節還在 GUI agent 方向還推進了以 UI-TARS 為代表的原生界面智能體路線,其核心意義在于讓模型直接基于截圖理解并操作軟件界面,并借助強化學習增強長程交互中的規劃與執行能力,這也使豆包手機一類終端交互產品具備了更強的落地基礎。

多模態可靠性方向,OmniVerifier 提出了通用視覺驗證器這一重要范式,指出現有多模態模型雖然具備較強的生成能力,但在視覺結果的檢查、反思與修正方面存在明顯短板。為此,研究團隊構建了專門的驗證基準,并訓練生成式 verifier,在圖像生成與編輯過程中實時判斷輸出是否符合目標要求,進一步通過測試時迭代優化機制將驗證環節嵌入生成閉環。

強化學習與 agent 方向的多篇工作共同指向一個判斷:智能體能力的提升,既依賴于更長的推理鏈,也取決于更優的表示學習、更強的外部交互能力以及更穩定的內部狀態管理。ReTool 重點研究了如何在結果反饋驅動下,自主摸索出更優的工具使用策略,用強化學習讓模型學會什么時候該調用工具、怎樣調用工具、以及在工具反饋后如何繼續推進推理。RALI 通過圖像質量評估任務發現,強化學習帶來的泛化收益并不完全來自顯式推理過程,而更多源于推理過程中形成的緊湊、可遷移表征;谶@一發現,該工作利用對比學習直接對齊圖像與這類表征,以更低的成本逼近推理模型的效果——這意味著推理的價值在諸多場景下可以被轉化為更高效的表示學習機制。


AgentGym

AgentGym 則從系統層面提出了統一的 agent 強化學習框架,通過分階段交互訓練提升模型在長時程任務中的穩定性。其核心觀點在于,復雜 agent 的能力不應僅依賴內部 token 推理的擴展,更有賴于與外部環境的高效交互。

長上下文建模方向,MemAgent 與 InPlaceTTT 分別代表了兩條互補的技術路徑。MemAgent 將超長文本處理重構為顯式記憶管理問題,通過分段處理、記憶覆蓋與強化學習優化,使模型在極長輸入條件下仍能維持有效信息的提取與保留;InPlaceTTT 則從參數更新角度切入,在測試時對部分 fast weights 進行原地更新,賦予模型在線適應能力。二者分別從記憶管理與參數更新的維度,為長上下文場景提供了系統性的解決方案。


ERC-MoE

模型效率與訓練機制方面,字節的多項工作體現出從規模擴張向機制優化轉變的清晰趨勢。DCFold 采用單步生成替代擴散模型的多步迭代,在蛋白質結構生成任務中顯著提升了推理效率;ERC-MoE 針對混合專家模型中路由與專家匹配不足的問題,引入輔助耦合損失以強化專家分工的專業性;TI-DPO 則將偏好優化從序列級推進至 token 級,通過重要性建模實現了更為精細的對齊控制。

總體而言,字節在 ICLR 2026 的這組工作呈現出高度的戰略一致性。其研究重點并非聚焦于單一任務的局部領先,而是在更高維度上系統性地探索下一代智能系統的關鍵能力:高層語義驅動的生成能力、生成結果的驗證與反思能力、長時程交互中的狀態管理能力、超長上下文場景下的記憶與適應能力,以及面向實際部署的高效訓練與推理能力。

字節在 ICLR 2026 上的表現,或許會成為未來幾年產業界參與頂會的一個參考樣本。它不是最卷的那一個,但可能是結構最清晰的那一個。

作者: Cheng Gao, Wang Shijie, Wang Jiawen

*排名不分先后,按照首字母排序

Ref.

數據來自 openreview 公開信息及對應 ICLR 已接收論文

加入ZF討論群,請先添加小助手微信

我們相信認知能夠跨越階層,

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

我們正在招募新一期的實習生

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
鐘楚紅、林青霞,我感覺最左邊的這位長相也不差,她到底是誰

鐘楚紅、林青霞,我感覺最左邊的這位長相也不差,她到底是誰

草莓解說體育
2026-05-09 05:34:27
外交部:堅決反對任何對中方的無端指責和惡意抹黑,相信挪威方面將切實保障中國公民合法權益

外交部:堅決反對任何對中方的無端指責和惡意抹黑,相信挪威方面將切實保障中國公民合法權益

環球網資訊
2026-05-08 15:50:22
斯諾克單賽季獎金榜:趙心童破百萬,世界第1歷史第3,吳宜澤第2

斯諾克單賽季獎金榜:趙心童破百萬,世界第1歷史第3,吳宜澤第2

劉姚堯的文字城堡
2026-05-08 09:00:42
網友偶然碰到佟麗婭吃早餐啦。她都43歲了,素顏的狀態卻特別好。

網友偶然碰到佟麗婭吃早餐啦。她都43歲了,素顏的狀態卻特別好。

東方不敗然多多
2026-05-08 16:46:11
47歲高圓圓沈陽菜市場賣辣白菜!顏值封神,網友:狠狠羨慕趙又廷

47歲高圓圓沈陽菜市場賣辣白菜!顏值封神,網友:狠狠羨慕趙又廷

可樂談情感
2026-05-08 14:09:54
發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

共工之錨
2026-05-07 23:58:12
軍售放行后,日烏開始共制武器

軍售放行后,日烏開始共制武器

鳳凰WEEKLY
2026-05-06 19:44:21
一個北方縣城公務員的一生:一眼望到頭,卻是普通人最好的歸宿

一個北方縣城公務員的一生:一眼望到頭,卻是普通人最好的歸宿

王姐懶人家常菜
2026-05-08 03:48:09
這下輪到銀行發愁了!越來越多的儲戶,要把存款分散到多家銀行

這下輪到銀行發愁了!越來越多的儲戶,要把存款分散到多家銀行

夢史
2026-05-09 00:53:33
現役球員季后賽總得分TOP6,只有哈登沒有總冠軍

現役球員季后賽總得分TOP6,只有哈登沒有總冠軍

懂球帝
2026-05-08 11:07:06
機關下設的事業單位,比如各種“中心”,名義上是獨立機構,實際上早成了機關的內設處室?

機關下設的事業單位,比如各種“中心”,名義上是獨立機構,實際上早成了機關的內設處室?

碧翰烽
2026-05-08 07:33:09
不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

細說職場
2026-04-26 21:04:20
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網
2026-04-16 19:42:33
亞馬遜爆款衛衣:買家稱"實物比照片貴十倍"

亞馬遜爆款衛衣:買家稱"實物比照片貴十倍"

影視情報室
2026-05-08 00:14:58
34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

豬小艷吖
2026-05-07 11:21:34
4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

通鑒史智
2026-03-15 11:45:00
世乒賽最新戰報!四強全部落位,雨果爆冷,法國3-0橫掃巴西,半決賽對陣出爐,國乒迎生死考驗

世乒賽最新戰報!四強全部落位,雨果爆冷,法國3-0橫掃巴西,半決賽對陣出爐,國乒迎生死考驗

體壇最前線66
2026-05-09 05:39:01
1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

哄動一時啊
2026-02-17 22:21:25
中央定調,延遲退休后,1970年出生的,60歲能領到養老金了嗎?

中央定調,延遲退休后,1970年出生的,60歲能領到養老金了嗎?

阿腩講娛樂
2026-05-09 06:10:06
2026-05-09 08:40:49
ZFinance
ZFinance
Z世代的一站式AI、科技和財經資訊
177文章數 16關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經要聞

白宮:特朗普計劃5月14日至15日訪問中國

汽車要聞

MG 4X實車亮相 將于5月11日開啟盲訂

態度原創

親子
家居
游戲
教育
時尚

親子要聞

小銳銳會走路后笑得很開心

家居要聞

流動的尺度 打破家的形式主義

《生化危機9》為何不做極致恐怖 卡普空道出了原因

教育要聞

你收到過最爛的禮物是什么?

盧昱曉真的要被審判到這種程度嗎?

無障礙瀏覽 進入關懷版