![]()
2026年6月12日,第八屆“北京智源大會”在中關(guān)村國際創(chuàng)新中心開幕。
![]()
北京智源大會是智源研究院主辦的“AI內(nèi)行學(xué)術(shù)盛會”,以“技術(shù)前沿、國際視野、青年人才”為特色,匯聚海內(nèi)外研究者分享研究成果、探尋前沿知識、交流實(shí)踐經(jīng)驗(yàn)。本屆大會,現(xiàn)代數(shù)字安全體系奠基者Whitfield Diffie線下參會,聚焦Agent時代的安全與可信挑戰(zhàn);強(qiáng)化學(xué)習(xí)奠基人Andrew Barto追問“交互驅(qū)動智能”對于下一代AI系統(tǒng)的意義。30余位30歲以下青年科學(xué)家,40余位AI企業(yè)CEO、創(chuàng)始人與首席科學(xué)家,200余位頂尖專家學(xué)者將齊聚北京,中國AI產(chǎn)業(yè)世界模型與Agent領(lǐng)域最具代表性的創(chuàng)新力量首次集中同臺。20余家全球頂尖科技企業(yè)及高校科研機(jī)構(gòu),包括Meta、英偉達(dá)、哈佛、MIT等,將與阿里、騰訊、小米、生數(shù)科技、面壁智能、清華、北大、人大等中國AI行業(yè)最核心的創(chuàng)新力量同場交流。同時,大會還匯聚數(shù)百位全球AI領(lǐng)域?qū)W術(shù)中堅力量,一同圍繞世界模型、通用智能體、具身智能、AI安全、AI Native教育、Token經(jīng)濟(jì)與OPC、智能計算底層架構(gòu)等前沿方向展開精彩演講和前瞻性對話。
![]()
開幕式由智源研究院理事長黃鐵軍主持。
![]()
智源研究院院長王仲遠(yuǎn)做2026年研究進(jìn)展報告,發(fā)布智源研究院在基座大模型、智能體、基礎(chǔ)軟硬件生態(tài)等前沿技術(shù)領(lǐng)域的探索成果和開源生態(tài)建設(shè)的最新動態(tài)。
自2018年成立以來,智源研究院先后發(fā)布了“悟道”系列大模型和“悟界”系列大模型,構(gòu)建了自底向上的全棧大模型開源技術(shù)體系。無論是在大模型發(fā)展的早期,還是在物理AI的全新時期,智源研究院始終在引領(lǐng)人工智能大模型的前沿研究探索。截至目前,智源開源模型超200個,全球總下載量累計超過10億次。同時也孵化了一系列在大模型領(lǐng)域和具身智能領(lǐng)域非常具有代表性的創(chuàng)新創(chuàng)業(yè)企業(yè)。
2024年智源大會上,智源發(fā)布了對于人工智能尤其是大模型技術(shù)的演化路徑的預(yù)判。當(dāng)下,人工智能正沿著從大語言模型向多模態(tài)大模型再向世界模型演進(jìn)的方向,加速從數(shù)字世界邁向物理世界。過去一年里,智源在基座大模型、智能體以及基礎(chǔ)軟硬件生態(tài)三個領(lǐng)域取得令人矚目的科研進(jìn)展。基于智源在多模態(tài)大模型以及世界大模型上的探索,智源研究院系統(tǒng)性地梳理了世界模型發(fā)展歷程,以及對現(xiàn)有世界模型技術(shù)的四大分類,并介紹了正在研發(fā)中的悟界·Physis。
基座大模型
2024年智源大會發(fā)布的“悟界”系列大模型,旨在解決人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力,并且構(gòu)建面向物理世界的人工智能基座模型。2025年10月正式發(fā)布的悟界·Emu3.5僅基于“預(yù)測下一個詞元(Next-Token Prediction)”,實(shí)現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí),實(shí)現(xiàn)了多模態(tài)理解和生成任務(wù)的統(tǒng)一學(xué)習(xí),這一原創(chuàng)性的成果在今年1月份刊發(fā)于Nature正刊,創(chuàng)造了國產(chǎn)多模態(tài)大模型的眾多紀(jì)錄。
今年,智源大會也帶來了一系列創(chuàng)新成果發(fā)布:悟界·Brainμ1.0是全球首個理解與生成統(tǒng)一的多模態(tài)神經(jīng)科學(xué)大模型,將Next-Token Prediction范式擴(kuò)展到神經(jīng)科學(xué)領(lǐng)域所構(gòu)建的多模態(tài)腦科學(xué)通用基座,由智源聯(lián)合清華團(tuán)隊基于悟界·Brainμ開展的研究成果也已刊發(fā)于Science;與悟界·Brainμ1.0一同發(fā)布的還有全球最大最全的AI-Ready神經(jīng)科學(xué)數(shù)據(jù)集和全球最大的AI-Ready數(shù)據(jù)平臺BrainToken;悟界·OpenComplex2.5是可泛化、物理真實(shí)的下一代AI驅(qū)動藥物發(fā)現(xiàn)模型,能精確解析IDP靈活構(gòu)象,系統(tǒng)性賦能創(chuàng)新藥物研發(fā)全鏈路,以單一模型覆蓋制藥四大關(guān)鍵步驟。悟界·Physis-v0.1是全球首個通用世界基座模型,以統(tǒng)一物理狀態(tài)學(xué)習(xí),實(shí)現(xiàn)物理正確、動作因果可溯、長程一致、通用泛化,最終達(dá)到全垂類場景應(yīng)用。
智能體
針對具身智能面臨的硬件不成熟、數(shù)據(jù)短缺、模型能力弱、落地應(yīng)用難的四大挑戰(zhàn),智源構(gòu)建了自底向上的全棧具身智能技術(shù)體系,并先后發(fā)布了悟界·RoboBrain和悟界·RoboOS。智源正在研發(fā)中的悟界·RoboBrain Orca,以預(yù)測下一個物理狀態(tài)為核心來構(gòu)建具身大腦,融合了大量Ego-centric交互數(shù)據(jù),強(qiáng)化世界模型的具身表征,提升下游少樣本和跨場景泛化的能力。同時,結(jié)合智源研究院作為科研機(jī)構(gòu)的屬性以及在科研項(xiàng)目上的布局,智源推出了四款自主研發(fā)的智能體,它們分別面向心臟輔助診斷、科學(xué)發(fā)現(xiàn)、個人專屬助理以及生物安全防護(hù)等領(lǐng)域。
基礎(chǔ)軟硬件生態(tài)
智源與開源社區(qū)共建了眾智FlagOS,將企業(yè)面臨的“M款模型與N款芯片”適配難題簡化為“多模型+多芯片”的統(tǒng)一接入解決方案。FlagOS2.1能夠支持18家芯片廠商的32款芯片,是全球覆蓋芯片數(shù)量最多的計算系統(tǒng)軟件棧。FlagOS的算子總數(shù)已超過600個,并且仍然在快速增長。同時FlagOS還能夠支持18家芯片廠商的統(tǒng)一編譯器和12家芯片廠商的統(tǒng)一通信庫。目前,F(xiàn)lagOS的生態(tài)成員已經(jīng)超過80余家,全球下載量超過37.5萬次,觸及開發(fā)者5.6萬人。
悟界系列大模型:面向物理世界構(gòu)建的人工智能基座模型
如今,隨著多模態(tài)模型的研究深入,人工智能正經(jīng)歷一場重大的范式變革,正在從“預(yù)測下一個詞元”演進(jìn)到“預(yù)測下一個物理狀態(tài)”,這是世界模型的核心本質(zhì)。
智源研究院是國內(nèi)最早提出并開展世界模型研究的科研機(jī)構(gòu)。2023年智源大會上,楊立昆(Yann LeCun)就闡述了新一代世界模型的概念;2024年智源大會上,智源研究院提出的人工智能大模型技術(shù)路線預(yù)判,明確指出世界模型是下一代大模型技術(shù);2024年發(fā)布的悟界·Emu3和2025年發(fā)布的悟界·Emu3.5,更是全球首個原生多模態(tài)世界模型。基于在大模型領(lǐng)域持續(xù)的技術(shù)積累與前瞻布局,2026年智源推出了悟界·Physis-v0.1。悟界·Physis的誕生正是基于智源對人工智能發(fā)展路徑的判斷以及從“悟道”到“悟界”的技術(shù)傳承與延續(xù)。隨著大語言與多模態(tài)技術(shù)日趨成熟,未來人工智能的發(fā)展重心將進(jìn)入世界模型時代。
智源認(rèn)為,現(xiàn)有世界模型相關(guān)的技術(shù)路線可分為四類:第一類是以語言為中心的世界模型,包括VLM、VLA,模型在文本空間中預(yù)測下一個詞,學(xué)到的是語言描述的世界,并不能理解背后的物理后果;第二類是以像素為中心的世界模型,像Sora和Seedance等視頻生成類模型,在視覺空間中學(xué)習(xí)視頻或圖像,學(xué)到的是像素描述的世界;第三類是以三維結(jié)構(gòu)為中心的世界模型,包括3D重建以及李飛飛團(tuán)隊的World Labs Marble模型,不過模型重建3D空間不等于理解世界,幾何結(jié)構(gòu)也不代表物理狀態(tài);第四類是以視覺表征為中心的世界模型,比如楊立昆的JEPA系列模型,預(yù)測的是視覺表征的壓縮,但視覺嵌入演化不等于物理規(guī)律演化。
![]()
在智源看來,世界模型作為面向真實(shí)物理世界的下一代基座模型,以“預(yù)測下一物理狀態(tài)”為核心,代表著人工智能的下一個重要范式躍遷。世界模型不僅能感知、理解、推理真實(shí)物理世界的時間、空間、物理規(guī)律和物理常識,同時能涵蓋文本、視頻、深度、力覺、感知等全模態(tài)數(shù)據(jù),還具備主動交互能力,能夠支撐各種物理世界的下游應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.