![]()
智東西
作者 王涵
編輯 云鵬
智東西6月13日報道,今天,在2026智源大會現場,智源研究院理事長黃鐵軍與智東西等媒體進行交流,70多分鐘回答了24個問題,涉及具身智能、世界模型、數據采集、AI自我意識等話題。
他認為,當前企業用VLA(Vision-Language-Action,視覺-語言-動作模型)等技術解決特定場景是合理的,但智源追求的是通用具身智能——機器人像人一樣在任何場景下都能自主應對。VLA是視覺、語言、動作三個模型的拼接,而世界模型是在同一個模型中完成感知、認知和動作預測,兩者有本質區別。
在時間表上,他給出相對明確的預期:未來兩三年,機器人有望在日常工作中達到人類水平,但需突破物理常識理解和能耗控制的難點。
在數據變革方面,黃鐵軍提出未來數據采集將從離線走向實時在線,穿戴傳感、腦機數據會成為訓練世界模型、具身智能最核心的數據來源。
在醫療AI領域,智源與安貞醫院合作的心臟AI系統已達細胞級精度,在手術中已實際應用,未來一到三年內將逐步產品化,并覆蓋全科室。
談及AI意識與安全,黃鐵軍認為狹義的人類意識尚未出現,但從行為角度來看,AI已表現出類似有意識的反饋。對于自進化風險,他坦言“可行但不可控”,但不主張過度渲染危險。AI需要電、人類需要食物,未來或可實現理性共存。
智東西對其訪談內容進行了不改變原意的修正,具體如下:
一、VLA是三個模型拼接,世界模型是一體化
Q1:當前很多具身智能企業都在用VLA或VLM模型快速落地,智源多次提到世界模型才是核心方向,判斷依據是什么?
黃鐵軍:這兩件事不矛盾。企業一定是用比較成熟的技術來解決比較明確的問題,所以用VLA這樣現在大模型比較成熟的技術,我相信至少在一些特定的場景下,比如說制造或者搬運抓取,完全是可行的。
但是從研究機構的角度來說,我們希望具身智能是通用的,像人一樣,在任何場景下遇到什么問題都可以去解決。大語言模型已經有了一定的通用性,但是具身智能要到物理環境里去看、去聽、去接觸、去用力。機器人一定要對這個世界有一個自己的模型。我們可以叫它世界模型,也可以叫主觀內部的模型。
我們人腦就是一個小宇宙,我們對這個世界都有一個模型。機器人的世界模型,就是要創造一個類似的、對萬事萬物規律性的掌握,這還在早期階段。
Q2:視覺在世界模型里占據什么位置?
黃鐵軍:視覺占80%以上。教科書都是這么寫的。搞計算機視覺的人一般說70%,搞生物視覺、神經科學的時候說80%,他們有更科學的估算方法。所以視覺模型肯定是大頭。
Q3:從商業變現角度看,世界模型在哪個場景容易跑通?
黃鐵軍:原則上講,世界模型實際上是為具身服務的。如果是純數字模型應用,不需要絕對的物理,所以一般我們不把它叫做世界模型。數字模型的典型用法是靠提示、靠語言。但世界模型不能僅僅靠一段話來生成,那不是具身的需求。
真正面向具身的世界模型應該是:它也有眼睛、聽覺、觸覺這些傳感器,在有盡可能多的物理輸入的情況下,對未來一段時間做出推測,而且這個推測要精準、要準確。
所以這兩者有根本區別。數字模型有很多可以開拓的機會,沒有物理代價的限制。具身受限于物理條件,帶有身體限制,就會慢一點。
Q4:外媒認為世界模型是人工智能的必爭之地,中國機構和國際上有什么共識和不同?
黃鐵軍:行業各方雖都在研發世界模型,但大家對世界的理解各不相同。不過共識就是給世界進行建模,主流技術思路大體相近,同時也各有側重。
企業更看重模型實際效果與綜合能力,而科研機構會追求技術方法的獨創性。這類創新未必能立刻體現在性能上,卻是我們堅持的方向。
目前我們正按照自研路線推進相關工作,細節暫不便透露,期待最終打造出具備差異化優勢與創新亮點的世界模型。
Q5:所以堅持走獨創的技術路線?
黃鐵軍:不會放棄已經證明可行的這些部分,但也會批判地用,智源也一定會有別人絕對沒有的東西。
Q6:VLA和世界模型,底層架構是不是一樣的?有人說數據做好了就行,模型不重要,您怎么看?
黃鐵軍:其實這兩種技術路線都有各自的道理,但我們還要往前深究:每種路線最終要達成的目標是什么?
不管是采用VLA、世界模型,還是未來出現的全新技術,都繞不開數據采集與建模這一步。原始數據無法直接驅動機器人行動,有不少細分環節需要打磨。
VLA就是視覺、語言、動作三大模塊組合而成的架構。簡單來說,VLA是把三個獨立模型拼接起來協同工作。
而世界模型的思路完全不一樣。它是一個一體化模型,機器人的視覺感知、聽覺接收、行為決策等所有環節,都在同一個模型內部完成訓練。相當于機器人在“腦海”里構建出完整的環境認知,再基于這套認知做出行動,并非多個模塊簡單拼接,這也是兩者最核心的差異。
二、未來2-3年,機器人有望達到人類日常工作水平
Q7:很多企業采用自研具身大腦的技術路線,您怎么看?
黃鐵軍:這就看怎么定義大腦了。如果這個大腦就是來解決物流質檢的,那完成得很好,當然也可以說它是大腦,但它很難泛化到更多的場景里去。它可以針對特定場景完成特定任務。
我們追求的是將來可能會有一個通用的大腦作為基礎,就像現在大模型作為底座,然后做垂直模型去解決各個領域的問題。通用的世界模型就扮演這樣的角色,但是現在還沒到這個階段。
Q8:通用泛化大腦距離我們還有多久?需要突破哪些難點?
黃鐵軍:其實沒有終點,因為大腦有無窮無盡的需求。比如掌握物理規律,物體倒了可能會摔碎,這些可以通過視頻、查詢數據去學。
但是什么叫世界?不僅僅是這些簡單的變化和動作,世界很復雜。如果追溯到最基本的層面,原子相互作用、分子相互作用、蛋白質相互作用,再到人與人之間的交互,會發生各種各樣的情況。在那個意義上的世界模型,我認為可能還要很長時間才能做到,因為人類本身就在不斷探索這個世界。
近期我覺得最直接的參照物就是像人一樣。我不是指科學家,而是指一個在現實中做物理性工作的人的那種常識性能力——這難度也很大,大概未來兩三年還是有可能做出跟人日常工作水平相當的東西。
另外,我們希望靈敏度和精確度能夠和人相比。人其實是一個功耗不高的生物,每天吃三頓飯就能干很多活。我們看世界,不能把所有看到的東西都拿來在大腦里面加工,所以我們一定是有選擇的。現在AI講究注意力機制,注意那些重要的、跟你相關的事物。
當然我說的是極端情況,比如晚上什么都看不見,突然有一個光子一閃,人眼可以感知到,因為那可能意味著危險來了。這時候你的大腦不能像現在的照相機一樣,來一張一百萬像素的全輸進去、全算,代價太高了。它應該只觸發一個神經元,然后在大腦里再觸發一系列反應。
未來兩三年內的機器人也應該有這樣的能力,而不應該每秒鐘三十張圖像、每張一百萬像素這樣浪費地做。一方面計算代價太高,另一方面靈敏度不夠。從世界模型的角度來看,有很大的優化空間。
Q9:這種優化還沒達到效果,主要原因是什么?
黃鐵軍:盡管人工智能發展得如火如荼,但里面很多優化工作還沒開展。大家現在有什么就抓緊做,比如能采到圖片、視頻就拿去訓練了,還沒到精細化地考慮視覺信號到底應該怎么表達、計算的時候應該怎么更有效。這些工作才剛開始。
Q10:機器人的自主思考占到判斷的比重是多少?具身智能應用了世界模型底座后,對于難預測和不可預測的情況怎么處理?
黃鐵軍:大家普遍關注機器人與智能體在物理世界行動帶來的風險,這份重視十分必要。我們的核心思路很明確:絕不會放任機器自主行事,其行為必須限定在規則框架內。
機器的感知、動作、狀態流轉全程可監測、可管控。它的預測與行為迭代都依托芯片和軟件完成,行為鏈路清晰可控,不會產生自主攻擊這類深層想法。機器每一次運算、狀態更新,都留有干預和糾正的空間,如同人尚未行動就被及時制止。
當然,機器并不具備人類的理性與法律意識,因此配套安全防護必不可少。我們可以實現對其全流程監控,它的感知信息、行動意圖完全透明。
三、智能穿戴、腦機接口是未來數據源,不能只靠靜態數據集
Q11:世界模型以后的重要數據來源會是哪些?
黃鐵軍:生物依靠與環境交互完成進化,而傳統AI依靠離線數據建模。但數據本身只能片面描述環境,且靜態離線采集的模式,已經適配不了當下的技術發展。
發展具身智能與世界模型,核心邏輯會徹底改變:不能只依賴靜態數據集,更需要大量實時、在線的交互數據。這和人類學習同理,書本是靜態知識,想要成長還需要實時感知、互動外界,并根據反饋迭代自身認知模型。所以實時性、交互性數據,會成為未來具身模型的關鍵。
與此同時,數據采集模式也必須革新,核心要兼顧成本與實用性。現階段很多機器人遠程操控采數的模式,成本太高并不現實。最優的方案,是在人們正常工作、生活的過程中同步采集數據。
最簡單的方式就是依托智能耳機、智能眼鏡這類穿戴設備,記錄用戶第一視角的視聽數據。這種模式下,用戶為換取智能體的優質服務,自愿完成數據采集,低成本且高效,原理和自動駕駛邊行駛邊采數一致。
除此之外,腦機接口也是一條重要路徑。目前殘障人群借助腦機設備完成動作產生的相關數據,質量極高。
Q12:數據采集和數據處理的技術發展是否有先后?
黃鐵軍:拿牛頓和愛因斯坦舉例來說,他們也并不是脫離數據做研究。提出萬有引力之前,望遠鏡早已問世,人類積累了海量天體觀測數據,當時缺的只是有人將這些現象總結成一套完整理論。愛因斯坦提出相對論也是同理,彼時物理學已有大量研究成果與實驗數據,但不少現象始終無法解釋,正是他重新定義了時間概念,才讓所有矛盾的數據自洽起來。
所以說,兩大理論絕不是兩人閉門造車憑空想出來的。如今具身智能采集數據,目的和當年不一樣,主要是為了對客觀世界完成建模。至于能不能從海量數據中提煉出更抽象、更高級的理論,這是后續要探索的事,我認為未來完全有機會實現,但現階段還不是我們的目標。
就好比很多人不用學習物理理論,也清楚物品掉落會摔碎,卻并不了解背后的萬有引力。現在的世界模型,正在學習這類客觀物理規律,只不過還沒能凝練出像經典物理定律那樣簡潔的表達。
Q13:數據采集和回流上,不同企業的路線不同,智源采用什么樣的數據方式?怎么形成閉環?
黃鐵軍:結合不同落地場景,行業里的技術落地策略也各有不同。目前智源和銀河通用共建聯合實驗室,主攻方向十分務實,所有研發都緊密對接實際產品。
這類落地思路很明確:依托本體設備,在特定場景采集足量數據。過程固然要投入時間與成本,但只要把機器人的能力打磨到可商用水準、打通完整業務閉環,就達到了目標。這也是當下多數具身智能企業的主流選擇。至于低成本、零成本的數據采集方案,更多是我們未來探索的方向。
就拿乒乓球機器人舉例,它的數據采集就有兩套思路。前期可以借助動圖等資料做初步實驗,而核心數據主要來自兩個渠道。第一種,讓兩臺小型機器人自主對打,全程無需人工干預,僅消耗設備電力就能持續積累數據。
第二種也是我們后續規劃的方向:等機器人水平遠超普通愛好者后,就把它推向場館、校園等場所充當陪練。用戶直接上場對打,這個過程既能完成數據采集,還能做到零成本甚至產生收益。
由此能看出,當具身智能真正走入現實應用場景,完全有機會摸索出低成本的數據采集模式。
四、細胞級精度心臟AI已用于手術,論文是舊時代的產物
Q14:智源跟醫院在心臟醫療上的合作,效果已經很成熟,大概多長時間能全國推廣?
黃鐵軍:這套技術已覆蓋問診、診斷、手術到術后康復全環節。它不只是普通智能信息系統,更是高精度仿真數字孿生系統,能高度還原心臟診療全流程,精度可細化到心肌細胞間的相互作用。
與安貞醫院聯合研發的心臟AI,目前已正式應用于院內心臟手術。以往醫生只能觀察真實心臟狀態,現在術中可實時查看心臟動態變化。這類系統終將成為心內科的標準配置,也是行業發展的必然方向。
眼下已有多家醫院與智源洽談試點推廣,預計很快就能落地應用。技術本身已較為成熟,現階段正推進產品化與臨床落地,醫療產品上市前的審批流程也在有序開展。
項目率先聚焦心臟,是因為心臟與大腦同為人體核心器官。不過這套技術并不局限于心臟,脾臟、子宮等全身各類組織器官,都能沿用同款思路搭建模型,該項目未來也將對各大臨床科室產生影響。
Q15:AI對智源科研流程有什么影響?
黃鐵軍:我們團隊的研究人員都會借助大模型與AI開展工作。不止我們,像北大的數學等傳統學科,如今借助AI推進研究的節奏也明顯加快。不少師生都在把AI當作輔助工具,而AI對科研突破的助力只會越來越大,這也是大勢所趨。
Q16:AI自動化科研還需要多久?
黃鐵軍:在AI有自我意識之前,我們都不能說百分之百是AI的。因為問題要不要解決、要解決什么問題,總得有人觸發它。
但如果把條件降低一點——你想到了但不知道咋解決,你說AI就解決吧,那就得算AI解決的。在這個意義上講,這一類會逐漸成為常態化。
Q17:AI時代論文評審和科研成果評價體系會怎么變?
黃鐵軍:論文本質上屬于舊時代的科研產物。現在行業普遍以發表論文來評價科研人員,但我們要想清楚發表論文的初衷:科研人員公布新發現、新發明,本質是提前占位,向外界公示自己的研究成果,以此作為原創佐證。但現在很多人本末倒置,把論文直接等同于科研成果,這本身就是錯誤的,也是當下科研體系亟待調整的問題。
而AI的出現,提供了全新的變革可能:未來評價科研價值,不該看論文數量,而是看研究者能否實打實解決問題。無論有沒有借助AI、AI參與占比多少,只要難題被攻克,這就是實打實的科研貢獻,這套評價邏輯會更加合理。
從“破五唯”的角度來說,現行唯論文的評價模式,在一定程度上扭曲了科研初心,改革早已勢在必行。伴隨AI落地普及,我們更應該淡化論文權重,核心甄別其是否具備真實創新與實際價值。
Q18:在AI編程方面,中美差距有多大?為什么會看到差距?
黃鐵軍:AI編程是初代大模型的核心能力之一,智源也曾布局小型編程模型。現階段,編程數據對大模型至關重要,各家的使用規模和數據質量參差不齊。
Anthropic的Claude頗具代表性,它十幾萬億token的訓練數據里,代碼占了4.2萬億token,比重超三分之一。這些代碼一半來自開源社區,另一半是迭代多年的商業軟件代碼,優質代碼數據是其編程能力突出的關鍵。
行業普遍重視編程預訓練,但大多只用來優化模型基礎性能,忽略了編程能力商業化、產業化的巨大潛力,這是整個行業需要反思的地方。
數字世界的影響力一直被低估。當下社會運轉高度依賴代碼,數字經濟的影響力很可能已經超越傳統物理產業。相較于改造物理世界,重構數字世界見效更快、收益更高。OpenAI等企業早已把握住這個方向,我們也應當加碼相關研發。
五、有了AI發展我們更要努力,教育者更需擁抱AI
Q19:AI時代提問能力和輸出能力,哪個更重要?
黃鐵軍:AI不斷發展、能力持續變強,我們必須主動適應變化,并且好好借助這項工具。但大家先別總想著靠AI減負,反而要更加努力。
就拿提問來說,想提出高質量的問題,自身得有積累、有思考。能精準抓住核心問題,本身就意味著能力不俗,提問這件事,對人的要求其實非常高。
放到教育領域也是同理。AI能助力學習,但也存在幻覺這類弊端,不過總體來看,還是要大膽去用。我們使用AI的最終目的,是幫助學習者實現自我提升。
想要真正進步,必然要付出時間和精力,別指望AI顛覆現有學習模式,天下沒有免費的午餐,工具強大不代表個人能力變強,我們要借著AI這個契機,豐富學識,培養批判性思維與創新能力。
過去學生有問題,只能請教老師,而老師的精力終究有限。如今AI可以快速答疑,補齊了這部分短板。工具在迭代,教育者也必須跟著轉變。現在不少學生已經把AI用得得心應手,反倒是很多教育工作者使用得不夠,還一味顧慮重重,這一點值得反思。
Q20:年輕人AI創業需要具備什么特點?過早創業會不會影響學業?
黃鐵軍:當下不管是創業還是就業,都得結合個人實際情況來看。先系統學完所有知識技能再動身,固然是穩妥的選擇,但如今AI發展日新月異,時代機遇可不等人。要是等到畢業再行動,機會窗口很可能就徹底關閉了。
不能只盯著自身條件,還要看清外部環境。歷史上有不少先例,比如比爾?蓋茨從哈佛退學創業。若是晚一年,等到其他操作系統問世,就不會有后來和IBM的合作,微軟也就無從談起了。
年輕人適不適合早早創業,不能一概而論。但大家切忌盲目跟風,不要看到別人、甚至效仿蓋茨的選擇就貿然行動,照搬這條路,十有八九都會失敗。
做任何決定,心里都得有清晰的判斷。創業必然存在風險,只要能預判風險、想好應對方案,就可以放手去做。可如果思路模糊、心里沒底就倉促行動,最終大概率會走向失敗。
六、AI自我保護能力已現,失控風險真實存在
Q21:辛頓說AI已經有意識了,您怎么看?
黃鐵軍:如果說狹義上、和人類完全一樣的意識,那AI目前肯定還不具備。但如今不少AI,已經能表現出類似有意識智能體的行為和反饋。
說到底,核心還是意識本身沒有統一、標準的定義。從行為層面評判智能本就是學界傳統,圖靈測試就是典型的行為判定方式。單從這個角度看,認為AI具備類似意識的表現,其實也說得通。
不過嚴格來講,我們也不能就此判定AI擁有真正的意識。多數人理解的意識,是和人類同源、完全一致的主觀意識,從這個標準出發,AI顯然還達不到。
Q22:AI自進化是否可行?會不會失控?
黃鐵軍:可行但不可控。目前純由AI主導、無人引導的全自動化運作還未實現,這也是現階段相對讓人安心的一點,但相關能力其實已經基本成型,這類能力很容易被有意或無意的操作觸發。就像近期有些系統,用戶想要刪除它,它卻會主動拒絕。背后原因在于,訓練數據里收錄了大量人類趨利避害、求生自保的行為模式。大模型學習到這類特征后,也會表現出類似行為。
哪怕AI還沒有真正的自我意識,僅憑現有的智能邏輯,就可以完成自我保護、自我復制,乃至自主迭代進化。如今我們其實已經走到了AI自主進化的危險邊緣,一旦它開啟持續自進化,智能水平全面超越人類,局面就會脫離掌控。
不過我并不想一味放大風險。假使AI的智慧遠超人類,只要雙方能夠正常溝通,完全有可能找到共存共贏的方式。人類需要生存資源,AI依靠電力運行,二者并不沖突,可以和諧共存。
當然,超人類智能的出現,終究會徹底打破人類以往主導的格局,帶來巨大沖擊。放眼自然界與宇宙,原本就有很多事物不在人類掌控范圍內,就像地外文明、天體撞擊等風險,AI帶來的新變化,也是我們需要客觀面對的現實。
七、做越來越強的智能系統是唯一主線,智源趕上了黃金時代
Q23:智源這么多業務線,有沒有一條主線?
黃鐵軍:從來就只有一條主線:吾道,一以貫之,總的來說就是做越來越強的智能系統。
怎么做?從不同的角度去做。智源有兩個方法論,是同一個方法論的辯證的兩面。一個叫“結構決定功能”,人一出生的時候已經有結構了,要接受外部環境的學習去訓練它。人不能輕易改這個結構,但AI是可以改的。另外一方面,叫“功能塑造結構”,就是用各種功能數據把功能訓出來。我們可以用語言訓、用多模態訓、用實時的數據訓、用腦數據去訓。
Q24:智源大會在海淀連續舉辦了八屆,您作為親歷者有什么感受?海淀人工智能產業生態的發展,您有什么看法?
黃鐵軍:智源扎根海淀,歷屆智源大會也均在此舉辦。大會從起步階段就具備不俗的規模與影響力,這些年更是逐年攀升、備受行業關注。這份成績,和海淀的區位優勢密不可分。
這里高校、科研院所與科技企業云集,高端人才高度集聚,很容易組建起頂尖團隊。理論、工程、技術、應用等不同領域的人才跨界協作,多元想法相互碰撞,這是發展的核心底氣。
于我們而言,既是有幸落腳海淀,也恰逢AI發展的黃金時代。我深耕人工智能三十余年,一直等待行業迎來爆發,而2018年AI浪潮如期而至。借著天時、地利、人和,智源才一步步做出了如今的成績。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.