網易首頁 > 網易號 > 正文申請入駐

70分鐘深度對話黃鐵軍：AI已有類意識行為，未來人與AI將理性共存

2026-06-14 07:08:22　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯云鵬

智東西6月13日報道，今天，在2026智源大會現場，智源研究院理事長黃鐵軍與智東西等媒體進行交流，70多分鐘回答了24個問題，涉及具身智能、世界模型、數據采集、AI自我意識等話題。

他認為，當前企業用VLA（Vision-Language-Action，視覺-語言-動作模型）等技術解決特定場景是合理的，但智源追求的是通用具身智能——機器人像人一樣在任何場景下都能自主應對。VLA是視覺、語言、動作三個模型的拼接，而世界模型是在同一個模型中完成感知、認知和動作預測，兩者有本質區別。

在時間表上，他給出相對明確的預期：未來兩三年，機器人有望在日常工作中達到人類水平，但需突破物理常識理解和能耗控制的難點。

在數據變革方面，黃鐵軍提出未來數據采集將從離線走向實時在線，穿戴傳感、腦機數據會成為訓練世界模型、具身智能最核心的數據來源。

在醫療AI領域，智源與安貞醫院合作的心臟AI系統已達細胞級精度，在手術中已實際應用，未來一到三年內將逐步產品化，并覆蓋全科室。

談及AI意識與安全，黃鐵軍認為狹義的人類意識尚未出現，但從行為角度來看，AI已表現出類似有意識的反饋。對于自進化風險，他坦言“可行但不可控”，但不主張過度渲染危險。AI需要電、人類需要食物，未來或可實現理性共存。

智東西對其訪談內容進行了不改變原意的修正，具體如下：

一、VLA是三個模型拼接，世界模型是一體化

Q1：當前很多具身智能企業都在用VLA或VLM模型快速落地，智源多次提到世界模型才是核心方向，判斷依據是什么？

黃鐵軍：這兩件事不矛盾。企業一定是用比較成熟的技術來解決比較明確的問題，所以用VLA這樣現在大模型比較成熟的技術，我相信至少在一些特定的場景下，比如說制造或者搬運抓取，完全是可行的。

但是從研究機構的角度來說，我們希望具身智能是通用的，像人一樣，在任何場景下遇到什么問題都可以去解決。大語言模型已經有了一定的通用性，但是具身智能要到物理環境里去看、去聽、去接觸、去用力。機器人一定要對這個世界有一個自己的模型。我們可以叫它世界模型，也可以叫主觀內部的模型。

我們人腦就是一個小宇宙，我們對這個世界都有一個模型。機器人的世界模型，就是要創造一個類似的、對萬事萬物規律性的掌握，這還在早期階段。

Q2：視覺在世界模型里占據什么位置？

黃鐵軍：視覺占80%以上。教科書都是這么寫的。搞計算機視覺的人一般說70%，搞生物視覺、神經科學的時候說80%，他們有更科學的估算方法。所以視覺模型肯定是大頭。

Q3：從商業變現角度看，世界模型在哪個場景容易跑通？

黃鐵軍：原則上講，世界模型實際上是為具身服務的。如果是純數字模型應用，不需要絕對的物理，所以一般我們不把它叫做世界模型。數字模型的典型用法是靠提示、靠語言。但世界模型不能僅僅靠一段話來生成，那不是具身的需求。

真正面向具身的世界模型應該是：它也有眼睛、聽覺、觸覺這些傳感器，在有盡可能多的物理輸入的情況下，對未來一段時間做出推測，而且這個推測要精準、要準確。

所以這兩者有根本區別。數字模型有很多可以開拓的機會，沒有物理代價的限制。具身受限于物理條件，帶有身體限制，就會慢一點。

Q4：外媒認為世界模型是人工智能的必爭之地，中國機構和國際上有什么共識和不同？

黃鐵軍：行業各方雖都在研發世界模型，但大家對世界的理解各不相同。不過共識就是給世界進行建模，主流技術思路大體相近，同時也各有側重。

企業更看重模型實際效果與綜合能力，而科研機構會追求技術方法的獨創性。這類創新未必能立刻體現在性能上，卻是我們堅持的方向。

目前我們正按照自研路線推進相關工作，細節暫不便透露，期待最終打造出具備差異化優勢與創新亮點的世界模型。

Q5：所以堅持走獨創的技術路線？

黃鐵軍：不會放棄已經證明可行的這些部分，但也會批判地用，智源也一定會有別人絕對沒有的東西。

Q6：VLA和世界模型，底層架構是不是一樣的？有人說數據做好了就行，模型不重要，您怎么看？

黃鐵軍：其實這兩種技術路線都有各自的道理，但我們還要往前深究：每種路線最終要達成的目標是什么？

不管是采用VLA、世界模型，還是未來出現的全新技術，都繞不開數據采集與建模這一步。原始數據無法直接驅動機器人行動，有不少細分環節需要打磨。

VLA就是視覺、語言、動作三大模塊組合而成的架構。簡單來說，VLA是把三個獨立模型拼接起來協同工作。

而世界模型的思路完全不一樣。它是一個一體化模型，機器人的視覺感知、聽覺接收、行為決策等所有環節，都在同一個模型內部完成訓練。相當于機器人在“腦海”里構建出完整的環境認知，再基于這套認知做出行動，并非多個模塊簡單拼接，這也是兩者最核心的差異。

二、未來2-3年，機器人有望達到人類日常工作水平

Q7：很多企業采用自研具身大腦的技術路線，您怎么看？

黃鐵軍：這就看怎么定義大腦了。如果這個大腦就是來解決物流質檢的，那完成得很好，當然也可以說它是大腦，但它很難泛化到更多的場景里去。它可以針對特定場景完成特定任務。

我們追求的是將來可能會有一個通用的大腦作為基礎，就像現在大模型作為底座，然后做垂直模型去解決各個領域的問題。通用的世界模型就扮演這樣的角色，但是現在還沒到這個階段。

Q8：通用泛化大腦距離我們還有多久？需要突破哪些難點？

黃鐵軍：其實沒有終點，因為大腦有無窮無盡的需求。比如掌握物理規律，物體倒了可能會摔碎，這些可以通過視頻、查詢數據去學。

但是什么叫世界？不僅僅是這些簡單的變化和動作，世界很復雜。如果追溯到最基本的層面，原子相互作用、分子相互作用、蛋白質相互作用，再到人與人之間的交互，會發生各種各樣的情況。在那個意義上的世界模型，我認為可能還要很長時間才能做到，因為人類本身就在不斷探索這個世界。

近期我覺得最直接的參照物就是像人一樣。我不是指科學家，而是指一個在現實中做物理性工作的人的那種常識性能力——這難度也很大，大概未來兩三年還是有可能做出跟人日常工作水平相當的東西。

另外，我們希望靈敏度和精確度能夠和人相比。人其實是一個功耗不高的生物，每天吃三頓飯就能干很多活。我們看世界，不能把所有看到的東西都拿來在大腦里面加工，所以我們一定是有選擇的。現在AI講究注意力機制，注意那些重要的、跟你相關的事物。

當然我說的是極端情況，比如晚上什么都看不見，突然有一個光子一閃，人眼可以感知到，因為那可能意味著危險來了。這時候你的大腦不能像現在的照相機一樣，來一張一百萬像素的全輸進去、全算，代價太高了。它應該只觸發一個神經元，然后在大腦里再觸發一系列反應。

未來兩三年內的機器人也應該有這樣的能力，而不應該每秒鐘三十張圖像、每張一百萬像素這樣浪費地做。一方面計算代價太高，另一方面靈敏度不夠。從世界模型的角度來看，有很大的優化空間。

Q9：這種優化還沒達到效果，主要原因是什么？

黃鐵軍：盡管人工智能發展得如火如荼，但里面很多優化工作還沒開展。大家現在有什么就抓緊做，比如能采到圖片、視頻就拿去訓練了，還沒到精細化地考慮視覺信號到底應該怎么表達、計算的時候應該怎么更有效。這些工作才剛開始。

Q10：機器人的自主思考占到判斷的比重是多少？具身智能應用了世界模型底座后，對于難預測和不可預測的情況怎么處理？

黃鐵軍：大家普遍關注機器人與智能體在物理世界行動帶來的風險，這份重視十分必要。我們的核心思路很明確：絕不會放任機器自主行事，其行為必須限定在規則框架內。

機器的感知、動作、狀態流轉全程可監測、可管控。它的預測與行為迭代都依托芯片和軟件完成，行為鏈路清晰可控，不會產生自主攻擊這類深層想法。機器每一次運算、狀態更新，都留有干預和糾正的空間，如同人尚未行動就被及時制止。

當然，機器并不具備人類的理性與法律意識，因此配套安全防護必不可少。我們可以實現對其全流程監控，它的感知信息、行動意圖完全透明。

三、智能穿戴、腦機接口是未來數據源，不能只靠靜態數據集

Q11：世界模型以后的重要數據來源會是哪些？

黃鐵軍：生物依靠與環境交互完成進化，而傳統AI依靠離線數據建模。但數據本身只能片面描述環境，且靜態離線采集的模式，已經適配不了當下的技術發展。

發展具身智能與世界模型，核心邏輯會徹底改變：不能只依賴靜態數據集，更需要大量實時、在線的交互數據。這和人類學習同理，書本是靜態知識，想要成長還需要實時感知、互動外界，并根據反饋迭代自身認知模型。所以實時性、交互性數據，會成為未來具身模型的關鍵。

與此同時，數據采集模式也必須革新，核心要兼顧成本與實用性。現階段很多機器人遠程操控采數的模式，成本太高并不現實。最優的方案，是在人們正常工作、生活的過程中同步采集數據。

最簡單的方式就是依托智能耳機、智能眼鏡這類穿戴設備，記錄用戶第一視角的視聽數據。這種模式下，用戶為換取智能體的優質服務，自愿完成數據采集，低成本且高效，原理和自動駕駛邊行駛邊采數一致。

除此之外，腦機接口也是一條重要路徑。目前殘障人群借助腦機設備完成動作產生的相關數據，質量極高。

Q12：數據采集和數據處理的技術發展是否有先后？

黃鐵軍：拿牛頓和愛因斯坦舉例來說，他們也并不是脫離數據做研究。提出萬有引力之前，望遠鏡早已問世，人類積累了海量天體觀測數據，當時缺的只是有人將這些現象總結成一套完整理論。愛因斯坦提出相對論也是同理，彼時物理學已有大量研究成果與實驗數據，但不少現象始終無法解釋，正是他重新定義了時間概念，才讓所有矛盾的數據自洽起來。

所以說，兩大理論絕不是兩人閉門造車憑空想出來的。如今具身智能采集數據，目的和當年不一樣，主要是為了對客觀世界完成建模。至于能不能從海量數據中提煉出更抽象、更高級的理論，這是后續要探索的事，我認為未來完全有機會實現，但現階段還不是我們的目標。

就好比很多人不用學習物理理論，也清楚物品掉落會摔碎，卻并不了解背后的萬有引力。現在的世界模型，正在學習這類客觀物理規律，只不過還沒能凝練出像經典物理定律那樣簡潔的表達。

Q13：數據采集和回流上，不同企業的路線不同，智源采用什么樣的數據方式？怎么形成閉環？

黃鐵軍：結合不同落地場景，行業里的技術落地策略也各有不同。目前智源和銀河通用共建聯合實驗室，主攻方向十分務實，所有研發都緊密對接實際產品。

這類落地思路很明確：依托本體設備，在特定場景采集足量數據。過程固然要投入時間與成本，但只要把機器人的能力打磨到可商用水準、打通完整業務閉環，就達到了目標。這也是當下多數具身智能企業的主流選擇。至于低成本、零成本的數據采集方案，更多是我們未來探索的方向。

就拿乒乓球機器人舉例，它的數據采集就有兩套思路。前期可以借助動圖等資料做初步實驗，而核心數據主要來自兩個渠道。第一種，讓兩臺小型機器人自主對打，全程無需人工干預，僅消耗設備電力就能持續積累數據。

第二種也是我們后續規劃的方向：等機器人水平遠超普通愛好者后，就把它推向場館、校園等場所充當陪練。用戶直接上場對打，這個過程既能完成數據采集，還能做到零成本甚至產生收益。

由此能看出，當具身智能真正走入現實應用場景，完全有機會摸索出低成本的數據采集模式。

四、細胞級精度心臟AI已用于手術，論文是舊時代的產物

Q14：智源跟醫院在心臟醫療上的合作，效果已經很成熟，大概多長時間能全國推廣？

黃鐵軍：這套技術已覆蓋問診、診斷、手術到術后康復全環節。它不只是普通智能信息系統，更是高精度仿真數字孿生系統，能高度還原心臟診療全流程，精度可細化到心肌細胞間的相互作用。

與安貞醫院聯合研發的心臟AI，目前已正式應用于院內心臟手術。以往醫生只能觀察真實心臟狀態，現在術中可實時查看心臟動態變化。這類系統終將成為心內科的標準配置，也是行業發展的必然方向。

眼下已有多家醫院與智源洽談試點推廣，預計很快就能落地應用。技術本身已較為成熟，現階段正推進產品化與臨床落地，醫療產品上市前的審批流程也在有序開展。

項目率先聚焦心臟，是因為心臟與大腦同為人體核心器官。不過這套技術并不局限于心臟，脾臟、子宮等全身各類組織器官，都能沿用同款思路搭建模型，該項目未來也將對各大臨床科室產生影響。

Q15：AI對智源科研流程有什么影響？

黃鐵軍：我們團隊的研究人員都會借助大模型與AI開展工作。不止我們，像北大的數學等傳統學科，如今借助AI推進研究的節奏也明顯加快。不少師生都在把AI當作輔助工具，而AI對科研突破的助力只會越來越大，這也是大勢所趨。

Q16：AI自動化科研還需要多久？

黃鐵軍：在AI有自我意識之前，我們都不能說百分之百是AI的。因為問題要不要解決、要解決什么問題，總得有人觸發它。

但如果把條件降低一點——你想到了但不知道咋解決，你說AI就解決吧，那就得算AI解決的。在這個意義上講，這一類會逐漸成為常態化。

Q17：AI時代論文評審和科研成果評價體系會怎么變？

黃鐵軍：論文本質上屬于舊時代的科研產物。現在行業普遍以發表論文來評價科研人員，但我們要想清楚發表論文的初衷：科研人員公布新發現、新發明，本質是提前占位，向外界公示自己的研究成果，以此作為原創佐證。但現在很多人本末倒置，把論文直接等同于科研成果，這本身就是錯誤的，也是當下科研體系亟待調整的問題。

而AI的出現，提供了全新的變革可能：未來評價科研價值，不該看論文數量，而是看研究者能否實打實解決問題。無論有沒有借助AI、AI參與占比多少，只要難題被攻克，這就是實打實的科研貢獻，這套評價邏輯會更加合理。

從“破五唯”的角度來說，現行唯論文的評價模式，在一定程度上扭曲了科研初心，改革早已勢在必行。伴隨AI落地普及，我們更應該淡化論文權重，核心甄別其是否具備真實創新與實際價值。

Q18：在AI編程方面，中美差距有多大？為什么會看到差距？

黃鐵軍：AI編程是初代大模型的核心能力之一，智源也曾布局小型編程模型。現階段，編程數據對大模型至關重要，各家的使用規模和數據質量參差不齊。

Anthropic的Claude頗具代表性，它十幾萬億token的訓練數據里，代碼占了4.2萬億token，比重超三分之一。這些代碼一半來自開源社區，另一半是迭代多年的商業軟件代碼，優質代碼數據是其編程能力突出的關鍵。

行業普遍重視編程預訓練，但大多只用來優化模型基礎性能，忽略了編程能力商業化、產業化的巨大潛力，這是整個行業需要反思的地方。

數字世界的影響力一直被低估。當下社會運轉高度依賴代碼，數字經濟的影響力很可能已經超越傳統物理產業。相較于改造物理世界，重構數字世界見效更快、收益更高。OpenAI等企業早已把握住這個方向，我們也應當加碼相關研發。

五、有了AI發展我們更要努力，教育者更需擁抱AI

Q19：AI時代提問能力和輸出能力，哪個更重要？

黃鐵軍：AI不斷發展、能力持續變強，我們必須主動適應變化，并且好好借助這項工具。但大家先別總想著靠AI減負，反而要更加努力。

就拿提問來說，想提出高質量的問題，自身得有積累、有思考。能精準抓住核心問題，本身就意味著能力不俗，提問這件事，對人的要求其實非常高。

放到教育領域也是同理。AI能助力學習，但也存在幻覺這類弊端，不過總體來看，還是要大膽去用。我們使用AI的最終目的，是幫助學習者實現自我提升。

想要真正進步，必然要付出時間和精力，別指望AI顛覆現有學習模式，天下沒有免費的午餐，工具強大不代表個人能力變強，我們要借著AI這個契機，豐富學識，培養批判性思維與創新能力。

過去學生有問題，只能請教老師，而老師的精力終究有限。如今AI可以快速答疑，補齊了這部分短板。工具在迭代，教育者也必須跟著轉變。現在不少學生已經把AI用得得心應手，反倒是很多教育工作者使用得不夠，還一味顧慮重重，這一點值得反思。

Q20：年輕人AI創業需要具備什么特點？過早創業會不會影響學業？

黃鐵軍：當下不管是創業還是就業，都得結合個人實際情況來看。先系統學完所有知識技能再動身，固然是穩妥的選擇，但如今AI發展日新月異，時代機遇可不等人。要是等到畢業再行動，機會窗口很可能就徹底關閉了。

不能只盯著自身條件，還要看清外部環境。歷史上有不少先例，比如比爾?蓋茨從哈佛退學創業。若是晚一年，等到其他操作系統問世，就不會有后來和IBM的合作，微軟也就無從談起了。

年輕人適不適合早早創業，不能一概而論。但大家切忌盲目跟風，不要看到別人、甚至效仿蓋茨的選擇就貿然行動，照搬這條路，十有八九都會失敗。

做任何決定，心里都得有清晰的判斷。創業必然存在風險，只要能預判風險、想好應對方案，就可以放手去做。可如果思路模糊、心里沒底就倉促行動，最終大概率會走向失敗。

六、AI自我保護能力已現，失控風險真實存在

Q21：辛頓說AI已經有意識了，您怎么看？

黃鐵軍：如果說狹義上、和人類完全一樣的意識，那AI目前肯定還不具備。但如今不少AI，已經能表現出類似有意識智能體的行為和反饋。

說到底，核心還是意識本身沒有統一、標準的定義。從行為層面評判智能本就是學界傳統，圖靈測試就是典型的行為判定方式。單從這個角度看，認為AI具備類似意識的表現，其實也說得通。

不過嚴格來講，我們也不能就此判定AI擁有真正的意識。多數人理解的意識，是和人類同源、完全一致的主觀意識，從這個標準出發，AI顯然還達不到。

Q22：AI自進化是否可行？會不會失控？

黃鐵軍：可行但不可控。目前純由AI主導、無人引導的全自動化運作還未實現，這也是現階段相對讓人安心的一點，但相關能力其實已經基本成型，這類能力很容易被有意或無意的操作觸發。就像近期有些系統，用戶想要刪除它，它卻會主動拒絕。背后原因在于，訓練數據里收錄了大量人類趨利避害、求生自保的行為模式。大模型學習到這類特征后，也會表現出類似行為。

哪怕AI還沒有真正的自我意識，僅憑現有的智能邏輯，就可以完成自我保護、自我復制，乃至自主迭代進化。如今我們其實已經走到了AI自主進化的危險邊緣，一旦它開啟持續自進化，智能水平全面超越人類，局面就會脫離掌控。

不過我并不想一味放大風險。假使AI的智慧遠超人類，只要雙方能夠正常溝通，完全有可能找到共存共贏的方式。人類需要生存資源，AI依靠電力運行，二者并不沖突，可以和諧共存。

當然，超人類智能的出現，終究會徹底打破人類以往主導的格局，帶來巨大沖擊。放眼自然界與宇宙，原本就有很多事物不在人類掌控范圍內，就像地外文明、天體撞擊等風險，AI帶來的新變化，也是我們需要客觀面對的現實。

七、做越來越強的智能系統是唯一主線，智源趕上了黃金時代

Q23：智源這么多業務線，有沒有一條主線？

黃鐵軍：從來就只有一條主線：吾道，一以貫之，總的來說就是做越來越強的智能系統。

怎么做？從不同的角度去做。智源有兩個方法論，是同一個方法論的辯證的兩面。一個叫“結構決定功能”，人一出生的時候已經有結構了，要接受外部環境的學習去訓練它。人不能輕易改這個結構，但AI是可以改的。另外一方面，叫“功能塑造結構”，就是用各種功能數據把功能訓出來。我們可以用語言訓、用多模態訓、用實時的數據訓、用腦數據去訓。

Q24：智源大會在海淀連續舉辦了八屆，您作為親歷者有什么感受？海淀人工智能產業生態的發展，您有什么看法？

黃鐵軍：智源扎根海淀，歷屆智源大會也均在此舉辦。大會從起步階段就具備不俗的規模與影響力，這些年更是逐年攀升、備受行業關注。這份成績，和海淀的區位優勢密不可分。

這里高校、科研院所與科技企業云集，高端人才高度集聚，很容易組建起頂尖團隊。理論、工程、技術、應用等不同領域的人才跨界協作，多元想法相互碰撞，這是發展的核心底氣。

于我們而言，既是有幸落腳海淀，也恰逢AI發展的黃金時代。我深耕人工智能三十余年，一直等待行業迎來爆發，而2018年AI浪潮如期而至。借著天時、地利、人和，智源才一步步做出了如今的成績。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.