![]()
人物檔案:周鑫,90后女企業家,半導體芯片、具身智能硬科技賽道PE投資人。年化300%+收益股票操盤手,南京財經大學客座教授,獲得南京財經大學首批校友成就獎。
AI是塑造當今世界的最強大力量之一,在大眾的認知里,AI是一款智能應用或單一模型,但其實它如同電力和互聯網一樣,是未來不可或缺的基礎設施。AI的未來是我們每一個人需要思考的問題,要理解AI的未來,審視計算領域發生的根本性變革,最好的方法是回歸第一性原理,即從最初原理出發進行思考。
作為一名長期從事國內外前沿科技的投資人,我清醒地認識到現在已經處于AI覺醒前夜。我們正在真正見證的不單單是算法的進化,更是一場“AI如何落地現實”時代革命。
那么,決定AI從實驗室走向萬億實體產業的根本因素是什么?
回答是:具身智能。本文我也將從黃仁勛的五層架構中的“應用層、模型層、基礎設施層”這三層來切入,回到AI的本質,回到產品的本身,來分析討論算法的進化,AI智能成為如何實現走進千家萬戶媒介。
![]()
具身智能執行端硬件實現領先
“應用層”是經濟價值真正產生的地方,例如:具身智能、自動駕駛汽車、工業機器人等等。
2026正式進入了具身智能的“上市大年”,在通用智能算法還沒成熟之前,打造一個“好身體”是具身智能的基礎,具身智能有兩個明確的發展方向,一個是大腦任務拆解和操作能力,另外一個是運動能力即小腦層面。春晚展示了我們國家數一數二的人形機器人產品的運動能力,跑步、跳躍、保持平衡、適應復雜地形,G1機器人的運動能力毋庸置疑已經達到國際頂尖水平,機身、機械臂、執行器高端精密制造得到了全球的認可。
從投資角度看,具身智能板塊在運動能力上尚有較大想象空間的是靈巧手。靈巧手也被稱為具身智能的“入口”,核心難點在于——引導這只手去實現想要的功能。比如馬克杯與玻璃杯,生雞蛋與熟雞蛋施加的壓力不相同,相同型號的手采來的數據可能不一樣,一旦涉及精細和定向操作,就非常依賴于硬件的穩定性和一致性。
我們目前建議關注基于視覺的觸覺傳感器,與視覺同源,適合融入模型端,它有更高的分辨率,為融合感知提供了新路徑,這是我們投資人就靈巧手比較看好的方向,整個行業從硬件到軟件可以突破的空間非常之大。
具身智能的“小腦”已實現全球領跑優越,緊跟上來的就是“大腦”的能力,即AI大模型與具身智能的協同突破,未來3—5年較明確的紅利方向。
![]()
大腦理解世界——從LLM到VLA、世界模型的范式躍遷
機器人能夠跳舞、功夫都是運動控制和本體硬件,讓機器人真正自己動手干活,依靠的還是“大腦”—AI模型。
AI模型發展的分水嶺清晰可見,可以說Open AI的大語言模型路線只走了一半。AI模型終點絕不是止步于讓AI在屏幕里陪用戶對話。大語言模型的文本能力值得肯定,但也暴露了其脫離物理世界的根本局限。語言模型只需學文本內的統計關聯,無需理解物理世界,語言大模型紅利已經吃得差不多,也催生了當下的主流VLA模型。讓AI長出手、長出腳,與機器人物理協同接管這個世界。
VLA—Vision-Language-Action,VLA模型打通了“看見什么”“理解什么”“執行什么”之間的壁壘,而在實踐的過程中,VLA大模型“不夠用”這個問題也很快暴露,VLA本質依靠的仍是大規模情景的訓練數據訓練出來的,但是它并沒有人類的智慧,缺乏泛化能力、真實交互數據不夠,它是個天才執行者,但也只是“執行者”。
從投資的角度,依賴數據與算力堆砌的模型已觸及天花板。短期語言大模型仍是商業主角,變現能力強,需求明確;但空間智能世界模型已成為新的投資焦點,世界模型的潛在價值遠非LLM與VLA所能比擬,這對于全球的投資人而言都是萬億級實體產業空間。
![]()
世界模型的核心是一種因果思想,先讓模型自己內部推演,做了什么動作,會產生什么樣的結果,賦予模型思考,這是與VLA模型最大的區別,而非VLA的看見情景觸發指令。
李飛飛今年讓普通人直觀地明白什么是世界模型。工作人員僅用手機攝像頭掃描了一間辦公室,便在電腦上生成了一個一模一樣高保真的3D模型,一個戴上VR眼鏡可以走進去的真實數字世界。3D世界生成模型Mable展示了給AI一張窗戶的照片,它可以腦補出窗外的“春暖花開”,這些都屬于人類的認知能力。
Real Time Frame Model實時幀模型,在用戶操作的同時實時生成畫面,每一幀都隨著動作幾乎零延遲,這意味著大多數人都可以在AI生成的無限世界里玩游戲,走到哪兒,AI生成到哪兒,這是目前顯存要求最低的實時交互世界模型。
具身智能的落地規模化需要一個模擬世界來練習,那World labs生成的1億個符合物理規律的3D世界就是最好的學校。World labs的出現,標志著AI開始嘗試理解物理,這是通往通用具身智能、能干“體力活”的機器人必經的道路。
World Labs僅僅成立2年已經實現了估值50億美金,是全球空間智能與事件模型賽道的標桿企業。同時全球互聯網科技領域的龍頭Google也在加速布局AI時代,Google的策略是做通用的AI大腦平臺,實現AI大腦泛化落地。
簡單來說就是做一個機器人的安卓平臺,塞進機器人里。平臺擁有世界模型,機器人就有了大腦里的模擬器,可以在數字孿生世界里走到床邊疊被子、開冰箱拿杯子倒水先試錯一萬次。
在虛擬仿真里用海量的數據快速訓練AI/具身智能,協同SIM to real,從虛擬向現實遷移,把學到的策略無縫搬到真實世界,這將解決具身智能行業那個著名的莫拉維克悖論——讓AI做成人級推理很容易,讓AI像一歲孩子奔跑很難。
新的問題出現了,端到端、VLA和世界模型是否矛盾與對立?這個問題已經有了答案,將三者進行融合。
具身智能實現規模化落地,端到端已經成為行業共識,它的核心是模仿學習,模仿學習會產生兩個問題:數據稀缺,無法覆蓋低頻場景;模仿難度太高,不具備因果推理能力。
![]()
解決數據問題,可以使用世界模型,在端到端主干網絡下,用世界模擬器生成虛擬的低頻數據,然后再用強化學習做后訓練;或者構建一個虛擬世界,讓模型在這個世界里訓練解決所有問題,最后在終端實現視頻輸入、控制信號輸出。本質上都是世界模型,但要產生和真實世界一樣的虛擬數據并不容易,時間和成本都是重大阻礙。3D Gaussian Splitting是當下最優選擇。
3D GS將真實場景建造成可訓練、可渲染、可微調的3D場景,再基于真實數據作調整,比如世界模型可以在人打開冰箱的瞬間讓冰箱里的蘋果突然滾落或者杯子掉下來,生成這些是在現實世界里的小概率事件,這樣就解決了低頻場景數據少、生成難以及不準確的問題。
AI要走到AGI關鍵在于數據處理,輸入數據的質量和數量偏差會導致模型出現“幻覺”,輸出會有偏差。對數據處理先行整理清洗,再放入模型訓練,喂給模型的東西才有價值。在數據整理這塊,相信未來還會慢慢跑出幾個主流角色。
然而這只解決了數據稀缺問題,并沒有解決推理能力的問題。又回到了VLA模型推理架構的核心——通過將問題拆解再分而治之的方式,不斷疊加token,層層傳導,讓模型在推導的過程中逐步形成理解能力。
而從3D GS到VLA推理過程都在集成的原生網絡中,在云端實現,終端仍采用端到端模式,以解決架構龐大的問題。端到端模仿學習最核心的低頻數據和推理能力問題就被巧妙化解了,這也是自動駕駛,具身智能行業公認的最優解。通用且擁有預判能力才是具身智能真正的護城河,才有可能實現具身智能走進千家萬戶。
全球資本巨頭已經進入AI行業,2025年全球AI新創吸金占創投總額的48%,瘋狂涌向具備核心技術壁壘的世界模型,世界模型是全球AI投資的“首選賽道”。等到具身智能技術突破的時刻,全世界50%以上的資源也都將涌入進來,AI將是全球經濟最大的驅動因素。作為前沿科技領域的投資人,擅于看到未來5-10年,甚至更長時間的硬科技領域發展趨勢。
投資世界模型,本質是投資AI對物理世界的“直覺”,直覺背后,作為投資人更需要做的就是前瞻每一個與國同行的機會,一路調研跟蹤,夯實對目標行業的認知,抓住每一個細節。真正意義上認識到世界模型的重要地位,是理解物理世界、實現通用機器人能力的核心,是邁向AGI的關鍵方向。市場的突發風險不會阻礙AI科技的進步和突破,不會改變國家繁榮資本市場支持新質生產力發展。
![]()
AI世界的算力底座——數據中心
具身智能“ChatGPT時刻” 的兩大瓶頸,最大的痛點就是上文闡述的世界模型,第二個就是數據,訓練具身智能需要海量的訓練數據,真機采集效率低,而打造世界模型裝下整個世界,則要用能容納世界的機房。
這個機房就是:AI 5-Layer Cake的第三層“基礎設施層”,包括了:土地、電力輸送、網絡連接等,將無數個處理器整合為一臺機器的系統—AI工廠,即數據中心。
世界模型要對物理世界實時、高精度地建模、預測推演,這對于算力、存儲、帶寬都提出了極高的要求,數據中心是其運行的底座,世界模型必須要用到更大更強的數據中心有以下幾個原因。
第一傳統語言大模型以文字為主,互聯網現成的語料庫量大且方便標注,世界模型則需要超大的存儲集群和高速的讀寫架構,1秒高清視頻≈數萬字文本;
第二訓練和推理都需要“巨型算力”,世界模型需要萬卡級GPU/AI芯片集群,才能實現建模物理規則、預測未來多步狀態、高維空間建模;
第三實時性與并行性要求極高,需要超高帶寬、低時延網絡和分布式調度系統,典型場景便是自動駕駛、具身智能;
第四,模型本身在持續暴漲,世界模型是大語言模型、視覺大模型、時序預測模型、物理引擎和世界記憶的集合,單卡/小集群根本跑不起來。
基于以上四點足以論證只有超大規模的數據中心能提供世界模型所需。
根據最新行業數據,截至2025年年底,國內向公眾提供服務的互聯網數據中心機架數量達到93.8萬架,2026年這個數字有望突破100萬。一個萬億級別的市場正在形成,新的增長引擎也一定是AI算力。
世界模型要對物理世界高精度地建模、預測推演,這對于算力、存儲、帶寬都提出了極高的要求,數據中心是其運行的底座,世界模型必須要用到更大更強的數據中心。世界模型不同于大語言模型,輕資產、變遷快,它的商業化的節奏相對會緩慢穩健,走的重工業路線。“算電協同”今年也是首次被明確列為新基建工程,戰略高度實現了從技術探索到國家頂層設計的躍升。
投資人在調研數據中心標的時需要重點關注每家公司的“AI工廠效率”來評估核心競爭力,挖掘正在觸發戴維斯雙擊的優質企業,嚴謹嚴格考核該企業的安全墊護城河,基本面、產業邏輯,發現技術突破、研究上下游廠家反饋、發掘業績拐點做安全底座,站在時代的角度布局,判斷企業想象空間,只有做到產業研究和企業邏輯全方位了解才能對是否投資做出抉擇。
此外,面對AI模型、數據中心的周期長、部署復雜、驗證成本高這些特性,要求我們投資者必須具備韌性。一旦踏上AI革命的這條道路,那就不可能一帆風順,必須不斷打碎自己再重新拼湊,感謝每一個挫折,韌性鍛造品格,品格成就偉大。
![]()
結語:抓住機遇,等待全棧AI生態的黎明
Open Claw已經打開了智能體計算時代,企業已經走向智能體,具身智能正在規模化落地,自動駕駛、工業機器人、人形機器人共同構成Physical AI的下一個重大機遇。時代催促著人類將目光聚焦Physical AI、世界模型、具身智能、算力、電力、芯片、生物制藥、創新藥這些確定性高的前沿科技領域。
互聯網革命、移動云革命各自孕育出一批劃時代的企業,AI變革時代的開發者正在不斷創造新場景并取得突破,一批極具影響力的公司也正在構建一個互利共贏的生態鏈,用生態的力量加速構建AI智能時代。
世界模型成熟,具身智能一夜之間覺醒,AI生態徹底大爆發,這會是跨時代級的意義。到那時全球GDP高速增長、通脹下行,AI讓我們人類徹底解放出來,人們可以做自己想做的事情,勞動力成本趨近于零,解決人類無法解決的復雜情況,生產力無上限,實現真正意義上的全民高收入,全棧AI生態繁榮。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.