2024年被稱為“人形機器人元年”,整個具身智能行業一直在期待如ChatGPT般的技術突破。隨著螞蟻靈波開源其通用大模型LingBot-VLA,這一領域的競爭正式告別了過去“論文與Demo”的概念階段,邁入“代碼與真機”的工程化實戰時代。
長期以來,場景碎片化是制約具身智能發展的核心瓶頸。不同機器人、不同任務往往需要重復采集數據與訓練模型,嚴重拖慢了行業整體進展。開源通用模型的出現,成為打破僵局的關鍵轉折。2024年硅谷公司PI發布的開源模型Pi0.5,不僅提供了可運行模型,更樹立了“可工程化、可標準化、可二次開發”的行業共識,其在GitHub收獲近萬星標,也重新定義了開源的內涵——開源不再是技術態度的展示,而必須轉化為“可用、可改、可量產”的實際價值。
![]()
在這一背景下,螞蟻靈波于2025年1月開源的LingBot-VLA,將競爭推向深水區。此次開源并非僅僅公開模型權重,而是一次性釋放完整訓練工具鏈與代碼庫,直面模型在真實機器人上穩定運行的終極考驗。
LingBot-VLA的核心突破在于跨本體泛化能力的顯著提升。該模型基于2萬小時真實世界數據進行預訓練,覆蓋單臂、雙臂、人形等9種機器人構型,實現了同一模型在不同硬件之間的有效遷移。在RoboTwin 2.0仿真測試的50項任務中,其成功率較Pi0.5提升約9.92%;在真機演示中,模型能夠完成玻璃瓶插花、餐具清潔收納等需要精細觸覺與空間協調的復雜任務,并能有效應對透明物體、柔軟材質等傳統視覺難題,顯示出更強的環境理解與應變能力。同時,其在訓練效率上達到同類主流框架的1.5–2.8倍,為后續規模化落地奠定基礎。
開源模型的密集涌現,正深刻重塑行業生態。對硬件廠商而言,通用模型大幅降低了算法門檻,使其能聚焦于本體創新與場景適配;對應用開發者來說,基礎能力的標準化讓創新重心從底層算法轉向場景理解與交互設計;對行業整體而言,Pi0.5、LingBot-VLA等模型構建了統一的技術基準,推動資源向有效方案集中,加速整體迭代。
![]()
當然,開源并非唯一路徑。特斯拉、Figure等企業堅持的軟硬一體閉環路線,在特定場景下可實現端到端深度優化。兩者并非替代關系,而是不同階段、不同場景下的差異化選擇。與此同時,硬件成本逐步下行,宇樹科技G1等人形機器人價格已進入10萬元區間,硬件的普及將進一步凸顯模型與算法的核心價值。
![]()
具身智能的終極圖景尚未完全清晰,但開源模型的集體崛起,標志著行業已從技術想象期進入真實摩擦期。從Pi0.5到LingBot-VLA,它們的價值不僅在于技術性能,更在于共同構建了一個可參照、可迭代、可協作的開放環境。這場開源競賽沒有輸家——每一條被驗證的路徑、每一個被排除的彎路,都在推動整個行業向通用具身智能穩步邁進。而最終的答案,必將由在真實場景中反復調試的工程師、在生產線部署系統的技術員、以及每一位體驗服務機器人的用戶共同書寫。開源,正讓這場探索變得更開放、更高效。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.