![]()
作者 | 鄭敏芳
編輯 | 松壑
日前,小米宣布基于MiMo大模型推出“miclaw”并部署于音箱等終端,支持語音喚醒與多輪對話。
這有望突破小愛同學“聽不懂、接不上”的理解瓶頸,通過近乎“零門檻”的自然語義交互,推動大眾市場的AI體驗實現實質性提升。
依托龐大的IoT設備基數,小米有望規模化捕獲高價值的“決策軌跡數據”,為MiMo大模型的調用提供訓練場;
從行業層面來看,這一趨勢并非個例。除了小米,華為、百度等都在積極接入claw音頻互動功能,以此提升用戶調用Agent的積極性。
在“入口驅動數據生成、交互反哺模型優化”的邏輯下,一場圍繞語音入口、執行能力與數據閉環的競爭正在加速展開。
![]()
一
軌跡數據的稀缺性
智能音箱或語音助手早已不是新物種。
行業面臨的現實尷尬是,“小愛同學”等語音助手受限于傳統技術,過去往往只能充當執行“定鬧鐘”、“切歌”等單向指令工具。
一旦用戶的表達模糊或需求復雜,這些語音助手就容易暴露出“聽不懂、接不上”的短板,導致智能體驗大打折扣。
隨著大模型技術的應用,這一行業現狀正在發生實質性改變。
小米基于MiMo大模型推出的“miclaw”,不僅覆蓋了PC與Mac端,還將其部署在其有屏音箱上。
音頻版的“miclaw”首要解決的痛點便是提升產品體驗的智能化程度。
小米音箱計劃最新上線的miclaw已支持用戶通過一句話下達復雜任務指令,具備語音喚醒與多輪對話的功能,并支持調用手機、PC執行。
這意味著,未來的小米音箱將不再只是機械的“一問一答”式指令接收器,有望結合上下文記憶,深度挖掘并理解用戶的“言外之意”,進而在復雜、日常甚至口語化的語境中,執行更為復雜的任務。
除了小米,百度小度音箱、華為的小藝claw等均已在不同維度上接入了語音交互功能。
在不少行業人士看來,大廠相繼在硬件中接入音頻版claw底層的商業邏輯是這種不需要學習菜單,不需要注視屏幕的近乎“零門檻”交互,可以最大限度地降低AI的交互門檻,真正打入大眾市場的基本盤。
“這樣的話會使得整個入口更加自然,使用門檻降低,相當于家庭成員都可以體驗,AI能夠盡快融入到生活日常中。”北京某大廠的架構師向全天候科技解釋。
事實上,為了支撐這種近乎“零門檻”的自然交互,小米本身也在積極加入對音頻等多維度數據的底層訓練。
早在小米2025年12月發表的一篇名為《Xiaomi MiMo-VL-Miloco Technical Report》的文章中就明確指出:未來,小米將進一步依托其硬件生態,將音頻、毫米波信號等更多感知模態納入統一的多模態學習框架。通過對多類異構感知輸入進行聯合推理,最終實現全方位的家居場景理解與精細化空間感知。
![]()
要實現從多模態感知到端側部署的全面落地,離不開海量硬件設備所提供的數據土壤與應用環境,而這確實是小米的優勢。
截至2025年末,小米AIoT平臺已連接的IoT設備數(不包括智能手機、平板及筆記本電腦)達到10.79億臺,同比增長19.3%,同期米家APP、小愛同學的月活躍用戶數分別1.13億、1.6億。
龐大的設備基數所帶來的規模效應,使得小米更有利于實現對高價值“決策軌跡數據”的規模化抓取與持續沉淀。
在真實的物理世界中,Agent調用工具、執行設備控制的決策軌跡數據極為稀缺。
傳統的軟件系統或基礎智能家居,往往只記錄最終的“執行狀態”,但真正能夠驅動AI自主運行的是捕捉“為什么這么做”的決策鏈條。
高價值的決策軌跡數據不僅包含執行結果,更涵蓋了觸發該動作的完整上下文。
例如理想情況下,系統記錄下“由于光線傳感器識別到環境變暗,且門鎖日志顯示用戶剛剛歸家,因此決定開啟客廳燈光并拉上窗簾”。
這種融合了多模態環境輸入、觸發規則和動作輸出的完整信息,是指導Agent進行復雜決策的關鍵素材。
要獲取這類數據,系統必須身處用戶的“執行路徑”之中,才能在決策發生的第一時間完成捕獲。
小米龐大的AIoT設備網絡,實質上構成了消費級物理世界中覆蓋面極廣的執行路徑。通過海量設備的日常協同,這些單次的決策軌跡被持續沉淀,有望交織成一張動態的“上下文圖譜”。
這能夠客觀呈現用戶在不同時空下的作息規律、溫度偏好及跨設備調用習慣。隨著數據閉環的不斷完善,系統便具備了更高的預判能力。
不過有效數據的實際產出率仍然取決于用戶的使用情況,例如用戶是否有足夠的動力設置復雜自動化場景等。
二
新的入口戰
圍繞語音等交互入口,各類claw產品正加速落地。
百度claw、華為小藝claw等均在不同硬件上實現了語音交互能力的接入,并逐步從單輪指令響應,向多輪對話與任務執行能力演進。
阿里旗下的天貓精靈雖未冠以“claw”之名,但也在其全屋智能2.0方案中深度融合通義大模型能力,構建出“空間智能Agent”,進行智能化決策。
當語音入口逐漸被Agent化,缺席即意味著在下一代人機交互體系中失去關鍵位置。
這一輪集中布局背后是一次圍繞“使用門檻與數據積累”的前置競爭。
作為最接近自然語言的交互方式,語音本質上承擔著降低用戶使用成本、提升滲透率的角色,讓設備交互變得更加無縫。
只有當用戶在日常場景中頻繁使用Agent,各家廠商的模型才能持續獲得真實的任務請求與執行反饋,從而不斷優化決策與執行能力。
正因如此,當前階段的核心在于是否能夠讓用戶“先用起來”,通過高頻使用形成數據閉環,再反向推動能力迭代。
在這一過程中,入口演化為連接用戶行為與模型進化的關鍵基礎設施,這已經在部分產品形態中出現苗頭。
在一些頭部廠商的實踐中,語音不再只是觸發單一設備或功能,而是開始承接跨設備的連續任務。
例如,用戶用一句相對模糊的表達發起請求,系統會在后臺拆解意圖,并聯動多個終端完成一整套動作。
在這一過程中,被調用的不再是某一個具體設備,而是一整條由系統組織起來的執行鏈路。
當交互從“點狀指令”轉向“任務鏈路”后,語音的角色不僅局限于降低使用門檻的入口,還成為實際承擔任務調度的起點。
用戶不再顯式選擇應用或設備,而是將需求交由系統統一分發。
這也使得入口競爭的重心發生偏移。廠商爭奪的不僅限于用戶是否開口使用語音,而是這些請求最終由誰來拆解、由誰來決定調用路徑。
一旦這一環節被第三方承接,即便硬件仍在原廠商手中,服務分發與用戶決策路徑也可能逐步外移。
不過,在多方競逐之中,不同廠商的底層稟賦差異開始放大。
和小米類似,華為的重要優勢在于更加自研化的操作系統與硬件生態,早在2024年鴻蒙生態設備規模便已進入9億級量級,小藝能力覆蓋手機、平板、可穿戴及智能家居等多類終端,形成跨設備的統一交互網絡。
這種“入口即數據、設備即執行”的競爭邏輯也在反向塑造互聯網廠商的策略選擇。
例如字節跳動在大模型與應用層具備優勢,但在終端入口與系統級調度能力上相對薄弱。
由于在Agent逐步從“對話能力”走向“執行能力”的過程中,僅依賴App形態難以深度嵌入用戶的日常決策路徑,也難以獲取高頻、連續的任務反饋數據,字節跳動去年以來便頻繁與手機廠商洽談“豆包手機”的合作路徑。
2026年,AI能力的比拼正在從“交互競爭”走向“執行競爭”。
*本文為全天候科技原創作品,未經授權不得轉載,如需轉載,請在后臺回復“轉載”二字,獲取轉載格式要求。
![]()
![]()
點“在看”,變好看哦。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.