IT之家 5 月 12 日消息,科技媒體 Appleinsider 昨日(5 月 11 日)發(fā)布博文,報(bào)道稱基于最新公開的 3 項(xiàng)研究,蘋果仍在積極推進(jìn)空間計(jì)算和 Vision Pro 頭顯。
IT之家 4 月援引 MacRumors 媒體報(bào)道,蘋果公司內(nèi)部已擱置研發(fā)新款 Vision Pro,團(tuán)隊(duì)重心轉(zhuǎn)向 Siri 和 AI 智能眼鏡。
但從最新公示的研究論文來看,蘋果公司并未放棄 Vision Pro 頭顯項(xiàng)目,本輪公開了 3 項(xiàng)研究,分別涉及多模態(tài)大模型空間推理評測、美式手語視頻標(biāo)注,以及 3D 頭部重建。
其中最直接的一項(xiàng),是蘋果在機(jī)器學(xué)習(xí)博客發(fā)布的《From Where Things Are to What They’re For:Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》。
這篇論文提出 SFI-Bench,用來測試多模態(tài)大模型是否既看懂空間布局,也理解物體“能做什么”。原文提到,這套視頻基準(zhǔn)包含 134 段室內(nèi)視頻掃描,并整理出 1555 道專家標(biāo)注問題。
SFI-Bench 不只問模型“這是什么、在哪里”,還會追問“它怎么用、出了故障怎么辦”。例如,模型可能需要從柜子里找出同品牌數(shù)量最多的一組瓶子,理解洗衣機(jī)當(dāng)前程序如何取消,或者判斷電視遙控器的用途。相比只測空間識別的舊方法,這更接近日常家庭場景,也更像未來空間助手需要處理的真實(shí)任務(wù)。
![]()
蘋果公司的人工智能研究人員測試了智能體(LLM)對周圍世界的理解能力。圖源:蘋果公司
測試結(jié)果顯示,Google Gemini 3.1 Pro 總分最高,OpenAI GPT-5.4-High 排名第二,Gemini-3.1-Flash-Lite 排名第三。
但論文也點(diǎn)出共同短板:幾乎所有模型都不擅長“帶條件的全局計(jì)數(shù)”,并且在空間記憶、功能知識整合,以及把眼前畫面和外部知識連起來這幾件事上仍有明顯限制。
手語論文《Bootstrapping Sign Language Annotations with Sign Language Models》嘗試用 AI 自動生成候選標(biāo)注,減少數(shù)百小時手工標(biāo)注成本。
![]()
蘋果公司的研究人員探索了使用人工智能進(jìn)行美國手語(ASL)標(biāo)注的可能性。圖源:蘋果公司
原文稱,團(tuán)隊(duì)建立了近 500 條人工英文字詞到術(shù)語標(biāo)注,并擴(kuò)展到超過 300 小時 ASL STEM Wiki 和 7.5 小時 FLEURS-ASL 數(shù)據(jù)。其手指拼寫模型在 FSBoard 上達(dá)到 6.7% CER,在 ASL Citizen 數(shù)據(jù)集上達(dá)到 74% top-1 準(zhǔn)確率。
第三項(xiàng)研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》則聚焦 3D 頭像重建。
![]()
蘋果公司的人工智能研究人員探索了如何利用 LLM(層級建模)技術(shù),從多角度拍攝的圖像中創(chuàng)建 3D 頭部模型。圖源:蘋果公司。
蘋果提出 HeadsUp 方法,可從大規(guī)模多攝像頭采集中重建高質(zhì)量 3D Gaussian 頭部模型。測試使用了一個超過 10000 名受試者的內(nèi)部數(shù)據(jù)集,規(guī)模比現(xiàn)有多視角人頭數(shù)據(jù)集高一個數(shù)量級。這可能和 Vision Pro 的 Persona,或 visionOS 中更自然的人臉捕捉與表情渲染有關(guān)。
蘋果公司全球營銷高級副總裁格雷格 · 喬斯維亞克(Greg Joswiak)此前表示,Vision Pro 展示了數(shù)字世界與物理世界融合的未來形態(tài),這種融合具有必然性。當(dāng)被問及具體時間表時,他坦言無法預(yù)測“空間計(jì)算”何時能成為主流,但堅(jiān)信這一方向不可逆轉(zhuǎn)。
參考
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.