網易首頁 > 網易號 > 正文申請入駐

戴上 800 塊的 AI 項圈，就能聽懂喵星人的話？

2026-05-26 18:12:08　來源: AppSo

廣東舉報

分享至

哪個鏟屎官不想在自己的小貓小狗發出聲音時，聽懂它到底想說什么；或者是讓它們聽懂人類的語言。

杭州一家名為「萌小譯」的公司最近推出了一款產品， 800 塊就能實現我們和寵物之間的雙向翻譯，并且準確率達到了 94.6% 。

通過一個兼具收音與播放功能的 AI 項圈，結合手機 App，AI 項圈會把小貓小狗的聲音轉成文字顯示在 App 內的對話框，用戶可以在對話框發送消息，項圈會發出「喵喵」或「汪汪」的語言，以此讓寵物「聽懂」人類的話。

聽著就特別不靠譜，畢竟類似的產品，我們在微信小程序里面隨便一搜就有一大堆。有些很直接地寫著「僅供娛樂，請勿認真」，有些一樣用著 AI 的旗號，主打通過錄音用 AI 分析情緒。

如圖中的 AI 寵語翻譯，就是利用 Qwen-Omni 大模型驅動

另一方面是，貓貓狗狗說的什么，我們根本無從驗證。翻譯器大可用一句不太會出差錯的通用場景，例如「我餓了」、「我想出去了」、「我不舒服了」、「有人來了」之類的表達。

而將我們說的話翻譯成貓言狗語，大概也會因為寵物的認知有限，導致驗證失敗。

但就是這么「玄」的一件事，還有指標可以用來衡量，而且做到了 94.6 %。

PettiChat 官網：pettichat.com

萌小譯推出的 AI 項圈還在 X 上引起了不少的熱度，網友們都在討論這家來自中國的 AI 寵物翻譯初創公司。也有網友直接說「 95%的準確率是基于你能核實他們所說的話的前提，而你根本無法核實。所以這純粹是胡扯，哈哈。 」

盡管伴隨著一些爭議，但 PettiChat 還是很受歡迎，在眾籌平臺 Kickstarter 上已經成功募集到了 863 名支持者，認繳金額達到了 14 萬港幣。

在眾籌階段，產品售價是 119 美元，約合人民幣 800 元，眾籌結束后目前海外售價是 149 美元。

而在微信小店的記錄，該產品以 799 的預售價格，顯示有 190 人已購買。在商品的評論區，有用戶貼出了買家秀，表示「 偶爾能聽聽毛孩子的想法很有意思 」。

這些翻譯的寵物語言，也是相當的人性化。不僅有大量的語氣助詞「嘛～」、「吶」、「喂」、「咦」、「嘿嘿」、「呀呀」、「呼呼」，還有「不客氣」、「別把我忘了」這種情緒感拉滿的表達。

寵物真的能懂這么多信息嗎

所以，PettiChat 的準確率到底是怎么衡量的，這些同類型的產品是不是一種智商稅。

一直被懷疑，一直在更新的寵物翻譯設備

2002 年，日本玩具公司 Takara 推出了 BowLingual，一款狗狗「情緒翻譯」項目。

它的工作方式很簡單：麥克風錄音，然后把狗叫歸類成幾種情緒狀態，比如「開心」「焦慮」「生氣」。原理接近噱頭，但它真的賣出去了，還獲了搞笑諾貝爾獎，評語說的是「 它實現了人犬和平交流，所以獲得和平獎 」。

二十年后，類似的 AI 工具層出不窮，開頭提到的那些小程序，還有專門的應用，都開始利用機器學習來分析貓叫，給每一聲叫聲打上標簽。

年初的 CES 展會，Traini 也推出了一款 AI 項圈，定位是「人對狗」的單向翻譯。我們說話，它轉成狗能理解的聲學信號。

跟寵物建立溝通的欲望仿佛一直都沒有被澆滅，隨著技術的演進，反而讓我們越來越相信和貓貓交流是有點可能。

這次引起大家關注的 PettiChat 比以前的產品多做了一件事：它拿出了一套測試數據。

外觀上看，PettiChat 重 27 克，夾在項圈上，確實不會對寵物造成額外的負擔。

在這個小小設備里，還有邊緣計算芯片直接處理音頻，延遲最低 40 毫秒。它不需要持續聯網，只在分析聲音時短暫調用云端資源。還有其他能力像是 IP65 防水，一次充電支持 1000 次翻譯，和 100 小時 GPS 追蹤。

它們在眾籌平臺上的宣傳提到，所使用的聲學模型背后是超過 150 萬條寵物叫聲樣本，結合動物行為學的同行評審研究。最終達到的成果是，僅憑聲音模式識別情緒狀態，準確率達到 91-92%，加入姿態監測維度之后，實驗室條件下綜合準確率達到 94.6%。

500 萬+的寵物聲紋數據

在眾籌頁面有兩張不太清晰的宣傳圖，列出了這些數據是在哪些基準上進行測試的。我們拿著放大鏡看，發現其中提到了兩篇論文。

一篇是來自多媒體頂會 MM 2025 的 DogSpeak，犬類發聲分類數據集。

作者在這篇文章里，提出了一個大型狗叫聲數據集 DogSpeak，目標是研究能不能只靠狗的叫聲判斷狗的性別、品種，甚至是哪一只狗。

它的數據來源是 YouTube、TikTok 等社交媒體上的狗視頻。作者先用哈士奇、吉娃娃、德國牧羊犬、比特犬、柴犬五個品種去搜視頻，然后根據頻道信息、標題、評論等確認狗的身份、性別、品種。

最后得到了 156 只狗、5 個品種、77202 段狗叫序列、33.162 小時純狗叫聲。這些數據都沒有標注不同的聲音代表狗狗在做什么，也沒有添加任何的情境信息。

文章的實驗任務主要是通過聲音序列，來判斷狗狗的性別、品種和識別具體是哪一只狗。而實驗結果顯示，單就這些任務，也沒有想象中容易。 單純依靠「純聲學特征」，是很難完美解決真實復雜環境下的狗叫聲識別。

可以考慮結合表情

作者在文末建議未來的研究應該跳出傳統音頻技術的舒適圈，去探索更高級的結構性、韻律性、甚至是犬類潛在的「語言學」特征。

另一篇論文同樣是來自 MM，2014 的城市聲音研究的數據集和分類法。這是城市環境聲分類領域的經典數據集論文，核心貢獻是 UrbanSound8K 數據集和城市聲音分類法。

作者把城市聲音分成人聲、自然、機械、音樂等大類，再細到狗叫、汽車喇叭、警笛、鉆孔、空調、街頭音樂等具體聲音源。

PettiChat 引用了這兩篇論文的數據集進行測試，以及聯合浙大動科院積累了 500萬+寵物聲紋數據，大約150萬條標注，同時在數據集上增加了 UrbanSound 的環境聲音，以確保在真實環境的魯棒性。

PettiChat 所使用的模型，是基于阿里云通義千問大模型。而參與測試的模型包括沒有經過預訓練的 Qwen2-Audio、Qwen2.5-Omni-7B、Qwen3-Omni-30BA3B，以及小米 Mino-V2-Omni。

他們根據這些聲紋數據和 UrbanSound 8K 做了一個很大的獨立測試集，里面有「疊加過背景噪音的寵物叫聲音頻樣本」，比如一段狗叫或貓叫，疊上電視聲、車流聲、家電聲、街道聲等，做成更接近真實生活的混合音頻。

以及各種各樣的噪音樣本，這些可能是不含寵物聲音的背景聲，用來測試模型會不會把普通噪音誤判成寵物叫聲。

這些既有帶噪聲的寵物叫聲，也有純噪聲/非寵物聲音，只是被用來測試模型能不能在復雜真實環境里準確識別寵物聲音。Petti 模型的表現在這一項測試下，達到了平均 98.6% 的識別/檢測層面的準確率。

計算準確率的方式是「是否識別寵物聲音」，而不是在測試「能不能翻譯寵物在想什么」。

在另一項測試中，沒有其他的對比模型，也沒有列明具體的測試集，只是使用 PETTI-260315 這一模型，測試了其在貓/狗情境聲音識別中的準確率。

貓貓的分類標簽包括了攻擊/敵對、顫音/社交親近、叫喚請求/急迫、防御性打斗行為、防御性威脅、捕獵意圖/潛伏、痛苦/壓力叫聲、環境干擾、呼嚕/休息。這些數據一共有 19 萬條，是經過專家檢查過的貓貓聲音情境測試數據。

狗狗同樣是用了 8.4 萬條專家檢查過的狗聲音情境測試數據，里面的分類標簽也包括了攻擊/敵對、節律性發聲、遠距離呼叫、分離焦慮、環境干擾、領地警戒、服從/安撫。

針對這些情境的測試，貓貓的平均準確率達到了 94.6%，狗狗是 92.3%。

而標記這些聲音屬于哪一種情境，在他們的眾籌宣傳文章里面還提到了 Video Ground Truth 這個概念。

它的意思是用視頻中的行為、環境、姿態、主人互動等作為標簽來源，去對齊寵物聲音和場景。

比如視頻里狗對門口陌生人叫，這段聲音就會被標記成 alert / stranger detected；當貓靠近食盆叫，這段聲音序列就被標成 food seeking。

所以，本質上 94.6% 是寵物聲音情境分類準確率， 而不是我們所理解的一句寵物語言翻譯成人類語言的準確率。

但翻譯成人類語言是真的有機會實現嗎？就拿這個模型來說，它輸出的原始結果，可能只是一個標簽。

比如一段狗叫被識別為「領地警戒」，這在測試里可以算作一次分類正確。但到了 App 里，它顯示的是「有人來了，我要守住這里。」

一段貓叫被識別為「急迫性請求叫聲」，應用里彈出的對話也會是更個性化的「快看看我嘛，我有點著急。」

從「行為標簽」到「擬人化翻譯」的再加工，它反而讓產品變得好玩、親切，也更像真的在對話。但嚴格來說，這部分根本不再是那 94.6% 可以直接覆蓋的范圍。

因為測試集里的標準答案大概率不是一句自然語言。這些模型只需要判斷這段聲音更接近「分離焦慮」、「領地警戒」、「呼嚕休息」，并不需要證明寵物真的想說「別把我忘了」或者「我想親親你的手」。

這也是所有寵物翻譯產品最微妙的地方，它可能不是騙子式的隨機翻譯，但也還遠不是我們想象中的寵物語言翻譯器。

我們正在招募伙伴

簡歷投遞郵箱 hr@ifanr.com

?? 郵件標題 「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

AppSo

讓智能手機更好用的秘密

6479文章數 26848關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

手機

藝術

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

戴上 800 塊的 AI 項圈，就能聽懂喵星人的話？

剛剛，人類歷史上首位萬億美元富豪誕生！

SpaceX上市首日收漲19% 總市值報2.1萬億美元

SpaceX上市首日收漲19% 總市值報2.1萬億美元

歐洲恐韓？肉德維德？

一天4個瓜，肖戰熱巴最意外

萬億美元順差背后，透露這些信號

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

AK劉彰邂逅河北南大港濕地

vivo X Fold6再預熱：天璣9500超能版+OriginOS 6 Fold

砸了640億，再賠160億！沙特“The Line”項目徹底涼了？

伊朗媒體：已故最高領袖葬禮推遲舉行

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起