哪個鏟屎官不想在自己的小貓小狗發出聲音時,聽懂它到底想說什么;或者是讓它們聽懂人類的語言。
杭州一家名為「萌小譯」的公司最近推出了一款產品, 800 塊就能實現我們和寵物之間的雙向翻譯,并且準確率達到了 94.6% 。
![]()
通過一個兼具收音與播放功能的 AI 項圈,結合手機 App,AI 項圈會把小貓小狗的聲音轉成文字顯示在 App 內的對話框,用戶可以在對話框發送消息,項圈會發出「喵喵」或「汪汪」的語言,以此讓寵物「聽懂」人類的話。
聽著就特別不靠譜,畢竟類似的產品,我們在微信小程序里面隨便一搜就有一大堆。有些很直接地寫著「僅供娛樂,請勿認真」,有些一樣用著 AI 的旗號,主打通過錄音用 AI 分析情緒。
![]()
如圖中的 AI 寵語翻譯,就是利用 Qwen-Omni 大模型驅動
另一方面是,貓貓狗狗說的什么,我們根本無從驗證。翻譯器大可用一句不太會出差錯的通用場景,例如「我餓了」、「我想出去了」、「我不舒服了」、「有人來了」之類的表達。
而將我們說的話翻譯成貓言狗語,大概也會因為寵物的認知有限,導致驗證失敗。
但就是這么「玄」的一件事,還有指標可以用來衡量,而且做到了 94.6 %。
![]()
PettiChat 官網:pettichat.com
萌小譯推出的 AI 項圈還在 X 上引起了不少的熱度,網友們都在討論這家來自中國的 AI 寵物翻譯初創公司。也有網友直接說「 95%的準確率是基于你能核實他們所說的話的前提,而你根本無法核實。所以這純粹是胡扯,哈哈。 」
盡管伴隨著一些爭議,但 PettiChat 還是很受歡迎,在眾籌平臺 Kickstarter 上已經成功募集到了 863 名支持者,認繳金額達到了 14 萬港幣。
![]()
在眾籌階段,產品售價是 119 美元,約合人民幣 800 元,眾籌結束后目前海外售價是 149 美元。
而在微信小店的記錄,該產品以 799 的預售價格,顯示有 190 人已購買。在商品的評論區,有用戶貼出了買家秀,表示「 偶爾能聽聽毛孩子的想法很有意思 」。
這些翻譯的寵物語言,也是相當的人性化。不僅有大量的語氣助詞「嘛~」、「吶」、「喂」、「咦」、「嘿嘿」、「呀呀」、「呼呼」,還有「不客氣」、「別把我忘了」這種情緒感拉滿的表達。
![]()
寵物真的能懂這么多信息嗎
所以,PettiChat 的準確率到底是怎么衡量的,這些同類型的產品是不是一種智商稅。
一直被懷疑,一直在更新的寵物翻譯設備
2002 年,日本玩具公司 Takara 推出了 BowLingual,一款狗狗「情緒翻譯」項目。
![]()
它的工作方式很簡單:麥克風錄音,然后把狗叫歸類成幾種情緒狀態,比如「開心」「焦慮」「生氣」。原理接近噱頭,但它真的賣出去了,還獲了搞笑諾貝爾獎,評語說的是「 它實現了人犬和平交流,所以獲得和平獎 」。
二十年后,類似的 AI 工具層出不窮,開頭提到的那些小程序,還有專門的應用,都開始利用機器學習來分析貓叫,給每一聲叫聲打上標簽。
![]()
年初的 CES 展會,Traini 也推出了一款 AI 項圈,定位是「人對狗」的單向翻譯。我們說話,它轉成狗能理解的聲學信號。
跟寵物建立溝通的欲望仿佛一直都沒有被澆滅,隨著技術的演進,反而讓我們越來越相信和貓貓交流是有點可能。
這次引起大家關注的 PettiChat 比以前的產品多做了一件事:它拿出了一套測試數據。
![]()
外觀上看,PettiChat 重 27 克,夾在項圈上,確實不會對寵物造成額外的負擔。
在這個小小設備里,還有邊緣計算芯片直接處理音頻,延遲最低 40 毫秒。它不需要持續聯網,只在分析聲音時短暫調用云端資源。還有其他能力像是 IP65 防水,一次充電支持 1000 次翻譯,和 100 小時 GPS 追蹤。
它們在眾籌平臺上的宣傳提到,所使用的聲學模型背后是超過 150 萬條寵物叫聲樣本,結合動物行為學的同行評審研究。最終達到的成果是,僅憑聲音模式識別情緒狀態,準確率達到 91-92%,加入姿態監測維度之后,實驗室條件下綜合準確率達到 94.6%。
![]()
500 萬+的寵物聲紋數據
在眾籌頁面有兩張不太清晰的宣傳圖,列出了這些數據是在哪些基準上進行測試的。我們拿著放大鏡看,發現其中提到了兩篇論文。
![]()
![]()
一篇是來自多媒體頂會 MM 2025 的 DogSpeak,犬類發聲分類數據集。
作者在這篇文章里,提出了一個大型狗叫聲數據集 DogSpeak,目標是研究能不能只靠狗的叫聲判斷狗的性別、品種,甚至是哪一只狗。
![]()
它的數據來源是 YouTube、TikTok 等社交媒體上的狗視頻。作者先用哈士奇、吉娃娃、德國牧羊犬、比特犬、柴犬 五個品種去搜視頻,然后根據頻道信息、標題、評論等確認狗的身份、性別、品種。
最后得到了 156 只狗、5 個品種、77202 段狗叫序列、33.162 小時純狗叫聲。這些數據都沒有標注不同的聲音代表狗狗在做什么,也沒有添加任何的情境信息。
文章的實驗任務主要是通過聲音序列,來判斷狗狗的性別、品種和識別具體是哪一只狗。而實驗結果顯示,單就這些任務,也沒有想象中容易。 單純依靠「純聲學特征」,是很難完美解決真實復雜環境下的狗叫聲識別。
![]()
可以考慮結合表情
作者在文末建議未來的研究應該跳出傳統音頻技術的舒適圈,去探索更高級的結構性、韻律性、甚至是犬類潛在的「語言學」特征。
另一篇論文同樣是來自 MM,2014 的城市聲音研究的數據集和分類法。這是城市環境聲分類領域的經典數據集論文,核心貢獻是 UrbanSound8K 數據集和城市聲音分類法。
![]()
作者把城市聲音分成人聲、自然、機械、音樂等大類,再細到狗叫、汽車喇叭、警笛、鉆孔、空調、街頭音樂等具體聲音源。
PettiChat 引用了這兩篇論文的數據集進行測試,以及聯合浙大動科院積累了 500萬+寵物聲紋數據,大約150萬條標注,同時在數據集上增加了 UrbanSound 的環境聲音,以確保在真實環境的魯棒性。
PettiChat 所使用的模型,是基于阿里云通義千問大模型。而參與測試的模型包括沒有經過預訓練的 Qwen2-Audio、Qwen2.5-Omni-7B、Qwen3-Omni-30BA3B,以及小米 Mino-V2-Omni。
![]()
他們根據這些聲紋數據和 UrbanSound 8K 做了一個很大的獨立測試集,里面有「疊加過背景噪音的寵物叫聲音頻樣本」,比如一段狗叫或貓叫,疊上電視聲、車流聲、家電聲、街道聲等,做成更接近真實生活的混合音頻。
以及各種各樣的噪音樣本,這些可能是不含寵物聲音的背景聲,用來測試模型會不會把普通噪音誤判成寵物叫聲。
這些既有帶噪聲的寵物叫聲,也有純噪聲/非寵物聲音,只是被用來測試模型能不能在復雜真實環境里準確識別寵物聲音。Petti 模型的表現在這一項測試下,達到了平均 98.6% 的識別/檢測層面的準確率。
計算準確率的方式是「是否識別寵物聲音」,而不是在測試「能不能翻譯寵物在想什么」。
![]()
在另一項測試中,沒有其他的對比模型,也沒有列明具體的測試集,只是使用 PETTI-260315 這一模型,測試了其在貓/狗情境聲音識別中的準確率。
貓貓的分類標簽包括了攻擊/敵對、顫音/社交親近、叫喚請求/急迫、防御性打斗行為、防御性威脅、捕獵意圖/潛伏、痛苦/壓力叫聲、環境干擾、呼嚕/休息。這些數據一共有 19 萬條,是經過專家檢查過的貓貓聲音情境測試數據。
狗狗同樣是用了 8.4 萬條專家檢查過的狗聲音情境測試數據,里面的分類標簽也包括了攻擊/敵對、節律性發聲、遠距離呼叫、分離焦慮、環境干擾、領地警戒、服從/安撫。
針對這些情境的測試,貓貓的平均準確率達到了 94.6%,狗狗是 92.3%。
![]()
而標記這些聲音屬于哪一種情境,在他們的眾籌宣傳文章里面還提到了 Video Ground Truth 這個概念。
它的意思是用視頻中的行為、環境、姿態、主人互動等作為標簽來源,去對齊寵物聲音和場景。
比如視頻里狗對門口陌生人叫,這段聲音就會被標記成 alert / stranger detected;當貓靠近食盆叫,這段聲音序列就被標成 food seeking。
所以,本質上 94.6% 是寵物聲音情境分類準確率, 而不是我們所理解的一句寵物語言翻譯成人類語言的準確率。
但翻譯成人類語言是真的有機會實現嗎?就拿這個模型來說,它輸出的原始結果,可能只是一個標簽。
比如一段狗叫被識別為「領地警戒」,這在測試里可以算作一次分類正確。但到了 App 里,它顯示的是「有人來了,我要守住這里。」
一段貓叫被識別為「急迫性請求叫聲」,應用里彈出的對話也會是更個性化的「快看看我嘛,我有點著急。」
![]()
從「行為標簽」到「擬人化翻譯」的再加工,它反而讓產品變得好玩、親切,也更像真的在對話。但嚴格來說,這部分根本不再是那 94.6% 可以直接覆蓋的范圍。
因為測試集里的標準答案大概率不是一句自然語言。這些模型只需要判斷這段聲音更接近「分離焦慮」、「領地警戒」、「呼嚕休息」,并不需要證明寵物真的想說「別把我忘了」或者「我想親親你的手」。
這也是所有寵物翻譯產品最微妙的地方,它可能不是騙子式的隨機翻譯,但也還遠不是我們想象中的寵物語言翻譯器。
我們正在招募伙伴
簡歷投遞郵箱 hr@ifanr.com
?? 郵件標題 「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.