網易首頁 > 網易號 > 正文申請入駐

紅海之上的新藍海：沒人注意到，聆思已經拿下了半個消費級 AI 視覺 | 前沿在線

2026-06-02 13:17:17　來源: 前沿在線

北京舉報

分享至

編輯：前沿在線編輯部

2026 年的視覺產業，正在上演最撕裂的一幕。

一邊是傳統市場的尸橫遍野：

影像賽道，手機攝像頭卷到 2 億像素也賣不動，相機廠商在全畫幅的參數競賽里互相殘殺；安防賽道，海康大華雙寡頭壟斷了全球 70% 的市場，中小廠商只能靠價格戰茍活。

這個年規模數百億美元的成熟市場，早就被瓜分完畢，連一絲縫隙都沒給新玩家留下。

所有人都在說：視覺市場太卷了，沒機會了。

但很少有人注意到，在這片紅海之上，一個全新的萬億級增量市場正在以 30% 的年增速瘋狂爆發。

它不拼像素，不拼畫質，甚至不要求看得有多清。

它拼的是圖像和場景結合之后，能創造什么樣的應用價值；而這些價值，正在悄無聲息地滲透進你生活的每一個角落，把很多曾經只存在于科幻片里的功能，變成了所有人習以為常的日常。

在內容創作賽道，自動跟拍早就不是專業攝影師的專屬技能。

從幾十塊錢的桌面云臺到幾千塊的手持穩定器，

再到能翻山越嶺的消費級無人機，識別人臉自動跟拍、智能構圖已經成了行業標配。

現在哪怕是一個剛入門的新手博主，不用麻煩別人舉相機，不用手動調角度，一個人就能拍出絲滑流暢的 vlog 和直播畫面。

在教育場景，離線 OCR 識別讓掃描筆成了中小學生的必備文具。

不用聯網，不用等云端加載，掃一下單詞就能出發音、釋義和例句，甚至連整段文字的翻譯都能一秒完成。

除此之外，能識別坐姿的學習桌、能批改作業的智能臺燈，也都靠著視覺能力，重新定義了教育硬件的形態。

在智能家居里，視覺正在成為語音之外更自然的交互方式。

門鎖不用掏鑰匙，掃臉就能開門；

風扇不用手動搖頭，能精準識別人體位置跟著吹；

電視不用找遙控器，一個手勢就能快進暫停；甚至連空調都能根據房間里的人數和位置，自動調節風向和溫度。

就連曾經最傳統的玩具賽道，視覺也成了不可或缺的核心能力。

能跟著孩子跑的 AI 陪伴機器人、

能識別手勢的互動積木、能自動追蹤足球的玩具車……

這些曾經只能靠遙控器操作的玩具，現在都能 "看見" 世界，和孩子產生真正的互動。

這就是消費級 AI 視覺。

它不是傳統視覺的升級，而是一場徹頭徹尾的革命。

它把視覺從一個 "記錄工具"，變成了一個 "交互入口"，重新定義了幾乎所有智能硬件的形態。

而在這個所有人都沒看懂的新市場里，唱主角的不是高通，不是英偉達，不是海康大華，而是一家你可能連名字都沒聽過的公司 ——聆思科技。

提到聆思，99% 的人的第一反應都是："哦，那個做語音芯片的。"

這沒錯。

你家里的美的、海爾、海信空調，喊一聲就能開關調溫的那種，十臺有九臺用的都是它的 CSK 系列芯片。在家電語音這個賽道，聆思早就做到了絕對統治，截至 2026 年 3 月，五大系列 AI 芯片累計出貨已突破 1.5 億顆。

這家成立于 2020 年的公司，是安徽省及合肥市國資平臺在端側 AI 領域的重點投資布局企業，還有元禾璞華、沄柏、天際、盈科、訊飛創投等一線資本加持。

但幾乎沒人知道，這家靠語音起家的公司，已經悄悄把戰火燒到了 AI 視覺。

過去三年，它累計賣出了超過 3000 萬套視覺方案，覆蓋了從云臺、掃描筆到智能門鎖、會議攝像頭的幾乎所有消費級視覺場景。

在桌面跟拍云臺這個品類，它的市占率已超過 80%；在掃描筆市場，它的方案更是成了行業事實標準。

當整個 AI 芯片行業都在卷大算力、卷先進制程、喊著 "干翻英偉達" 的時候，聆思走了一條完全相反的路：不做 Linux，不堆 TOPS，不炒概念，用一套全球首個大規模商用的 RTOS 軟硬協同方案，硬生生在巨頭環伺的市場里，撕開了一道萬億級的口子。

今天我們就聊聊這個藏在你生活里的隱形冠軍，以及它戳破的整個 AI 芯片行業最大的謊言。

今年很多 AI 硬件老板，都在罵 Linux 芯片

2026 年開年，我認識的所有做 AI 硬件的創始人，沒有一個不罵 Linux 芯片的。

不是情緒發泄，是真的活不下去了。

2026 年開年以來，所有主流 Linux AI 芯片全線漲價，核心原因是全球 AI 需求爆發導致內存產能嚴重不足。

TrendForce 數據顯示，2026 年第一季度常規 DRAM 合同價格環比上漲 93-98%，NAND 合約價也漲了85%~90%，預期2026 年第二季DRAM 合約價將上漲58%~63%、NAND 合約價漲幅更預估高達70%~75%。

DDR5 內存條價格在半年內也暴漲約 300%，連曾經以性價比著稱的 Raspberry Pi 5 價格也上漲了 150%。

對于依賴外掛大容量內存的 Linux AI 芯片來說，這意味著BOM 成本直接上漲 2-3 倍。

過去五年，整個行業默認了一個不容置疑的 "標準答案"：做 AI 視覺，必須用 Linux 芯片。

理由聽起來天經地義：Linux 生態完善，GitHub 上隨便搜就能找到開源算法，開發者拿來就能用，根本不用考慮內存限制、資源分配這些破事。只要堆夠 0.5T 以上的算力，什么人形追蹤、OCR 識別、手勢控制，通通都能跑。

但這個 "標準答案"，從一開始就是裹著糖衣的毒藥。

為了跑 Linux 系統和臃腫的開源算法，芯片必須外掛大容量 DDR 內存和 eMMC 存儲，外圍電路復雜得像蜘蛛網。

算下來，單是芯片 + BOM 成本就要幾百塊，最后反映到終端產品上，就是售價居高不下：

三年前，帶 AI 跟拍的云臺普遍賣 3000 塊以上
一支能離線翻譯的掃描筆，要價 1000 元起步
稍微帶點人臉識別的門鎖，沒有 500 塊拿不下來

更離譜的是算力浪費。

為了覆蓋所有可能的場景，Linux 芯片設計了大量通用模塊。

但在具體的視覺任務里，80% 的算力都是空轉的。標稱 1T 的芯片，真正能用在人形追蹤上的，可能連 0.2T 都不到。剩下的算力，除了費電和漲價，沒有任何用處。

"就像你買了一輛 12 缸的勞斯萊斯，天天在小區里買菜開，油耗高得嚇人，速度還不如電動車。"

深圳一家硬件廠商的 CTO 跟我吐槽，"但沒辦法，行業里只有這個方案能用。"

今年的漲價，成了壓垮駱駝的最后一根稻草。

很多中小廠商算了一筆賬：原來 BOM 成本 50 塊的產品，現在漲到 150 塊，終端售價要翻一倍才能保本，根本賣不動。不少已經立項半年的項目直接砍了，還有的廠商干脆清庫存轉行。

那有沒有更便宜的替代方案？

有，RTOS。

RTOS 是一種輕量級實時操作系統，體積只有幾百 KB，不用外掛內存，BOM 成本只有 Linux 方案的 1/3，功耗也只有后者的一半。理論上，它才是消費級 AI 視覺的最佳選擇。

但很長一段時間里，整個行業都沒能拿出一個能用的 RTOS 視覺方案。

不是沒人試過，是做出來的都是垃圾：電機轉起來一頓一頓的，手勢比半天沒反應，人稍微走快點就跟丟，稍微擋一下就直接原地罷工。

問題出在哪？

RTOS 的內存只有 Linux 的零頭，開源算法直接扔進去，根本跑不起來。必須把算法拆到原子級，一點點裁剪、優化、重寫，才能在有限的資源里流暢運行。

這是一個極其苦、極其累、極其考驗技術功底的活，而且沒有任何捷徑可走。

但整個產業鏈，沒有任何人愿意干這個活：

芯片大廠不會干：他們只賣芯片，養幾百個算法團隊不劃算
算法公司不會干：他們不懂芯片底層，再怎么優化也達不到要求
終端廠商更不會干：他們連自己的算法團隊都沒有，全靠第三方外包

更坑的是第三方算法公司。

他們給 A 廠商做的算法，放到 B 廠商的芯片上就跑不動；換個攝像頭型號，又要重新適配。最后錢沒少花，時間沒少耗，做出來的產品還是一堆問題。

整個行業就卡在這里了：貴的用不起，便宜的不好用。

所有人都在等一個破局者。

沒人想到，最后破局的是一家做語音的公司

2023 年，當整個行業還在 Linux 的泥潭里掙扎的時候，聆思悄悄扔出了第一代 RTOS 視覺方案。

整個行業都炸了。

沒人想到，最后把這事干成的，居然是一家做語音芯片的公司。

但只要你懂端側 AI 的底層邏輯，就會發現這根本不是意外，而是必然。

做端側 AI 的本質，從來都不是堆算力，而是螺螄殼里做道場：在指甲蓋大的芯片里，在幾塊錢的成本里，把每一分算力、每一個字節的內存都榨干。

過去六年，聆思在語音芯片上干的就是這件事。

它把語音識別、降噪、TTS 合成全鏈路塞進了一顆幾塊錢的芯片里，不用聯網，不用外掛內存，就能實現流暢的語音交互。正是這套 "極致資源優化" 的功夫，讓它在家電語音市場殺到了第一。

而這套功夫，放到視覺上，簡直是降維打擊。

和其他廠商 "先造芯片再找算法湊" 的思路完全不同，聆思走了一條反常識的路：算法定義芯片。

別人是先畫好 CPU、NPU 的框圖，再讓算法團隊去適配硬件；聆思是先把視覺算法拆解到最細的算子粒度，精準算清楚每一個算子需要多少算力、多少內存、多少帶寬，再照著這些需求去設計芯片架構。

做人形追蹤，它就把 NPU 里負責特征提取、目標檢測、軌跡預測的算子做到極致，把沒用的通用浮點運算單元全砍掉；做 OCR 識別，它就專門集成了一個圖像預處理加速器，讓文字識別速度直接翻 3 倍；做電機控制，它就專門優化指令集，讓電機轉得像絲一樣順滑，不會出現一頓一頓的情況。

正是這種從算子層面就和算法深度綁定的設計，讓聆思的芯片對圖像檢測追蹤、圖文 OCR 這類端側視覺任務天生就特別友好。

更關鍵的是，聆思有自己的全職算法團隊，能一邊根據芯片特性打磨算法，一邊根據實際場景的需求反過來調整芯片設計，真正做到了軟硬件的雙向協同。

這種軟硬深度綁定的模式，帶來了兩個革命性的結果：

第一，算力利用率干到了 80% 以上。

同樣跑 30 幀的人形追蹤，Linux 芯片需要 0.5T 算力，聆思只用 0.1T 就夠了。這意味著成本直接降到原來的 1/3，功耗降到原來的 1/4；

第二，算法效果碾壓所有同行。

針對 RTOS 的內存限制，聆思的算法團隊把模型壓縮到了原來的 1/10，精度損失不到 1%。別人做不出來的 RTOS 視覺，它不僅做出來了，效果還比 Linux 方案更好。

有個云臺廠商給我算了一筆賬，我至今印象深刻：

" 用 Linux 方案，BOM 成本 120 塊，開發周期 6 個月，招 3 個算法工程師改了半年，最后跟隨還是會抖；用聆思的 RTOS 方案，BOM 成本 45 塊，開發周期 1 個月，他們把算法都調好了，我們只要套個殼就能賣。這根本不是競爭，是降維打擊。"

一夜之間，整個行業都切換到了聆思的方案。

幾十塊錢的 AI 云臺鋪滿了淘寶京東，幾百塊的掃描筆成了學生黨標配，AI 跟隨風扇成了今年夏天的爆款。

曾經高高在上的 AI 視覺，就這樣變成了普通人都能消費得起的日常功能。

但聆思沒有停下腳步。

從單模態到多模態，它已經準備好了下一張牌

就在上個月（2026 年 5 月 10 日），聆思又扔出了一顆重磅炸彈：第三代多模態 AI SoC 芯片 VenusA 正式發布。

別看它還是指甲蓋大小的一塊，里面塞了雙核 RISC-V CPU 和專門為多模態設計的 NPU，主頻拉到了 400MHz，NPU 峰值算力 256 GOPS，實打實的多模態 AI 性能直接比上一代翻了 3 倍。

最狠的還是它的視覺跟隨能力，直接來了個質的飛躍：

以前最多跟 7 米，現在直接干到 15 米，覆蓋了從室內直播到戶外露營的所有場景；手勢識別距離拉到 5.5 米，比個 OK 一秒就能響應；不管是單人還是多人同框，全程穩定 30 幀不掉，就算你突然跑起來、或者周圍人來人往，鏡頭也不會跟丟、不會卡頓。

而這，還只是聆思多模態布局的冰山一角。

其實早在今年 3 月的 AWE 家電展上，聆思就已經亮出了自己的下一張牌：專門給大模型家電做的ARCS 系列芯片，還有HomeClaw 全屋智能算力中心方案。

和市面上東拼西湊的方案不一樣，ARCS 把 AI 算力、主控、多媒體、無線連接全塞進了一顆芯片里，一顆就能搞定"語音聽懂→視覺看懂→調用云端大模型"的完整流程。

現在你能買到的很多智能浴霸、AI 陪伴機器人、智能鬧鐘、詞典筆，里面用的都是這套已經跑通的成熟方案。

最近我拆解了好幾款今年的爆款硬件，發現了一個很有意思的趨勢：越來越多看起來和視覺無關的產品，開始偷偷裝上聆思的芯片。

比如和 EMEET 壹秘合作的 PIXY 4K 超清雙目 AI 智能云臺攝像頭，絕對是今年辦公硬件賽道殺出來的最大黑馬。

它不僅能輸出 4K、30fps 的超高清視頻通話，搭載了通過 Zoom 認證的 AI 降噪算法，能完美過濾鍵盤敲擊、開門關門這些辦公室常見噪音；

更厲害的是它的AI 自動跟拍功能—— 不管你在會議室里走來走去講 PPT，還是站在白板前寫板書，鏡頭都會穩穩鎖定你，永遠把你放在畫面 C 位。遠程會議再也不用幾個人擠在一個鏡頭前，也不用手忙腳亂地調角度了。

這款產品能賣爆的核心，就是它同時集成了聆思的語音和視覺雙能力。

一顆 CSK6 芯片，同時搞定 AI 降噪和智能跟拍，不用再像以前那樣分別用兩顆芯片來處理音視頻，不僅 BOM 成本直接砍了一半，還解決了多芯片之間的協同延遲問題，讓整個設備的響應速度和穩定性都上了一個臺階。

再比如如今熱度居高不下的 AI 陪伴機器人與互動玩具，正是多模態融合的典型代表。

它們既能流暢響應各類語音指令、依托大模型實現自然對話，還能依靠視覺能力精準跟隨移動、識別動作表情。不管是日常聊天互動、趣味問答，還是感知情緒、陪伴玩樂，一臺設備就能兼顧多重體驗。

原本只是簡單發聲、被動執行指令的玩具與機器人，如今蛻變成了能看、能聽、能互動的智能伙伴。這就是多模態融合帶來的全新產品體驗。

這些案例正在證明一個道理：AI 硬件的下一個增量，不是單一功能的升級，而是多模態能力的融合。

過去的智能硬件，要么只能聽，要么只能看，交互方式非常單一。

未來的智能硬件，會同時具備語音、視覺、觸覺等多種感知能力，能夠更自然、更智能地和用戶交互。它不再是一個被動執行指令的工具，而是一個主動理解用戶需求的助手。

而聆思，是目前全行業唯一一個，能同時提供成熟語音和視覺方案的芯片公司。

別人需要兩顆芯片、兩個算法團隊、半年開發周期才能實現的功能，它用一顆芯片、一套方案、一個月就能搞定。這就是無可比擬的競爭優勢。

現在，已經有越來越多的廠商開始和聆思合作，探索多模態的可能性：

早教機器人，既能聽懂孩子的問題，又能看懂孩子的繪本和表情
智能臺燈，既能語音控制，又能識別孩子的坐姿，提醒矯正
智能廚房，既能語音導航菜譜，又能識別食材，自動調節火候

AI 正在為傳統硬件創造無限的創新空間。

而聆思，正在成為這個新時代的底層基礎設施。

所有人都在卷大模型，它走在了最前面

當整個行業都在為手機端側大模型瘋狂的時候，聆思又一次走在了前面。

聆思早已開啟面向智能終端的端側大模型專用芯片研發，將在今年年底推出。

現在所有人都在喊 "端側大模型"，但 99% 的人都搞錯了方向。

他們以為端側大模型就是在手機上跑 ChatGPT，就是堆 10T、20T 的算力。

但實際上，端側大模型最大的市場，根本不在手機上，而是在具身智能機器人、全屋智能家居、汽車座艙等為代表的海量終端。

AI 眼鏡需要實時理解你看到的場景，給你提供即時的信息輔助；服務機器人需要理解家庭環境，識別物體和人物，自主完成家務任務。

但它們對芯片的要求也最苛刻：體積要小，功耗要低，成本要便宜，還要能同時處理語音和視覺數據。

而市面上絕大多數現有端側 AI 芯片，根本滿足不了這些要求。

這些芯片大多還是圍繞傳統 CNN 等輕量模型設計的，計算、存儲和數據流架構完全沒有針對 Transformer 特有的注意力機制、長序列依賴做原生優化。

有行業數據顯示，用傳統 CNN 加速器跑大模型推理，算力利用率甚至不到 1%—— 這也是為什么很多標稱幾十 TOPS 的芯片，實際跑大模型卻卡得像幻燈片。

更要命的是，大模型推理的真正瓶頸從來都不是標稱的 TOPS 算力，而是內存帶寬、緩存效率和數據重用能力 —— 這恰恰是傳統端側芯片的最大短板。

再加上終端設備在功耗、成本、芯片面積和散熱上的極限約束，云端那套堆算力的架構根本不可能在端側復制。想要讓大模型真正走進億萬普通設備，必須在有限的物理邊界內，重新構建一套兼顧能效比和成本的全新設計范式。

而這，恰恰是聆思最擅長的事。

和其他公司 "先造大算力芯片再找活干" 的思路不同，聆思還是老路子：先搞清楚機器人和眼鏡到底需要什么，再去設計芯片。

它沒有盲目堆 TOPS，而是重點解決大模型推理最頭疼的三個問題：內存帶寬、能效比和多模態融合。采用面向大模型的原生架構，配合自研的模型壓縮和推理引擎，目標是用低成本、高性價比的方案來實現流暢的 7B 大模型推理能力。

如果這個目標能實現，將徹底改變整個行業的格局。

它將讓大模型從手機、電腦這些高端設備，下沉到所有的智能終端中。到那時，我們身邊的每一個設備，都將具備理解和思考的能力。

真正的智能時代，才會到來。

中國芯片不需要第二個英偉達

很長一段時間里，我們都陷入了一種病態的執念：好像中國芯片只有做出自己的英偉達，只有追上 7nm、5nm 的先進制程，才算成功。

所有人都在追大算力、追高端市場、喊著 "干翻國際巨頭"。

但聆思的故事告訴我們，中國芯片還有另一條路。

一條不需要最先進的光刻機，不需要和巨頭正面硬剛的路。一條深耕場景、軟硬協同、把用戶真正需要的東西做到極致的路。

全球 AI 芯片市場，其實是一個三層金字塔：

塔尖是云端大算力，被英偉達壟斷，后來者幾乎沒有機會；
中層是高端端側，被高通、蘋果把持，競爭異常激烈；
塔基是海量的消費電子、家電、教育硬件，市場規模是上層的好幾倍，但長期被忽略。

而中國公司，最擅長的就是打塔基市場。

我們有全球最大的制造業基地，有最完整的產業鏈，有最龐大的消費市場。我們最懂普通消費者需要什么，我們能最快地響應市場的變化。

聆思沒有去搶云端的蛋糕，而是扎根在別人看不起的端側小算力市場，用六年時間，把 1.5 億顆芯片裝進了全世界的智能設備里。它沒有喊過一句 "干翻英偉達"，但它實實在在地改變了我們的生活。

很多人到現在還以為，聆思只是一家做語音芯片的公司。

但他們不知道，這家公司已經悄悄完成了從語音到視覺，再到多模態大模型的技術跨越。它正在從一個單一的芯片供應商，變成一個端側 AI 的平臺級公司。

中國不需要第二個英偉達。

中國需要 100 個聆思這樣的公司。

它們不追風口，不炒概念，不講故事，只是默默地把技術做到極致，把成本降到最低，把體驗做到最好。

當所有人都在盯著云端的萬億大模型市場的時候，端側的萬億市場已經被悄悄瓜分完了。

而那些悶聲干大事的公司，終將走到舞臺中央。

前沿動態前沿大會
前沿人物

點「在看」，給前前加雞腿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

前沿在線

前沿在線官方賬號，關注AI、機器人、智能車等前沿領域；

267文章數 1235關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

本地

公開課

軍事航空

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

紅海之上的新藍海：沒人注意到，聆思已經拿下了半個消費級 AI 視覺 | 前沿在線

48名中國開發者聯名舉報蘋果

"紙尿褲風波"第一爆料人：如果我錯了 坐牢都接受

"紙尿褲風波"第一爆料人：如果我錯了 坐牢都接受

揚尼斯去了邁阿密：凱爾特人怎么辦？

內娛95后頂流格局發生潛移默化的變化

AI“算力稀缺”信仰開始動搖？

施鵬澤：為什么奧迪E7X強調座艙氣味安全?

態度原創

綠意盎然 自然之境

河南一景區玻璃觀景臺發生碎裂，游客：第一念頭就是快跑！景區：系小孩用傘尖敲擊玻璃導致表層碎裂，已隔離涉事區域并聯系廠家更換玻璃

吃一次廣東龍舟飯，才懂什么是豪華盛宴

以色列總理、國防部長和國防軍總參謀長發表聯合聲明

"紙尿褲風波"第一爆料人：如果我錯了坐牢都接受

"紙尿褲風波"第一爆料人：如果我錯了坐牢都接受

綠意盎然自然之境