![]()
![]()
編輯:前沿在線 編輯部
2026 年的視覺產業,正在上演最撕裂的一幕。
一邊是傳統市場的尸橫遍野:
影像賽道,手機攝像頭卷到 2 億像素也賣不動,相機廠商在全畫幅的參數競賽里互相殘殺;安防賽道,海康大華雙寡頭壟斷了全球 70% 的市場,中小廠商只能靠價格戰茍活。
![]()
這個年規模數百億美元的成熟市場,早就被瓜分完畢,連一絲縫隙都沒給新玩家留下。
所有人都在說:視覺市場太卷了,沒機會了。
但很少有人注意到,在這片紅海之上,一個全新的萬億級增量市場正在以 30% 的年增速瘋狂爆發。
![]()
它不拼像素,不拼畫質,甚至不要求看得有多清。
它拼的是圖像和場景結合之后,能創造什么樣的應用價值;而這些價值,正在悄無聲息地滲透進你生活的每一個角落,把很多曾經只存在于科幻片里的功能,變成了所有人習以為常的日常。
在內容創作賽道,自動跟拍早就不是專業攝影師的專屬技能。
從幾十塊錢的桌面云臺到幾千塊的手持穩定器,
![]()
再到能翻山越嶺的消費級無人機,識別人臉自動跟拍、智能構圖已經成了行業標配。
現在哪怕是一個剛入門的新手博主,不用麻煩別人舉相機,不用手動調角度,一個人就能拍出絲滑流暢的 vlog 和直播畫面。
在教育場景,離線 OCR 識別讓掃描筆成了中小學生的必備文具。
不用聯網,不用等云端加載,掃一下單詞就能出發音、釋義和例句,甚至連整段文字的翻譯都能一秒完成。
![]()
除此之外,能識別坐姿的學習桌、能批改作業的智能臺燈,也都靠著視覺能力,重新定義了教育硬件的形態。
在智能家居里,視覺正在成為語音之外更自然的交互方式。
門鎖不用掏鑰匙,掃臉就能開門;
![]()
風扇不用手動搖頭,能精準識別人體位置跟著吹;
![]()
電視不用找遙控器,一個手勢就能快進暫停;甚至連空調都能根據房間里的人數和位置,自動調節風向和溫度。
就連曾經最傳統的玩具賽道,視覺也成了不可或缺的核心能力。
能跟著孩子跑的 AI 陪伴機器人、
![]()
能識別手勢的互動積木、能自動追蹤足球的玩具車……
這些曾經只能靠遙控器操作的玩具,現在都能 "看見" 世界,和孩子產生真正的互動。
這就是消費級 AI 視覺。
它不是傳統視覺的升級,而是一場徹頭徹尾的革命。
它把視覺從一個 "記錄工具",變成了一個 "交互入口",重新定義了幾乎所有智能硬件的形態。
而在這個所有人都沒看懂的新市場里,唱主角的不是高通,不是英偉達,不是海康大華,而是一家你可能連名字都沒聽過的公司 ——聆思科技。
![]()
提到聆思,99% 的人的第一反應都是:"哦,那個做語音芯片的。"
這沒錯。
你家里的美的、海爾、海信空調,喊一聲就能開關調溫的那種,十臺有九臺用的都是它的 CSK 系列芯片。在家電語音這個賽道,聆思早就做到了絕對統治,截至 2026 年 3 月,五大系列 AI 芯片累計出貨已突破 1.5 億顆。
![]()
這家成立于 2020 年的公司,是安徽省及合肥市國資平臺在端側 AI 領域的重點投資布局企業,還有元禾璞華、沄柏、天際、盈科、訊飛創投等一線資本加持。
但幾乎沒人知道,這家靠語音起家的公司,已經悄悄把戰火燒到了 AI 視覺。
過去三年,它累計賣出了超過 3000 萬套視覺方案,覆蓋了從云臺、掃描筆到智能門鎖、會議攝像頭的幾乎所有消費級視覺場景。
在桌面跟拍云臺這個品類,它的市占率已超過 80%;在掃描筆市場,它的方案更是成了行業事實標準。
當整個 AI 芯片行業都在卷大算力、卷先進制程、喊著 "干翻英偉達" 的時候,聆思走了一條完全相反的路:不做 Linux,不堆 TOPS,不炒概念,用一套全球首個大規模商用的 RTOS 軟硬協同方案,硬生生在巨頭環伺的市場里,撕開了一道萬億級的口子。
今天我們就聊聊這個藏在你生活里的隱形冠軍,以及它戳破的整個 AI 芯片行業最大的謊言。
![]()
今年很多 AI 硬件老板,都在罵 Linux 芯片
2026 年開年,我認識的所有做 AI 硬件的創始人,沒有一個不罵 Linux 芯片的。
不是情緒發泄,是真的活不下去了。
2026 年開年以來,所有主流 Linux AI 芯片全線漲價,核心原因是全球 AI 需求爆發導致內存產能嚴重不足。
![]()
TrendForce 數據顯示,2026 年第一季度常規 DRAM 合同價格環比上漲 93-98%,NAND 合約價也漲了85%~90%,預期2026 年第二季DRAM 合約價將上漲58%~63%、NAND 合約價漲幅更預估高達70%~75%。
![]()
DDR5 內存條價格在半年內也暴漲約 300%,連曾經以性價比著稱的 Raspberry Pi 5 價格也上漲了 150%。
對于依賴外掛大容量內存的 Linux AI 芯片來說,這意味著BOM 成本直接上漲 2-3 倍。
過去五年,整個行業默認了一個不容置疑的 "標準答案":做 AI 視覺,必須用 Linux 芯片。
理由聽起來天經地義:Linux 生態完善,GitHub 上隨便搜就能找到開源算法,開發者拿來就能用,根本不用考慮內存限制、資源分配這些破事。只要堆夠 0.5T 以上的算力,什么人形追蹤、OCR 識別、手勢控制,通通都能跑。
但這個 "標準答案",從一開始就是裹著糖衣的毒藥。
為了跑 Linux 系統和臃腫的開源算法,芯片必須外掛大容量 DDR 內存和 eMMC 存儲,外圍電路復雜得像蜘蛛網。
算下來,單是芯片 + BOM 成本就要幾百塊,最后反映到終端產品上,就是售價居高不下:
三年前,帶 AI 跟拍的云臺普遍賣 3000 塊以上
一支能離線翻譯的掃描筆,要價 1000 元起步
稍微帶點人臉識別的門鎖,沒有 500 塊拿不下來
更離譜的是算力浪費。
![]()
為了覆蓋所有可能的場景,Linux 芯片設計了大量通用模塊。
但在具體的視覺任務里,80% 的算力都是空轉的。標稱 1T 的芯片,真正能用在人形追蹤上的,可能連 0.2T 都不到。剩下的算力,除了費電和漲價,沒有任何用處。
"就像你買了一輛 12 缸的勞斯萊斯,天天在小區里買菜開,油耗高得嚇人,速度還不如電動車。"
深圳一家硬件廠商的 CTO 跟我吐槽,"但沒辦法,行業里只有這個方案能用。"
今年的漲價,成了壓垮駱駝的最后一根稻草。
很多中小廠商算了一筆賬:原來 BOM 成本 50 塊的產品,現在漲到 150 塊,終端售價要翻一倍才能保本,根本賣不動。不少已經立項半年的項目直接砍了,還有的廠商干脆清庫存轉行。
那有沒有更便宜的替代方案?
有,RTOS。
RTOS 是一種輕量級實時操作系統,體積只有幾百 KB,不用外掛內存,BOM 成本只有 Linux 方案的 1/3,功耗也只有后者的一半。理論上,它才是消費級 AI 視覺的最佳選擇。
![]()
但很長一段時間里,整個行業都沒能拿出一個能用的 RTOS 視覺方案。
不是沒人試過,是做出來的都是垃圾:電機轉起來一頓一頓的,手勢比半天沒反應,人稍微走快點就跟丟,稍微擋一下就直接原地罷工。
問題出在哪?
RTOS 的內存只有 Linux 的零頭,開源算法直接扔進去,根本跑不起來。必須把算法拆到原子級,一點點裁剪、優化、重寫,才能在有限的資源里流暢運行。
![]()
這是一個極其苦、極其累、極其考驗技術功底的活,而且沒有任何捷徑可走。
但整個產業鏈,沒有任何人愿意干這個活:
芯片大廠不會干:他們只賣芯片,養幾百個算法團隊不劃算
算法公司不會干:他們不懂芯片底層,再怎么優化也達不到要求
終端廠商更不會干:他們連自己的算法團隊都沒有,全靠第三方外包
更坑的是第三方算法公司。
他們給 A 廠商做的算法,放到 B 廠商的芯片上就跑不動;換個攝像頭型號,又要重新適配。最后錢沒少花,時間沒少耗,做出來的產品還是一堆問題。
整個行業就卡在這里了:貴的用不起,便宜的不好用。
所有人都在等一個破局者。
![]()
沒人想到,最后破局的是一家做語音的公司
2023 年,當整個行業還在 Linux 的泥潭里掙扎的時候,聆思悄悄扔出了第一代 RTOS 視覺方案。
整個行業都炸了。
沒人想到,最后把這事干成的,居然是一家做語音芯片的公司。
但只要你懂端側 AI 的底層邏輯,就會發現這根本不是意外,而是必然。
做端側 AI 的本質,從來都不是堆算力,而是螺螄殼里做道場:在指甲蓋大的芯片里,在幾塊錢的成本里,把每一分算力、每一個字節的內存都榨干。
![]()
過去六年,聆思在語音芯片上干的就是這件事。
它把語音識別、降噪、TTS 合成全鏈路塞進了一顆幾塊錢的芯片里,不用聯網,不用外掛內存,就能實現流暢的語音交互。正是這套 "極致資源優化" 的功夫,讓它在家電語音市場殺到了第一。
![]()
而這套功夫,放到視覺上,簡直是降維打擊。
和其他廠商 "先造芯片再找算法湊" 的思路完全不同,聆思走了一條反常識的路:算法定義芯片。
別人是先畫好 CPU、NPU 的框圖,再讓算法團隊去適配硬件;聆思是先把視覺算法拆解到最細的算子粒度,精準算清楚每一個算子需要多少算力、多少內存、多少帶寬,再照著這些需求去設計芯片架構。
做人形追蹤,它就把 NPU 里負責特征提取、目標檢測、軌跡預測的算子做到極致,把沒用的通用浮點運算單元全砍掉;做 OCR 識別,它就專門集成了一個圖像預處理加速器,讓文字識別速度直接翻 3 倍;做電機控制,它就專門優化指令集,讓電機轉得像絲一樣順滑,不會出現一頓一頓的情況。
![]()
正是這種從算子層面就和算法深度綁定的設計,讓聆思的芯片對圖像檢測追蹤、圖文 OCR 這類端側視覺任務天生就特別友好。
更關鍵的是,聆思有自己的全職算法團隊,能一邊根據芯片特性打磨算法,一邊根據實際場景的需求反過來調整芯片設計,真正做到了軟硬件的雙向協同。
這種軟硬深度綁定的模式,帶來了兩個革命性的結果:
第一,算力利用率干到了 80% 以上。
同樣跑 30 幀的人形追蹤,Linux 芯片需要 0.5T 算力,聆思只用 0.1T 就夠了。這意味著成本直接降到原來的 1/3,功耗降到原來的 1/4;
第二,算法效果碾壓所有同行。
針對 RTOS 的內存限制,聆思的算法團隊把模型壓縮到了原來的 1/10,精度損失不到 1%。別人做不出來的 RTOS 視覺,它不僅做出來了,效果還比 Linux 方案更好。
有個云臺廠商給我算了一筆賬,我至今印象深刻:
" 用 Linux 方案,BOM 成本 120 塊,開發周期 6 個月,招 3 個算法工程師改了半年,最后跟隨還是會抖;用聆思的 RTOS 方案,BOM 成本 45 塊,開發周期 1 個月,他們把算法都調好了,我們只要套個殼就能賣。這根本不是競爭,是降維打擊。"
![]()
一夜之間,整個行業都切換到了聆思的方案。
幾十塊錢的 AI 云臺鋪滿了淘寶京東,幾百塊的掃描筆成了學生黨標配,AI 跟隨風扇成了今年夏天的爆款。
曾經高高在上的 AI 視覺,就這樣變成了普通人都能消費得起的日常功能。
但聆思沒有停下腳步。
![]()
從單模態到多模態,它已經準備好了下一張牌
就在上個月(2026 年 5 月 10 日),聆思又扔出了一顆重磅炸彈:第三代多模態 AI SoC 芯片 VenusA 正式發布。
別看它還是指甲蓋大小的一塊,里面塞了雙核 RISC-V CPU 和專門為多模態設計的 NPU,主頻拉到了 400MHz,NPU 峰值算力 256 GOPS,實打實的多模態 AI 性能直接比上一代翻了 3 倍。
![]()
最狠的還是它的視覺跟隨能力,直接來了個質的飛躍:
以前最多跟 7 米,現在直接干到 15 米,覆蓋了從室內直播到戶外露營的所有場景;手勢識別距離拉到 5.5 米,比個 OK 一秒就能響應;不管是單人還是多人同框,全程穩定 30 幀不掉,就算你突然跑起來、或者周圍人來人往,鏡頭也不會跟丟、不會卡頓。
![]()
而這,還只是聆思多模態布局的冰山一角。
其實早在今年 3 月的 AWE 家電展上,聆思就已經亮出了自己的下一張牌:專門給大模型家電做的ARCS 系列芯片,還有HomeClaw 全屋智能算力中心方案。
![]()
和市面上東拼西湊的方案不一樣,ARCS 把 AI 算力、主控、多媒體、無線連接全塞進了一顆芯片里,一顆就能搞定"語音聽懂→視覺看懂→調用云端大模型"的完整流程。
現在你能買到的很多智能浴霸、AI 陪伴機器人、智能鬧鐘、詞典筆,里面用的都是這套已經跑通的成熟方案。
![]()
最近我拆解了好幾款今年的爆款硬件,發現了一個很有意思的趨勢:越來越多看起來和視覺無關的產品,開始偷偷裝上聆思的芯片。
比如和 EMEET 壹秘合作的 PIXY 4K 超清雙目 AI 智能云臺攝像頭,絕對是今年辦公硬件賽道殺出來的最大黑馬。
![]()
它不僅能輸出 4K、30fps 的超高清視頻通話,搭載了通過 Zoom 認證的 AI 降噪算法,能完美過濾鍵盤敲擊、開門關門這些辦公室常見噪音;
更厲害的是它的AI 自動跟拍功能—— 不管你在會議室里走來走去講 PPT,還是站在白板前寫板書,鏡頭都會穩穩鎖定你,永遠把你放在畫面 C 位。遠程會議再也不用幾個人擠在一個鏡頭前,也不用手忙腳亂地調角度了。
![]()
這款產品能賣爆的核心,就是它同時集成了聆思的語音和視覺雙能力。
一顆 CSK6 芯片,同時搞定 AI 降噪和智能跟拍,不用再像以前那樣分別用兩顆芯片來處理音視頻,不僅 BOM 成本直接砍了一半,還解決了多芯片之間的協同延遲問題,讓整個設備的響應速度和穩定性都上了一個臺階。
再比如如今熱度居高不下的 AI 陪伴機器人與互動玩具,正是多模態融合的典型代表。
![]()
它們既能流暢響應各類語音指令、依托大模型實現自然對話,還能依靠視覺能力精準跟隨移動、識別動作表情。不管是日常聊天互動、趣味問答,還是感知情緒、陪伴玩樂,一臺設備就能兼顧多重體驗。
原本只是簡單發聲、被動執行指令的玩具與機器人,如今蛻變成了能看、能聽、能互動的智能伙伴。這就是多模態融合帶來的全新產品體驗。
這些案例正在證明一個道理:AI 硬件的下一個增量,不是單一功能的升級,而是多模態能力的融合。
過去的智能硬件,要么只能聽,要么只能看,交互方式非常單一。
未來的智能硬件,會同時具備語音、視覺、觸覺等多種感知能力,能夠更自然、更智能地和用戶交互。它不再是一個被動執行指令的工具,而是一個主動理解用戶需求的助手。
而聆思,是目前全行業唯一一個,能同時提供成熟語音和視覺方案的芯片公司。
別人需要兩顆芯片、兩個算法團隊、半年開發周期才能實現的功能,它用一顆芯片、一套方案、一個月就能搞定。這就是無可比擬的競爭優勢。
現在,已經有越來越多的廠商開始和聆思合作,探索多模態的可能性:
早教機器人,既能聽懂孩子的問題,又能看懂孩子的繪本和表情
智能臺燈,既能語音控制,又能識別孩子的坐姿,提醒矯正
智能廚房,既能語音導航菜譜,又能識別食材,自動調節火候
![]()
AI 正在為傳統硬件創造無限的創新空間。
而聆思,正在成為這個新時代的底層基礎設施。
![]()
所有人都在卷大模型,它走在了最前面
當整個行業都在為手機端側大模型瘋狂的時候,聆思又一次走在了前面。
聆思早已開啟面向智能終端的端側大模型專用芯片研發,將在今年年底推出。
![]()
現在所有人都在喊 "端側大模型",但 99% 的人都搞錯了方向。
他們以為端側大模型就是在手機上跑 ChatGPT,就是堆 10T、20T 的算力。
但實際上,端側大模型最大的市場,根本不在手機上,而是在具身智能機器人、全屋智能家居、汽車座艙等為代表的海量終端。
![]()
AI 眼鏡需要實時理解你看到的場景,給你提供即時的信息輔助;服務機器人需要理解家庭環境,識別物體和人物,自主完成家務任務。
但它們對芯片的要求也最苛刻:體積要小,功耗要低,成本要便宜,還要能同時處理語音和視覺數據。
而市面上絕大多數現有端側 AI 芯片,根本滿足不了這些要求。
這些芯片大多還是圍繞傳統 CNN 等輕量模型設計的,計算、存儲和數據流架構完全沒有針對 Transformer 特有的注意力機制、長序列依賴做原生優化。
有行業數據顯示,用傳統 CNN 加速器跑大模型推理,算力利用率甚至不到 1%—— 這也是為什么很多標稱幾十 TOPS 的芯片,實際跑大模型卻卡得像幻燈片。
![]()
更要命的是,大模型推理的真正瓶頸從來都不是標稱的 TOPS 算力,而是內存帶寬、緩存效率和數據重用能力 —— 這恰恰是傳統端側芯片的最大短板。
再加上終端設備在功耗、成本、芯片面積和散熱上的極限約束,云端那套堆算力的架構根本不可能在端側復制。想要讓大模型真正走進億萬普通設備,必須在有限的物理邊界內,重新構建一套兼顧能效比和成本的全新設計范式。
而這,恰恰是聆思最擅長的事。
![]()
和其他公司 "先造大算力芯片再找活干" 的思路不同,聆思還是老路子:先搞清楚機器人和眼鏡到底需要什么,再去設計芯片。
它沒有盲目堆 TOPS,而是重點解決大模型推理最頭疼的三個問題:內存帶寬、能效比和多模態融合。采用面向大模型的原生架構,配合自研的模型壓縮和推理引擎,目標是用低成本、高性價比的方案來實現流暢的 7B 大模型推理能力。
![]()
如果這個目標能實現,將徹底改變整個行業的格局。
它將讓大模型從手機、電腦這些高端設備,下沉到所有的智能終端中。到那時,我們身邊的每一個設備,都將具備理解和思考的能力。
真正的智能時代,才會到來。
![]()
![]()
中國芯片不需要第二個英偉達
很長一段時間里,我們都陷入了一種病態的執念:好像中國芯片只有做出自己的英偉達,只有追上 7nm、5nm 的先進制程,才算成功。
所有人都在追大算力、追高端市場、喊著 "干翻國際巨頭"。
但聆思的故事告訴我們,中國芯片還有另一條路。
一條不需要最先進的光刻機,不需要和巨頭正面硬剛的路。一條深耕場景、軟硬協同、把用戶真正需要的東西做到極致的路。
全球 AI 芯片市場,其實是一個三層金字塔:
塔尖是云端大算力,被英偉達壟斷,后來者幾乎沒有機會;
中層是高端端側,被高通、蘋果把持,競爭異常激烈;
塔基是海量的消費電子、家電、教育硬件,市場規模是上層的好幾倍,但長期被忽略。
![]()
而中國公司,最擅長的就是打塔基市場。
我們有全球最大的制造業基地,有最完整的產業鏈,有最龐大的消費市場。我們最懂普通消費者需要什么,我們能最快地響應市場的變化。
聆思沒有去搶云端的蛋糕,而是扎根在別人看不起的端側小算力市場,用六年時間,把 1.5 億顆芯片裝進了全世界的智能設備里。它沒有喊過一句 "干翻英偉達",但它實實在在地改變了我們的生活。
很多人到現在還以為,聆思只是一家做語音芯片的公司。
但他們不知道,這家公司已經悄悄完成了從語音到視覺,再到多模態大模型的技術跨越。它正在從一個單一的芯片供應商,變成一個端側 AI 的平臺級公司。
![]()
中國不需要第二個英偉達。
中國需要 100 個聆思這樣的公司。
它們不追風口,不炒概念,不講故事,只是默默地把技術做到極致,把成本降到最低,把體驗做到最好。
當所有人都在盯著云端的萬億大模型市場的時候,端側的萬億市場已經被悄悄瓜分完了。
而那些悶聲干大事的公司,終將走到舞臺中央。
![]()
前沿動態前沿大會
前沿人物
點「在看」,給前前加雞腿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.