網易首頁 > 網易號 > 正文 申請入駐

字節Seed最新模型,讓豆包學會閉嘴聽人說話(罵人也更自然了!)

0
分享至


作者 | 董道力
郵箱 | dongdaoli@pingwest.com

4 月 9 日,字節跳動旗下 AI 研究團隊 Seed 發布了新的語音模型 Seeduplex,同步完成了在豆包 App 的全量上線。


語音模型我們已經見過很多了,更新迭代無非是聲音更擬人、延遲更低。而 Seeduplex 的亮點不在這些,而是它文章標題里藏著的一個詞:Full-Duplex,中文翻譯過來叫“全雙工”。

這幾個字,到底什么意思。

1

豆包學會邊說邊聽

全雙工是通信工程里的術語,簡單來說,就是通信雙方可以同時收發信號,互不干擾。

比如對講機是半雙工,同一時刻只能一個人說話,說完松開按鈕對方才能開口,而電話是全雙工,兩個人可以同時說話,同時聽。

豆包此前的語音模型,本質上是對講機邏輯。架構上"聽"和"說"是兩個獨立狀態,不能同時運行。

模型在輸出語音的時候,麥克風輸入要么被關掉,要么不被處理。判斷你是否說完了的,是一個叫 VAD(語音活動檢測)的獨立模塊,檢測到聲音停了,才切換到"處理"狀態,再生成回復。

VAD 只看聲音有沒有,不懂你在說什么。你停兩秒想詞,它判定你說完了,旁邊有人咳嗽,它判定你開口了。

按字節的技術文檔說法,傳統半雙工系統"使用獨立的 VAD 進行機械式音頻分割,由于決策僅限于孤立的聲學特征或局部文本語義特征,這些系統在復雜環境中容易被帶跑,或在用戶停頓時觸發過早響應"。

Seeduplex 則解決了這個問題。

模型在說話的同時,持續處理麥克風輸入,實時判斷哪些聲音是用戶在對它說話,哪些是背景噪音,哪些是停頓思考而不是說完了。

這套判斷交由同一個 LLM 統一完成,聲學特征和語義上下文同時參與決策,不再是幾個獨立模塊各干各的。和此前豆包使用的半雙工框架相比,Seeduplex 的判停 MOS 分提高了 8%,對話流暢度 MOS 分提升了 12%。

(MOS 是通信領域衡量語音質量的主觀評測標準,本質上是讓真實用戶打分,再取平均值。分數越高,代表用戶感知到的體驗越好。)

具體指標上,判停延遲降低約 250ms,復雜場景下 AI 搶話比例減少 40%,用戶想打斷時,響應延遲縮短約 300ms,準確率同步提升,復雜聲學干擾場景下,誤回復率和誤打斷率降低一半。


字節還做了一組真人對話測試,把 Seeduplex、半雙工方案和人人對話放在一起比。判停上 Seeduplex 比半雙工提升了 8%。響應打斷上甚至略好于人人對話的平均水平,因為真實對話里人也會偶爾反應慢(其實半雙工也好于人人)。但整體對話流暢度上,和真人聊天仍有不小的差距。

1

全雙工的豆包交互更加自然

說完技術層面的變化,使用場景上,全雙工的 AI 語音的邊界也有不小擴展。

比如開車時,車里廣播和導航同時在響,你順口問 AI"這條路堵不堵",Seeduplex 能從混雜的聲音里分辨出哪句是你說的,直接回答,而不是被導航播報帶跑。


在咖啡館碰到朋友打了個招呼,或者快遞員敲門你隨口應了一聲,AI 能判斷出這些話不是對它說的,不會插進來亂回。

練英語口語時,你磕磕絆絆說了半句,停下來想詞,改口重說,AI 不會在你停頓的間隙搶話,而是等你把完整的意思說出來,再給反饋。

這幾個場景有一個共同點:你不需要專門騰出時間、找安靜地方、說完整句子。對話嵌進了日常活動,而不是日常活動為對話讓路。

全雙工還帶來了一種新的交互可能,AI 開始有了"說話間隙"。以前 AI 說話時你只能等,或者出聲強行打斷,但它停下來不是因為聽懂了你想說什么,而是檢測到有聲音進來了。現在你說"等一下",它能聽懂這是打斷意圖,立刻停下來。

反過來,當你在說話時,AI 也能給出實時的回應信號,比如"嗯""好的",而不是沉默著等你把話說完。

這種你來我往的節奏,是半雙工架構物理上做不到的事。

之前的半雙工 AI 語音的隱性前提是,用戶必須進入"使用 AI 模式"。這個前提把語音 AI 的可用場景鎖在了一個很窄的范圍里。

全雙工解決了這個前提,讓用戶更愿意和豆包對話了。

1

AI 語音助手的技術分野

全雙工語音 AI 的競爭格局,目前有幾個方向在跑,技術路線差異很大。

原生音頻全雙工是走得最遠、也最難落地的一條。

代表是法國 AI 實驗室 Kyutai 在 2024 年 9 月發布的開源模型 Moshi,用同一個底層模型在并行流上同時對用戶音頻和系統音頻建模,并引入"內心獨白"機制,在生成音頻的同時預測對齊文本作為內部推理層,順帶獲得了流式轉寫能力。

NVIDIA 今年 1 月發布的 PersonaPlex 在此基礎上引入混合提示系統,讓模型可以通過文字定義角色、語音嵌入定義聲音特征,扮演特定人格。

這個方向的問題是穩定性,學術先驅居多,沒有產品化落地。


Thinker-Talker分離架構是另一種實現路徑。

阿里 2025 年 3 月發布的 Qwen2.5-Omni 將推理和輸出拆成 Thinker 與 Talker 兩個組件,前者在文本域完成推理,后者把結果實時轉為音頻,LLM 生態的長上下文、工具調用、檢索注入全部可以復用。

代價是同時聽說比雙流方案更難實現,端到端延遲高于流式級聯管道方案。


流式級聯管道(ASR→LLM→TTS)是目前生產環境最普遍的方案。延遲可控在 1 秒以內,工具調用支持最成熟,但本質是輪流制,系統必須等用戶說完才能處理,全雙工能力無從談起。

Seeduplex 屬于原生音頻全雙工方向,但解決了其他方案沒有解決的問題:在豆包上穩定運行。

學術環境和產品環境的差距,比多數人想象的大。字節在技術文檔中提到,落地過程中需要解決的包括高并發下的延遲抖動、音頻輸入輸出卡頓和服務穩定性,這些問題在論文里不存在,在數億用戶面前全會出現。

全雙工解決了能不能同時聽說的問題,說得多自然還需要改進。

字節自己在文章末尾也承認,與真人對話相比,整體流暢度仍有相當差距。下一步包括多方對話場景優化、引入視覺輸入實現聽看說聯動,以及邊聽邊思考、邊聽邊搜索等方向,每一個都是新的工程難題。

從對講機到電話,中間有很多年的演化,Seeduplex 是這條路上的一個節點,不是終點。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南大光電:2025年ArF光刻膠收入突破2000萬元 未達到滿產狀態

南大光電:2025年ArF光刻膠收入突破2000萬元 未達到滿產狀態

證券時報
2026-04-21 12:53:05
哈登霸氣比2被贊超巨!出戰21勝7負騎士福星 36歲胡須花白仍巔峰

哈登霸氣比2被贊超巨!出戰21勝7負騎士福星 36歲胡須花白仍巔峰

顏小白的籃球夢
2026-04-21 15:09:52
兵敗如山倒!國產新能源也許已證明:中國壓根不需要二線豪華品牌

兵敗如山倒!國產新能源也許已證明:中國壓根不需要二線豪華品牌

混沌錄
2026-04-21 20:48:42
徹底避嫌!消息稱:哈里梅根若回英國,威廉凱特將直接躲起來

徹底避嫌!消息稱:哈里梅根若回英國,威廉凱特將直接躲起來

李Dog嗨
2026-04-20 22:32:41
切爾西去年夏窗四前鋒到隊,總轉會費1.5億但在英超一共只進4球

切爾西去年夏窗四前鋒到隊,總轉會費1.5億但在英超一共只進4球

懂球帝
2026-04-21 22:04:07
這才是真正的高人(非常經典)

這才是真正的高人(非常經典)

尚曦讀史
2026-04-13 08:30:06
演員陳紫函回應《浪姐》邀請:每一季都有去溝通,我記憶力不好

演員陳紫函回應《浪姐》邀請:每一季都有去溝通,我記憶力不好

韓小娛
2026-04-19 06:25:18
卡戴珊大姐47歲生日照流出,大玩“腳趾吻”,這波恩愛太重口味

卡戴珊大姐47歲生日照流出,大玩“腳趾吻”,這波恩愛太重口味

世界王室那些事
2026-04-21 15:37:37
寧德時代麒麟凝聚態電池發布,最高續航1500公里

寧德時代麒麟凝聚態電池發布,最高續航1500公里

新京報
2026-04-21 20:38:22
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
新大外到隊后,誰將被淘汰?薩林杰麥考爾都有可能,或另有其人

新大外到隊后,誰將被淘汰?薩林杰麥考爾都有可能,或另有其人

多特體育說
2026-04-21 22:58:32
太慘了!網傳山東39歲男子因病離世,兩孩尚幼,妻子無業怎么辦

太慘了!網傳山東39歲男子因病離世,兩孩尚幼,妻子無業怎么辦

火山詩話
2026-04-21 13:53:53
這兩口子開始招人煩了?

這兩口子開始招人煩了?

奮斗在韓國
2026-04-20 17:15:34
不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

舊時光老師
2026-04-19 19:08:29
時長超三小時的6部史詩級電影,全程無尿點,看完直接封神

時長超三小時的6部史詩級電影,全程無尿點,看完直接封神

小微看電影
2026-04-21 14:15:03
外媒實測Claude設計神器:5分鐘生成網頁原型,半小時燒掉八成周配額

外媒實測Claude設計神器:5分鐘生成網頁原型,半小時燒掉八成周配額

智東西
2026-04-20 22:30:20
“金價翻倍沒有懸念”,知名經濟學家預測!富國銀行:金價將飆升至8000美元

“金價翻倍沒有懸念”,知名經濟學家預測!富國銀行:金價將飆升至8000美元

中國能源網
2026-04-21 09:50:10
74歲泰王打破宮規,帶著小妾巴帕頌祭祖,蘇提達王后成了配角

74歲泰王打破宮規,帶著小妾巴帕頌祭祖,蘇提達王后成了配角

紅袖說事
2026-04-21 17:22:43
關鍵時刻相當強硬!森林狼后場大將在季后賽中的狀態相當穩定?

關鍵時刻相當強硬!森林狼后場大將在季后賽中的狀態相當穩定?

稻谷與小麥
2026-04-21 22:54:15
寧德時代,炸裂發布!充電10%到98%,僅需6分27秒!

寧德時代,炸裂發布!充電10%到98%,僅需6分27秒!

證券時報e公司
2026-04-21 21:07:27
2026-04-22 00:56:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
3024文章數 10491關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

游戲
家居
手機
教育
公開課

漲價兩周即回調!索尼官方PS5數字版定價重回399美元

家居要聞

詩意光影 窺見自然之境

手機要聞

iPhone 18標準版屏幕規格,可能開倒車?

教育要聞

對不起,我有點“摳”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版