網易首頁 > 網易號 > 正文 申請入駐

我試了一下豆包的全雙工語音,這些場景真的有點離譜

0
分享至

先說結論從"對講機"到"真電話":全雙工到底牛在哪?技術上是怎么做到的??聽流:持續監聽你的聲音,提取語義?說流:根據語義生成回復,同時播放實測場景1:嘈雜咖啡廳,它真的能"聽懂誰在跟它說話"實測場景2:思考停頓,它終于不搶話了實測場景3:實時打斷,反應速度快到有點嚇人實測場景4:飛花令對戰,高頻互動也能扛住技術對比:字節vs OpenAI,誰贏了?1延遲持平:Seeduplex的320ms延遲,和OpenAI GPT-4o Realtime完全一致2中文優先:GPT-4o Realtime只支持英文,Seeduplex首次在中文場景落地全雙工3規模化落地:其他模型要么在實驗室,要么只開放API,Seeduplex已經在豆包App全量上線,日活超1.45億行業意義:語音交互進入"實時流"時代如何體驗?1更新豆包App至最新版本2點擊對話框內的"打電話"按鈕3選擇桃子音色(目前只有這個音色支持全雙工)4開始對話——一次喚醒,持續聊天寫在最后

4月9日,字節跳動發布了原生全雙工語音大模型Seeduplex,已在豆包App全量上線。

這不是一次普通的語音模型迭代。這是全球首個億級用戶可用的全雙工語音模型,標志著AI語音交互從"回合制"正式邁入"實時流"時代。

關鍵是:延遲只有320毫秒,和OpenAI的GPT-4o Realtime持平,但支持中文。

我第一時間試了一下,說實話,有點被震撼到。

先說個概念:什么是全雙工?

以前的AI語音助手,都是"半雙工"——你說話時它聽,它說話時你等。就像對講機,按住說話,松開聽對方回復。

全雙工是什么?就像真正的電話——雙方可以同時說話,你可以隨時打斷它,它也能在你說話時插話。

傳統半雙工語音助手的延遲普遍超過2秒,你需要說完一整句話,等它處理,再等它回復。這種"回合制"交互,本質上把人類自然對話切割成了碎片。

好家伙,這個區別有多大?打個比方:

半雙工= 對講機:說完按按鈕,等對方回復
全雙工= 真電話:邊聽邊說,隨時打斷

Seeduplex的核心突破,就是讓AI語音從"對講機"進化成了"真電話"。

我翻了十幾篇技術資料,發現Seeduplex用的是"雙流并行"架構。

以前的語音助手,處理流程是這樣的:你說話 → 語音識別(ASR) → 大模型理解(LLM) → 語音合成(TTS) → 播放。每一步都要等上一步完成,延遲就是這么來的。

Seeduplex呢?它把"聽"和"說"分成兩條并行流水線:

兩條流水線同時跑,互不等待。這就是"邊聽邊說"的技術本質。

用一個類比:以前的語音助手像"接力賽",一棒接一棒;Seeduplex像"雙軌鐵路",兩列火車同時跑。

這個架構的代價是計算量翻倍,但字節通過"共享KV-Cache"技術,把計算量降低了27%。這就是為什么它能在2B參數規模下,實現和1.6B參數的GPT-4o Realtime相同的延遲。

我特意選了一個人聲鼎沸的咖啡館做測試。鄰桌大叔在講電話,服務員在報單,咖啡機轟鳴——這幾乎是語音助手的"災難現場"。

以前用其他語音助手,這種情況基本就廢了:要么把鄰桌的話當成指令執行,要么直接卡殼。

但Seeduplex的表現讓我有點意外。

我正在跟豆包聊"周末去哪玩",旁邊服務員突然喊"一杯拿鐵不加糖"。豆包只是短暫停頓了一下,等服務員走開,無縫接回"周末去哪玩"的話題。

它不是簡單"降噪",而是像人類一樣,在聲學層面就分辨出"哪句是沖我來的"。

官方數據顯示,在復雜場景下,Seeduplex的誤回復率和誤打斷率比半雙工模型減少了一半。這不是冰冷的數字,而是真實場景中的體驗質變。

說實話,這個能力讓我有點興奮。以前在公共場所用語音助手,總得找個安靜角落,生怕被噪音打斷。現在?隨便在哪都能用。

這是我最想測試的場景。

跟AI語音助手聊天,最煩的就是——我剛說一半,它就開始回復了。明明我還在思考下一句怎么說,它已經迫不及待地插嘴。

我故意在對話中頻繁卡殼:"um…我覺得…um…我的想法是…um…"

以前的語音助手,聽到第一個停頓就開始回復。結果我說完"我覺得",它已經開始回答了,我后面的話全被截斷。

Seeduplex呢?它安靜地等我說完。

它的"動態判停"能力,能聯合語音和語義特征,綜合判斷用戶意圖。面對思考猶豫,它會耐心傾聽;在用戶說完后,又能快速響應。搶話比例下降了40%。

這個體驗真的有點離譜。以前跟AI說話,得像寫文章一樣,一句話說完才能停頓。現在?可以像跟真人聊天一樣,邊想邊說,它會等我。

這個場景我測試了多次。

我讓豆包給我講一個故事,講到一半,我突然喊"等一下"。

以前用其他語音助手,我得等它把當前這句話說完,才能打斷。有時候喊好幾遍"停",它還在自顧自地講。

Seeduplex呢?我剛喊出"等一下",它立刻收聲。

詞級實時打斷準確率達到97.3%,延遲只有320毫秒——這個數字是什么概念?真人對話的平均反應時間大約是200-300毫秒。Seeduplex已經接近真人水平。

我試了好幾次,每次打斷都成功。這種"我說停它就停"的感覺,真的有點像在跟真人對話。

這個場景是意外發現的。

我突發奇想,跟豆包玩起了飛花令——每人說一句帶"月"字的詩,看誰先卡住。

以前用語音助手玩這種游戲,體驗很差:我說完,等2秒,它回復,我再接。節奏完全斷了。

Seeduplex呢?我說"床前明月光",它秒回"疑是地上霜"。我說"舉頭望明月",它接"低頭思故鄉"。一來一回,節奏快得像在跟真人對戰。

對話流暢度MOS分(主觀體驗評分)提升了12%,整體通話滿意度提升了8.34%。這些數字背后,是用戶從"忍耐"到"享受"的質變。

玩了十幾輪,我才意識到:這已經不是"跟AI對話"了,這是"跟真人聊天"的感覺。

我整理了一下當前主流全雙工語音模型的對比數據:

模型: Google Astra | 延遲: 1.2秒 | 語言支持: 多語言 | 參數規模: 8B | 可用性: 實驗室

模型: Amazon Alexa LSM | 延遲: 800ms | 語言支持: 多語言 | 參數規模: - | 可用性: 未公開

模型: OpenAI GPT-4o Realtime | 延遲: 320ms | 語言支持: 僅英文 | 參數規模: 1.6B | 可用性: API

模型: 字節Seeduplex | 延遲: 320ms | 語言支持: 中文優先 | 參數規模: 2B | 可用性: 億級用戶

關鍵發現:

這是全雙工語音技術第一次實現商業規模化落地。從實驗室走向大眾市場,這個跨越比技術參數本身更有意義。

Seeduplex的發布,不只是字節一個產品的升級,而是整個AI語音交互行業的里程碑。

過去十年,語音助手一直被困在"半雙工陷阱"里:你必須說完一整句話,它才開始處理;它一旦開口,就聽不見你的任何聲音;背景里的一句雜音,可能就讓它"斷片"。

這種"回合制問答",本質上是把人類自然對話切割成碎片。機械感由此而生。

Seeduplex的突破,在于重構了對話的"時間感"。它不再依賴"靜音時長"判斷對話節點,而是像人類一樣,通過"聲學特征+語義狀態"雙軌判斷。

用一個比喻:以前的語音助手像"讀稿機器",你必須按它的節奏來;Seeduplex像"即興對話",你們可以互相搶話、互相等待、互相打斷。

這才是語音交互該有的樣子。

我試了一下,體驗方式很簡單:

不需要每句話都喊"豆包豆包",喚醒一次就能一直聊下去。

Seeduplex代號沒有公開,但它的能力一點都不低調。

320毫秒延遲、97.3%打斷準確率、40%搶話比例下降——每一條都是實打實的進步。關鍵是,這是全球首個億級用戶可用的全雙工語音模型,不是實驗室里的Demo。

我試了一下,真的有點離譜。以前跟AI語音助手聊天,總得小心翼翼,生怕說錯話、怕被打斷、怕噪音干擾。現在?可以像跟真人一樣,邊想邊說,隨時打斷,在咖啡廳也能用。

這不是"錦上添花",這是"交互革命"。

當然,Seeduplex也不是完美的。目前只支持桃子音色,多語種混合識別還有優化空間。但它的進步速度,讓我對AI語音的未來充滿期待。

下次更新,我們再聊聊全雙工語音在更多場景的應用可能性。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南通一養老公司被罰!

南通一養老公司被罰!

好通網
2026-04-26 10:19:49
徹底敗光路人緣!皇馬核心惹怒球迷,更衣室內全隊不滿

徹底敗光路人緣!皇馬核心惹怒球迷,更衣室內全隊不滿

奶蓋熊本熊
2026-04-26 00:41:29
今夜,直線拉升!美伊談判,重大突發

今夜,直線拉升!美伊談判,重大突發

中國基金報
2026-04-26 00:24:15
《10間敢死隊》口碑爆棚,陳思誠又救中國電影,保守估計能破10億

《10間敢死隊》口碑爆棚,陳思誠又救中國電影,保守估計能破10億

八卦南風
2026-04-26 09:48:45
被活活絞了40分鐘 行刑后脖子只剩一根韌帶相連 24年后真相浮出水

被活活絞了40分鐘 行刑后脖子只剩一根韌帶相連 24年后真相浮出水

尋墨閣
2026-04-26 00:17:44
凈利不足6億卻派息近18億元!甘肅銀行“土豪式”分紅引爭議

凈利不足6億卻派息近18億元!甘肅銀行“土豪式”分紅引爭議

券商中國
2026-04-26 09:25:40
藍眼北京人控訴陳麗華20余年,比女首富更該銘記

藍眼北京人控訴陳麗華20余年,比女首富更該銘記

老蝣說體育
2026-04-19 17:40:22
無視兩大名帥!切爾西鎖定"瓜迪奧拉 2.0 ",傳奇或將回歸

無視兩大名帥!切爾西鎖定"瓜迪奧拉 2.0 ",傳奇或將回歸

一隅非生
2026-04-26 06:47:41
杭州一男子假裝房東騙取500元定金,被抓前還在問AI:有沒有違法,該怎么辦

杭州一男子假裝房東騙取500元定金,被抓前還在問AI:有沒有違法,該怎么辦

環球網資訊
2026-04-26 08:08:13
越跑越累!網約車司機心酸訴苦:真不想跑了!

越跑越累!網約車司機心酸訴苦:真不想跑了!

網約車焦點
2026-04-26 10:01:35
馬未都現身山東,身家上億卻在路邊攤喝羊湯,71歲還對瓶喝56°酒

馬未都現身山東,身家上億卻在路邊攤喝羊湯,71歲還對瓶喝56°酒

攬星河的筆記
2026-04-25 19:20:03
趙本山不再沉默,扯下沈春陽遮羞布,揭露小沈陽真正“消失”原

趙本山不再沉默,扯下沈春陽遮羞布,揭露小沈陽真正“消失”原

阿廢冷眼觀察所
2026-04-26 10:10:35
卡魯索爆發!雷霆121-109勝太陽,亞歷山大42+4+8,米切爾15+6+2

卡魯索爆發!雷霆121-109勝太陽,亞歷山大42+4+8,米切爾15+6+2

小徐講八卦
2026-04-26 08:52:34
謝潑德承認愚蠢失誤!休媒曬漏人集錦 專家稱進攻也差休媒拒接受

謝潑德承認愚蠢失誤!休媒曬漏人集錦 專家稱進攻也差休媒拒接受

顏小白的籃球夢
2026-04-26 07:24:15
最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準時出海

最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準時出海

孤單是寂寞的毒
2026-04-24 16:45:41
白宮晚宴槍擊現場:特朗普與華人美女同臺,槍響后特種兵持槍上臺

白宮晚宴槍擊現場:特朗普與華人美女同臺,槍響后特種兵持槍上臺

影像溫度
2026-04-26 09:56:08
羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

譚老師地理大課堂
2026-04-22 00:03:57
孔帕尼:奧利塞的水平高到荒謬;中場換人是計劃好的

孔帕尼:奧利塞的水平高到荒謬;中場換人是計劃好的

懂球帝
2026-04-26 01:02:06
曹云金說:我在德云社干了五年,一個月演30場,工資才四千多

曹云金說:我在德云社干了五年,一個月演30場,工資才四千多

時分秒說
2026-04-25 11:13:09
高開低走!再多的名利也救不了,緋聞不斷“出軌成癮”的陳小藝

高開低走!再多的名利也救不了,緋聞不斷“出軌成癮”的陳小藝

黔鄉小姊妹
2026-04-26 09:44:22
2026-04-26 10:47:00
AI效率筆記
AI效率筆記
專注AI工具測評與效率提升。
398文章數 10關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

數碼
手機
旅游
本地
游戲

數碼要聞

OPPO手表6月推送新功能:身心狀態提醒、日照時長監測一應俱全

手機要聞

小米15解鎖工具流出,8750機型通吃,但我卻不建議折騰!

旅游要聞

非遺流量變消費增量 “馬上入川·蜀你好玩”第二季四川中江啟動

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

日本澀澀真人影游重返Steam!三大美女伺候 但鎖國區

無障礙瀏覽 進入關懷版