AI范兒 · 產品拆解? 4 分鐘
說實話,我現在大部分時候,包括寫這篇文章,都是用語音輸入法來完成的。
語音正在慢慢變成我使用軟件最自然的一種方式,而且它的速度確實會比打字快很多。
但現在的語音產品,已經不只是"語音轉文字"這么簡單了。它開始能夠理解語義,真正知道你想表達什么,還能結合上下文,甚至直接幫你完成一些操作。
這里列了三種不同的語音使用模式:
1. 語音交互模式 這種模式不僅能理解我們說的話,還能幫我們真正去執行任務。比如我們常見的點外賣、點奶茶等操作。
2. 系統到語音模式 軟件能將上下文信息轉化為實時的語音提示。比如系統會通過語音方式提醒你:“現在該去登機了。”
3. 實時語音交互模式 這更多是指實時的翻譯對話或同聲傳譯等應用場景。
某種程度上,語音正在變成一種新的交互界面。以前是點圖形界面,配合打字輸入,但現在越來越多的軟件開始變成"直接對話"。
就在昨晚,OpenAI 又發布了一套新的實時語音模型。核心其實就一句話:
AI 不只是能聽懂你說什么了,它開始能一邊聽、一邊理解、一邊行動了。
這一次一口氣發布了三個模型,但最核心的是 GPT-Realtime-2。
01GPT-5 級推理能力
OpenAI 表示,GPT-Realtime-2 是他們第一個具備 GPT-5 級別推理能力的實時語音模型。
以前的語音助手,就是你一句我一句的,Siri 那種。沒法處理上下文,更別說主動完成任務了。
但這個東西開始有點像真正的 Agent 了。它不僅能理解對話,還能調用工具、處理中斷、保持長上下文記憶,甚至在對話過程中持續推理。
比如你說一句:"幫我訂一張明天下午去上海的票,最好靠窗,順便看看天氣。"
它不是機械地拆關鍵詞,而是真的會一步步開始完成任務。這已經很接近我們理想中的 AI 助理形態了。
OpenAI 在這里舉了一個例子,就是說他跟那個語音助手說:“我現在要去開一個客戶會了,那你能幫我檢查一下那個日程安排嗎?”
它很快就幫他查好,并告訴他接下來的日程安排是什么樣子的。
這個時候突然有個人插進來要跟他講話,他就跟助理說:“你稍等一會兒,我現在要跟那個同事講話。” 那個助理就安安靜靜地待在后面。
再之后,他又繼續回到跟助理的對話中。
然后他就跟它講,把今天重要的內容更新到 CRM 系統里去。它就調用了 CRM 系統,然后把它更新進去了。
特別有意思的是,它不僅能聽懂你說的話,而且還會跟一個真人一樣:在需要它安靜待在那邊的時候,它就待在那邊;最后還能幫你具體執行一些任務,而不只是對話了。
還有一個大升級:上下文窗口從 32K Token 直接提升到了 128K Token。
以前聊久了,AI 很容易"失憶"。現在這種情況會好很多。
02它開始懂語氣了
一個很有意思的點,是它開始強調"語音里的情緒感"。
OpenAI 提到,它會更自然地控制語調和反饋方式。提問時保持冷靜,用戶沮喪時給予理解,問題解決后表達積極的反饋。
這特別像真人溝通里的"語氣"。
很多時候,人與人交流,真正影響體驗的,并不是答案本身,而是說話方式。
這也是為什么很多事情當面聊比打字要好得多,文字是冷冰冰的,語言本身是有情緒在里面的。
另一個變化是,它現在支持并行工具調用。可以同時處理多個任務,而不是像以前那樣一個一個排隊。
在基準測試里,Big Bench Audio 數據從上一代的 81.4% 提升到了 96.6%。
03同聲傳譯要來了
另一個模型是 GPT-Realtime-Translate,專門做實時翻譯。
它支持 70 多種輸入語言,輸出 13 種語言。
重點不是"翻譯"本身,而是它已經開始接近"同聲傳譯"了:一個人講話的時候,它幾乎可以同步把另一種語言說出來,還能盡量保持原本的語速、語氣和上下文。
口音、專業詞匯、上下文切換,都能處理。
OpenAI 在這里舉了一個例子:一個人在用法語演講,通過電腦實時轉成了英語;接著另一個人直接用德語打斷,系統也能直接翻譯成英語。
更厲害的是,其中涉及到的一些專業詞匯,比如 GPT、Computer Use 等等,它都能夠幫你很好地解釋出來。
這個東西一旦成熟,真的會很夸張。
旅游、跨國會議、客服、教育,甚至直播行業,都會被影響。
感覺同聲傳譯行業要被顛覆掉了。
提示坦率講,我在會議現場看到過實時字幕翻譯,確實蠻震撼的。但現在能力還太弱,明顯能看到一些錯誤翻譯。這次的更新,是奔著真正可用去的。
04邊說邊出字幕
最后一個是 GPT-Realtime-Whisper,主要負責實時轉錄。簡單講,就是邊說邊出字幕。
會議記錄、課堂字幕、活動直播、實時筆記,這些場景都非常適合。
這次發布的,其實還只是 API,目前更多還是給開發者用。但 OpenAI 表示,很快會進入到 ChatGPT 里面去。已經有網友發出內測體驗了,感覺很爽。
說實話,我非常期待這個功能。有了它,做項目的時候不需要再盯著 Codex 一直打字了,直接說:"幫我做這個,幫我做那個!"它調用工具幫你全做掉。
這就是為什么越來越多 AI 產品開始"語音優先"。以前認為 AI 的入口是聊天框,但接下來,它很可能慢慢變成麥克風。
你不用再"輸入 Prompt"。
因為相比鍵盤,人類本來就更擅長說話。
你現在用語音輸入的頻率高嗎?聊聊你覺得最大的障礙是什么
覺得有用 → 點個??在看轉給朋友
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.