品玩4月16日訊,據 SiliconAngel 報道, Google DeepMind正式推出新一代文本轉語音(TTS)模型——Gemini 3.1 Flash TTS。該模型旨在突破傳統語音合成的機械感,通過基于文本的指令,實現對語調、情感及語速的精細控制,提供“熱情”、“驚喜”及“信息播報”等多樣化風格。
該技術的一大亮點在于其“導演級”控制能力,支持美式、英式等多種區域口音,并提供播客、有聲書、新聞主播等預設格式模板。用戶可定義環境背景及對話指令,確保角色在多輪交互中保持一致性,且相關參數可導出為API代碼,保障跨項目語音的一致性。
Gemini 3.1 Flash TTS支持超過70種語言,并在人工分析TTS排行榜中憑借1211分的高分位列第二,超越了眾多同類競品。所有生成內容均搭載SynthID水印,便于識別。目前,開發者已可通過Gemini API及Google AI Studio接入該模型,企業用戶則可經由Vertex AI平臺使用,普通用戶亦可在Google Vids中體驗其功能。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.