“升級后的翻譯模型使得整體推理速度大幅提升80%。
![]()
公司情報專家《財經涂鴉》獲悉,近日,網易有道宣布“子曰”大模型迎來4.0版本的全方位升級,并正式邁入全模態時代。其中核心的“多模態模型”與“語音合成(TTS)模型”同步正式開源。
在27B 參數規模上,“子曰4”面向教育場景,將支持視覺輸入的數理能力拉到了行業頂尖水平(SOTA);在同等參數規模的模型中,“子曰4”在處理帶圖表的數學題、物理題等高難度視覺數理問題上表現不俗;中文純文本數理難題的性能也獲得顯著提升,模型準確率達81.4%,達到行業領先水平。
實際落地的“性價比”成為一大突破。據相關負責人介紹,新模型采用了精細化思維鏈重構方案,成功將推理思維鏈輸出長度壓縮了43.2%,可以用更少Token、更短的推理路徑更快地給出答案,大幅降低了實際業務場景中的推理成本。
此外,子曰研發團隊還針對國內學生真實的作業、考試和提問場景進行了深度優化。
開源TTS支持14 種語言,跨語種不再有「口音」
此次與多模態模型一同開源的還有語音合成(TTS)引擎 ,該引擎基于“語音編碼器 + LLM”架構打造,面向開發者及內容創作者提供零樣本、低門檻的語音克隆與情感合成能力。
目前,它已全面支持中文、英語、日語、韓語、德語、法語、西班牙語、印尼語、意大利語、泰語、葡萄牙語、俄語、馬來語及越南語共14種語言。系統可支持不同語言間同一說話者音色的自然遷移,無需額外訓練即可保持音色一致性,且合成結果具備母語級別的自然度與流暢度,跨語種克隆也沒有口音泄露問題
在聲音克隆方面,子曰4實現了“上傳即可克隆”的全量支持能力,用戶僅需提供任意音頻素材,系統即可在三秒內完成原聲復制。據介紹,該引擎在克隆任務中的準確度超過97%,克隆音色與原聲的相似度達85% 以上,在保留說話人獨特音色的同時,還可精準還原其情感色彩,綜合能力達到該領域第一梯隊。
此外,該開源模型在真實多語言場景中展現出較好的穩健性,可應對日常對話、新聞播報、企業宣傳等不同語境及復雜情感表達等多種合成需求。
翻譯模型同步升級,推理速度提升80%
作為有道最為深厚的技術資產,翻譯模型在本次升級中也迎來了重要的技術升級
在數據層面,子曰團隊收集并清洗了上億級別的多語言數據,并聘請具有專八認證的專業人員進行多維度人工評估,從源頭保證語料的高品質。
在算法層面,模型采用了創新的“多專家 OPD”模式,用一種更聰明的“軟方式”博采眾長,同時通過強化學習引入格式獎勵和語言檢測機制,有效解決了機翻常見的脫靶和語種混出問題。
為了應對高頻、高并發的產業級應用,升級后的翻譯模型配備了高效的加速機制,使得整體推理速度直接飆升80%。配合大模型自動評測與人工隨機抽檢相結合的定制化方案,新一代翻譯模型在文本、圖片和文檔翻譯等多場景下,都展現出了兼具速度與質量的極高水準。
從最初子曰以首個教育垂直大模型姿態亮相、推出顛覆傳統口語練習模式的“虛擬人口語教練HiEcho”,到“子曰”2.0、3.0版本在軟硬件生態中的全面扎根,有道始終走在 AI 賦能場景的最前沿。
2026年,有道按下應用落地加速鍵,陸續發布LobsterAI、有道寶庫、有道同傳Agent、Thinkflow等一系列AI Agent產品,實現了全場景 AI Agent 矩陣的前瞻性布局。
此次“子曰4”的升級與核心模型全量開源,不僅大幅降低了開發者在多模態與語音合成領域的應用門檻,也向行業展示了以底層核心技術滋養上層 Agent 矩陣的生態閉環。有道表示,隨著全球開發者與開源社區的共同注入,希望這套全模態大模型生態能在更廣泛的產業中激發出真正的生產力變革。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.