![]()
6 月 5 日,在 2026 AI 產業應用大會上,騰訊云音視頻正式發布 AI 原生能力底座 WAND。WAND 從底層模型、媒體能力到接入方式全面升級,音視頻的媒體 AI 能力將以 Agent-Native 模式向行業開放。
騰訊云音視頻憑借超過 20 年的技術積累,已構建起業界最全的音視頻產品矩陣,保障音視頻全鏈路的流暢體驗,為媒體內容生產實現提質增效。IDC 報告顯示,騰訊云音視頻解決方案已連續 11 次保持中國及出海市場份額第一。進入 Agent 時代,音視頻除了要“傳得快、播得清”,還要承擔起 Agent 的“眼、耳、口”,既要讀懂畫面與聲音,也要生成可看可聽的內容,幫助 Agent 實現更智能的視聽體驗。而要讓 Agent 流暢調用這些能力,生產必須端到端自動跑通,傳統割裂的工具鏈已難以支撐。
面對這些改變,騰訊云音視頻在編解碼、傳輸、增強等長期積累的原子能力之上,引入六大自研媒體專用模型,并以 Agent-Native 方式開放,共同構成 WAND 的三層架構。WAND 取自四個關鍵詞:Wide(全場景覆蓋)、Amplify(以 AI 放大創作潛能)、Neural(自研模型驅動)、Delivery(穩定、一站式交付),從生成到交付一站式完成。
具體來看,最底層是模型引擎,由編解碼、增強、擦除、生成、理解、音頻六大自研媒體專用模型構成,補充生圖、生視頻、生音樂、生語音、生 3D等主流生成式基礎大模型在媒體生產流程上的應用能力。
模型之上是面向調用的能力層。基于模型能力,WAND 把 60+ 項媒體 AI 能力按生成、理解、處理、編碼四個環節重新組織,通過 API、Agent 預編排工作流(Agentic Workflow)和 Skills 三種 Agent-Native 模式開放。再往上,這些產品能力被組織為面向具體行業的端到端場景方案。
![]()
WAND能力架構圖
WAND 的媒體專用模型,更貼合業務的實際需求。六大模型基于騰訊音視頻業務沉淀的垂直領域生產數據訓練,針對不同行業、不同場景分別做了專項調優,因而在真實業務中能保持穩定產出、多場景適配。以AIGC內容處理為例。在 AI 換裝、商品套圖等電商應用中,WAND 生成模型針對不同品類、不同業務需求分別訓練了處理策略:換裝能區分毛衣、西裝的版型與材質差異,套圖貼合電商運營實際的構圖與風格,因而報錯率更低、圖片可用率更高。
![]()
WAND AIGC生產賦能電商場景
WAND 還解決了生產效率的問題。WAND 把生成、理解、處理、編碼的能力收進同一套體系,并以 Agent 友好的方式開放編排接口。Agent 可以從內容理解走到素材生成,再自動完成畫質增強與編碼適配,端到端跑通整條鏈路,無需切換工具。由此,音視頻的媒體 AI 能力不再是彼此獨立的單一工具,而是可被 Agent 統一調度的生產級能力。
以短漫劇創作為例,WAND 依托生成、擦除、增強、壓縮等模型能力,將劇本生成、分鏡制作、角色一致性保持、智能配音、合成增強串成一條自動鏈路,從生產到交付整套素材由 Agent 驅動產出,平均生產效率提升 90%,目前已服務國內 80%以上的頭部漫劇平臺。其中,AI增強與無痕擦除雙雙榮獲 NAB Show 2026 年度產品獎。
![]()
WAND AIGC內容處理賦能視頻處理分發
賽事直播對實時性與并發要求極高,需要在毫秒級延遲下同步完成解說、集錦生成、畫質提升與多語種分發。WAND 通過自研模型協同調度,將識別、生成、合成、編碼整合為全自動化流程:實時追蹤進球、撲救等高光時刻,自動觸發集錦生成與多語種解說合成,再按終端適配編碼下發,碼率較傳統方案節省超 50%。該方案已累計支撐 FIFA 世界杯、英超、西甲、ICC 板球世界杯、英雄聯盟 S 賽、冬奧會等數千場全球頂級賽事和活動,成為亞太地區最大的賽事直播技術底座。
![]()
WAND AI全能賽事制播Agent解決方案
騰訊云音視頻團隊表示,WAND 的發布,標志著騰訊云音視頻從提供單點媒體處理能力,升級為面向 AI 應用與 Agent 的原生媒體底座。未來,騰訊云將與更多客戶共同探索 AI Agent 時代的音視頻應用形態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.