勇礪商業(yè)評(píng)論 阿桶觀察 白麗
6 月 5 日,在 2026 AI 產(chǎn)業(yè)應(yīng)用大會(huì)上,騰訊云音視頻正式發(fā)布 AI 原生能力底座 WAND。WAND 從底層模型、媒體能力到接入方式全面升級(jí),音視頻的媒體 AI 能力將以 Agent-Native 模式向行業(yè)開(kāi)放。
![]()
騰訊云音視頻憑借超過(guò) 20 年的技術(shù)積累,已構(gòu)建起業(yè)界最全的音視頻產(chǎn)品矩陣,保障音視頻全鏈路的流暢體驗(yàn),為媒體內(nèi)容生產(chǎn)實(shí)現(xiàn)提質(zhì)增效。IDC 報(bào)告顯示,騰訊云音視頻解決方案已連續(xù) 11 次保持中國(guó)及出海市場(chǎng)份額第一。進(jìn)入 Agent 時(shí)代,音視頻除了要“傳得快、播得清”,還要承擔(dān)起 Agent 的“眼、耳、口”,既要讀懂畫(huà)面與聲音,也要生成可看可聽(tīng)的內(nèi)容,幫助 Agent 實(shí)現(xiàn)更智能的視聽(tīng)體驗(yàn)。而要讓 Agent 流暢調(diào)用這些能力,生產(chǎn)必須端到端自動(dòng)跑通,傳統(tǒng)割裂的工具鏈已難以支撐。
面對(duì)這些改變,騰訊云音視頻在編解碼、傳輸、增強(qiáng)等長(zhǎng)期積累的原子能力之上,引入六大自研媒體專用模型,并以 Agent-Native 方式開(kāi)放,共同構(gòu)成 WAND 的三層架構(gòu)。WAND 取自四個(gè)關(guān)鍵詞:Wide(全場(chǎng)景覆蓋)、Amplify(以 AI 放大創(chuàng)作潛能)、Neural(自研模型驅(qū)動(dòng))、Delivery(穩(wěn)定、一站式交付),從生成到交付一站式完成。
具體來(lái)看,最底層是模型引擎,由編解碼、增強(qiáng)、擦除、生成、理解、音頻六大自研媒體專用模型構(gòu)成,補(bǔ)充生圖、生視頻、生音樂(lè)、生語(yǔ)音、生 3D等主流生成式基礎(chǔ)大模型在媒體生產(chǎn)流程上的應(yīng)用能力。
模型之上是面向調(diào)用的能力層。基于模型能力,WAND 把 60+ 項(xiàng)媒體 AI 能力按生成、理解、處理、編碼四個(gè)環(huán)節(jié)重新組織,通過(guò) API、Agent 預(yù)編排工作流(Agentic Workflow)和 Skills 三種 Agent-Native 模式開(kāi)放。再往上,這些產(chǎn)品能力被組織為面向具體行業(yè)的端到端場(chǎng)景方案。
![]()
WAND能力架構(gòu)圖
WAND 的媒體專用模型,更貼合業(yè)務(wù)的實(shí)際需求。六大模型基于騰訊音視頻業(yè)務(wù)沉淀的垂直領(lǐng)域生產(chǎn)數(shù)據(jù)訓(xùn)練,針對(duì)不同行業(yè)、不同場(chǎng)景分別做了專項(xiàng)調(diào)優(yōu),因而在真實(shí)業(yè)務(wù)中能保持穩(wěn)定產(chǎn)出、多場(chǎng)景適配。以AIGC內(nèi)容處理為例。在 AI 換裝、商品套圖等電商應(yīng)用中,WAND 生成模型針對(duì)不同品類、不同業(yè)務(wù)需求分別訓(xùn)練了處理策略:換裝能區(qū)分毛衣、西裝的版型與材質(zhì)差異,套圖貼合電商運(yùn)營(yíng)實(shí)際的構(gòu)圖與風(fēng)格,因而報(bào)錯(cuò)率更低、圖片可用率更高。
![]()
WAND AIGC生產(chǎn)賦能電商場(chǎng)景
WAND 還解決了生產(chǎn)效率的問(wèn)題。WAND 把生成、理解、處理、編碼的能力收進(jìn)同一套體系,并以 Agent 友好的方式開(kāi)放編排接口。Agent 可以從內(nèi)容理解走到素材生成,再自動(dòng)完成畫(huà)質(zhì)增強(qiáng)與編碼適配,端到端跑通整條鏈路,無(wú)需切換工具。由此,音視頻的媒體 AI 能力不再是彼此獨(dú)立的單一工具,而是可被 Agent 統(tǒng)一調(diào)度的生產(chǎn)級(jí)能力。
以短漫劇創(chuàng)作為例,WAND 依托生成、擦除、增強(qiáng)、壓縮等模型能力,將劇本生成、分鏡制作、角色一致性保持、智能配音、合成增強(qiáng)串成一條自動(dòng)鏈路,從生產(chǎn)到交付整套素材由 Agent 驅(qū)動(dòng)產(chǎn)出,平均生產(chǎn)效率提升 90%,目前已服務(wù)國(guó)內(nèi) 80%以上的頭部漫劇平臺(tái)。其中,AI增強(qiáng)與無(wú)痕擦除雙雙榮獲 NAB Show 2026 年度產(chǎn)品獎(jiǎng)。
![]()
WAND AIGC內(nèi)容處理賦能視頻處理分發(fā)
賽事直播對(duì)實(shí)時(shí)性與并發(fā)要求極高,需要在毫秒級(jí)延遲下同步完成解說(shuō)、集錦生成、畫(huà)質(zhì)提升與多語(yǔ)種分發(fā)。WAND 通過(guò)自研模型協(xié)同調(diào)度,將識(shí)別、生成、合成、編碼整合為全自動(dòng)化流程:實(shí)時(shí)追蹤進(jìn)球、撲救等高光時(shí)刻,自動(dòng)觸發(fā)集錦生成與多語(yǔ)種解說(shuō)合成,再按終端適配編碼下發(fā),碼率較傳統(tǒng)方案節(jié)省超 50%。該方案已累計(jì)支撐 FIFA 世界杯、英超、西甲、ICC 板球世界杯、英雄聯(lián)盟 S 賽、冬奧會(huì)等數(shù)千場(chǎng)全球頂級(jí)賽事和活動(dòng),成為亞太地區(qū)最大的賽事直播技術(shù)底座。
![]()
WAND AI全能賽事制播Agent解決方案
騰訊云音視頻團(tuán)隊(duì)表示,WAND 的發(fā)布,標(biāo)志著騰訊云音視頻從提供單點(diǎn)媒體處理能力,升級(jí)為面向 AI 應(yīng)用與 Agent 的原生媒體底座。未來(lái),騰訊云將與更多客戶共同探索 AI Agent 時(shí)代的音視頻應(yīng)用形態(tài)。(白麗)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.