亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)時(shí)交互 AI 技術(shù)基建,Soul 打出了王牌

0
分享至


布局 AI 生態(tài),讓社交回歸情感本質(zhì)。

作者|十九

編輯|鄭玄

從2025年到2026年,Soul 的開源動(dòng)作幾乎沒有停歇。

3 月 16 日,Soul AI 團(tuán)隊(duì)(Soul AI Lab) 發(fā)布了新的開源模型 SoulX-LiveAct,技術(shù)報(bào)告中具體提到,該工作能夠在 2 張 H100/H200 條件下,達(dá)到 20 FPS 的實(shí)時(shí)流式推理能力,且支持輸入圖像、音頻和指令驅(qū)動(dòng),即可生成表情生動(dòng)、情緒可控、擁有豐富全身動(dòng)作的實(shí)時(shí)數(shù)字人視頻。

在此之前,這個(gè)團(tuán)隊(duì)已先后開源了多個(gè)模型,包括了實(shí)時(shí)數(shù)字人生成方向(SoulX-FlashHead、SoulX-FlashTalk),歌聲合成方向(SoulX-Singer),播客語(yǔ)音合成方向(SoulX-Podcast)等,覆蓋圍繞交互的多個(gè)維度。

傳統(tǒng)印象中,Soul 一直被視為「應(yīng)用平臺(tái)」,如今選擇開源本身便充滿了討論點(diǎn)。這不僅意味著平臺(tái)攜手開源社區(qū)構(gòu)建起豐富 AI 應(yīng)用生態(tài)的新可能,更重要的是,這些工作圍繞的核心點(diǎn)是「多模態(tài)實(shí)時(shí)交互」與「真實(shí)場(chǎng)景可用」,指向了「AI 社交」時(shí)代核心技術(shù)標(biāo)準(zhǔn)的重新定義。

01

實(shí)時(shí)數(shù)字人:從能用到好用

關(guān)注到「Soul AI Lab」這個(gè)標(biāo)簽,是因?yàn)榻鼇?lái),它高頻出現(xiàn)在 AI 社區(qū)分享交流群中。

近期,這個(gè)團(tuán)隊(duì)最新發(fā)布的 SoulX-LiveAct 面向?qū)崟r(shí)數(shù)字人生成領(lǐng)域。

年初,字節(jié)旗下音視頻生成模型 Seedance 展現(xiàn)出驚艷的運(yùn)鏡能力和細(xì)膩的視頻效果,讓大眾意識(shí)到了 AI 在影視、內(nèi)容創(chuàng)作的巨大潛力,也再次反映出在「落地」成為 AI 領(lǐng)域共識(shí)的當(dāng)下,行業(yè)對(duì)于大模型的需求已經(jīng)不再是「能不能用」而是「好不好用」。

實(shí)時(shí)數(shù)字人領(lǐng)域,高畫質(zhì)、長(zhǎng)時(shí)穩(wěn)定性、低部署成本長(zhǎng)期被視為「不可能三角」。行業(yè)在具體落地技術(shù)時(shí),其實(shí)長(zhǎng)期面臨一個(gè)問題:視頻生成時(shí)長(zhǎng)一旦拉長(zhǎng),畫面穩(wěn)定性與人物一致性會(huì)明顯下降,常見的 Bug 包括身份漂移、細(xì)節(jié)丟失、畫面閃爍,以及實(shí)時(shí)推理成本隨時(shí)長(zhǎng)上升等等。通過(guò)底層算法的重構(gòu),SoulX-LiveAct 想要嘗試解決這些問題。

不同于傳統(tǒng)的 AR diffusion 對(duì)歷史記憶的無(wú)節(jié)制依賴,SoulX-LiveAct 在「條件傳播方式」和「歷史記憶管理」兩個(gè)維度實(shí)現(xiàn)了技術(shù)閉環(huán),拋棄了隨時(shí)長(zhǎng)線性增長(zhǎng)的沉重緩存機(jī)制,通過(guò)全局特征鎖定極致,既能精準(zhǔn)「帶得動(dòng)」超長(zhǎng)時(shí)段的歷史上下文,又不會(huì)因緩存膨脹拖累推理效率。這意味著,數(shù)字人具備了在小時(shí)級(jí)甚至全天候長(zhǎng)直播中的實(shí)戰(zhàn)能力。

通常情況下,長(zhǎng)視頻最容易「翻車」的不是第一分鐘,而是第十分鐘、第三十分鐘:可能是臉漂、發(fā)型/衣紋漂移,也可能是飾品忽隱忽現(xiàn),甚至口型逐步失配。SoulX-LiveAct 能在更長(zhǎng)時(shí)間窗口內(nèi)保持身份一致性與關(guān)鍵細(xì)節(jié)持續(xù)穩(wěn)定。

商業(yè)落地層面,SoulX-LiveAct 展現(xiàn)了極強(qiáng)的工程化能力與成本控制優(yōu)勢(shì)。僅需 2 張 H100/H200 即可達(dá)到 20 FPS 的實(shí)時(shí)流式推理能力,端到端延遲被壓縮至約 0.94s。通過(guò)單幀計(jì)算成本降低到 27.2 TFLOPs / frame,SoulX-LiveAct 顯著減輕了算力壓力,讓原本專屬于頂級(jí)服務(wù)器的高品質(zhì)實(shí)時(shí)交互,具備了向消費(fèi)級(jí)硬件下放的可能。

視頻由 SoulX-LiveAct 生成,人聲由 Soul 開源的另一個(gè)工作 SoulX-Podcast 生成

事實(shí)上,面對(duì)實(shí)時(shí)數(shù)字人方向的「能用」到「好用」,Soul 已經(jīng)推出了多個(gè)解決方案。

春節(jié)前,Soul AI Lab 發(fā)布的 SoulX-FlashTalk——行業(yè)中首個(gè)能夠?qū)崿F(xiàn) 0.87s 亞秒級(jí)超低延時(shí)、32fps 高幀率,并支持超長(zhǎng)視頻穩(wěn)定生成的 14B 數(shù)字人模型。在開源后,快速?zèng)_入全球最大 AI 開源社區(qū) Hugging Face I2V(Image To Video)趨勢(shì)榜 TOP5,目前在 Github 已積累了 1.1k+Star。

而另一個(gè)同樣是春節(jié)前推出的 1.3B 參數(shù)輕量化模型 SoulX-FlashHead,Lite 版本在單張消費(fèi)級(jí)顯卡(RTX 4090)上跑出 96FPS 的工業(yè)級(jí)速度,同時(shí)能夠?qū)崿F(xiàn)高質(zhì)量畫質(zhì),在發(fā)布后也快速進(jìn)入 HuggingFace I2V 趨勢(shì)榜 TOP4。

02

實(shí)時(shí)交互:AI 時(shí)代的技術(shù)基建

為什么 Soul 在持續(xù)死磕「實(shí)時(shí)交互」方向?

舉個(gè)簡(jiǎn)單的例子,大模型爆火后,或許是 ChatGPT 定義了面向 C 端的基本形態(tài),后續(xù)所有的產(chǎn)品基本均采用了類似的交互模式——用文字或語(yǔ)音,人與 AI 交互過(guò)程中,完成信息的獲取和內(nèi)容的處理、創(chuàng)作。

而實(shí)時(shí)數(shù)字人生成技術(shù)則意味著這種交互升維到視覺層面。ta 擁有一個(gè)完整的,可互動(dòng)的視覺形象,且這個(gè)視頻互動(dòng)的過(guò)程是「雙向」的,ta 不只是會(huì)回應(yīng)你的問題和指令,還會(huì)自動(dòng)根據(jù)語(yǔ)境,判斷互動(dòng)時(shí)機(jī)、節(jié)奏。是一種再自然不過(guò),類似現(xiàn)實(shí)交流的場(chǎng)景。

此前,極客公園張鵬曾有一個(gè)判斷,Location(位置)作為一條技術(shù)棧,最終成為了整個(gè)移動(dòng)互聯(lián)網(wǎng)時(shí)代最不可或缺的底層基礎(chǔ)設(shè)施之一。而「有效的主動(dòng)性」將成為 AI 時(shí)代至關(guān)重要的技術(shù)棧。「它讓你原有的產(chǎn)品,突破了純工具的被動(dòng),擁有了主動(dòng)對(duì)用戶一次次滿足預(yù)期,甚至超預(yù)期中建立信任的可能。在此過(guò)程中形成的「關(guān)系」,正是 AI 產(chǎn)品獨(dú)有的延伸資產(chǎn),是你突破用戶 LTV(life time value,生命周期總價(jià)值)天花板、構(gòu)筑真正護(hù)城河的關(guān)鍵。」

如今,實(shí)時(shí)交互,同樣創(chuàng)造了一種超預(yù)期的體驗(yàn),這也是 AI 在社交場(chǎng)景的核心技術(shù)難點(diǎn)之一。

因此,聚焦實(shí)時(shí)交互,Soul 在多模態(tài)方向均有探索,除了實(shí)時(shí)數(shù)字人方向,此前,Soul 還先后開源了語(yǔ)音合成模型 SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語(yǔ)音對(duì)話控制模塊 SoulX-Duplug。

其中,SoulX-Podcast 是一款專為多人、多輪對(duì)話場(chǎng)景打造的語(yǔ)音生成模型,支持中、英、川、粵等多語(yǔ)種/方言與副語(yǔ)言風(fēng)格,能穩(wěn)定輸出超 60 分鐘、自然流暢、角色切換準(zhǔn)確、韻律起伏豐富的多輪語(yǔ)音對(duì)話。在去年10月底發(fā)布后快速登頂 Hugging Face TTS 趨勢(shì)榜,Github Star 數(shù)目前超過(guò) 3.2K。

實(shí)時(shí)數(shù)字人、語(yǔ)音、歌聲...... 基于這些能力,AI 能實(shí)現(xiàn)更多的互動(dòng)可能,例如社交場(chǎng)景中 AI 不會(huì)「把天聊死」,即便面對(duì)那些相對(duì)內(nèi)向,社交能力較弱的「I 人」,也能拉長(zhǎng)整個(gè)互動(dòng)的周期,并且具備豐富的演繹(如能歌會(huì)唱)能力,帶來(lái)不一樣的交流體驗(yàn)。

這一整套的大模型能力,讓 AI 從「應(yīng)答式」交互,變成了「陪伴」,產(chǎn)品定義也從簡(jiǎn)單的工具使用,到真正的「伙伴」和數(shù)字交互「入口」。


03

AI社交還有什么新可能?

一直以來(lái),Soul 在大眾層面的標(biāo)簽,更多是與 Z 世代、年輕人高度綁定的社交產(chǎn)品。

目前的開源動(dòng)作,成為觀察其 AI 布局的新切入口。這種「反直覺」布局的背后并非單純的炫技,而是其深刻的產(chǎn)品洞察:通用的服務(wù)無(wú)法交付差異化的社交體驗(yàn)。

Soul 的 AI 基因并非始于大模型熱潮。其早期的智能推薦系統(tǒng)已在嘗試用 AI 解決人與人的匹配效率和質(zhì)量問題。進(jìn)入大模型時(shí)代,Soul 發(fā)現(xiàn)通用模型雖能「對(duì)答如流」,卻無(wú)法交付具有情感溫差和極致在場(chǎng)感的社交體驗(yàn),自研了 SoulX 大模型。


與此同時(shí),社交場(chǎng)景對(duì)響應(yīng)延遲有著極高要求,為實(shí)現(xiàn)亞秒級(jí)反饋,Soul 必須在全雙工通信、低延遲傳輸、多模態(tài)交互等底層技術(shù)上「死磕」。這些為解決社交核心痛點(diǎn)打磨的工業(yè)級(jí)模型,也天然具備了對(duì)外技術(shù)輸出的價(jià)值。

不同于實(shí)驗(yàn)室里的 Demo,Soul 的模型已經(jīng)經(jīng)過(guò)真實(shí)、高并發(fā)、復(fù)雜社交場(chǎng)景的驗(yàn)證,這意味著開發(fā)者可以「拿來(lái)即用」,極大地降低了技術(shù)落地門檻。

相較于電影、小說(shuō)等傳統(tǒng)內(nèi)容產(chǎn)品所呈現(xiàn)的封裝化、靜態(tài)化特征,Soul 認(rèn)為未來(lái)內(nèi)容、數(shù)字娛樂產(chǎn)品、社交等或?qū)⒆呦蛄鲃?dòng)交互、實(shí)時(shí)介入的全新形態(tài)。這種對(duì)未來(lái)形態(tài)的預(yù)判,促使其必須掌握并共享底層工具。

作為一個(gè)興趣社交社區(qū),Soul 的底層產(chǎn)品一直建立在真人互動(dòng)的基礎(chǔ)上,所以在 AI 社交的探索過(guò)程中,一直保持著謹(jǐn)慎。

Soul 的目標(biāo)也很明確——AI 社交最終要促進(jìn)的,還是人與人的溝通。因此,AI 在該平臺(tái)的應(yīng)用路徑清晰,AI 幫助用戶交朋友,增強(qiáng)現(xiàn)實(shí)社交網(wǎng)絡(luò),構(gòu)建有力、多元的社會(huì)支持體系:通過(guò)聊天輔助、推薦匹配等功能,提升連接效率和質(zhì)量,如協(xié)助用戶發(fā)起對(duì)話、創(chuàng)作內(nèi)容、打破社交壁壘、提升自信,交到興趣相投的好友。


對(duì)于 Soul 自身而言,開源是將其從單一 App 進(jìn)化為生態(tài)系統(tǒng)的關(guān)鍵一步:一方面在 AI 社交標(biāo)準(zhǔn)尚未確立之際,率先開源即可掌握優(yōu)質(zhì)實(shí)時(shí)交互的定義權(quán);另一方面開發(fā)者基于其技術(shù)基建創(chuàng)造的新玩法,也將反向反哺社區(qū),持續(xù)豐富 Soul 的 AI 社交生態(tài)體驗(yàn)。

接下來(lái),Soul 的 AI 生態(tài)價(jià)值,或許將能夠外溢到社交之外的更多交互領(lǐng)域。比如在電商直播中,數(shù)字人主播常常存在「假人感」嚴(yán)重、互動(dòng)有延遲等問題。利用 SoulX-FlashTalk 0.87 秒的超低延時(shí)和 32fps 的高幀率,數(shù)字人能實(shí)現(xiàn)如同真人般的秒級(jí)回復(fù)反饋;在 AI 客服場(chǎng)景中,機(jī)械式問答一直被詬病,SoulX-LiveAct不僅能讓數(shù)字人擁有生動(dòng)的表情,甚至可以控制情緒,用具有「在場(chǎng)感」的數(shù)字人服務(wù)改變枯燥的售后咨詢。在線教育場(chǎng)景中,最稀缺的是陪伴感,SoulX-Podcast 等技術(shù),能支持能穩(wěn)定輸出 60 分鐘以上的連貫對(duì)話,覆蓋完整周期的教學(xué)內(nèi)容、講解,AI 教師可以與學(xué)生開展長(zhǎng)時(shí)間深度交流。

在 AI 領(lǐng)域熱議「Agent 替代人類」的當(dāng)下,Soul 的立場(chǎng)顯得格外清醒:AI 不是替代人,而是鏈接人。AI 社交也不是簡(jiǎn)單的信息交換,而是跨越時(shí)空的、具備「在場(chǎng)感」的情感共振。AI 的角色應(yīng)該是幫助用戶優(yōu)化表達(dá)、打破僵局、建立同頻。因此,Soul 選擇開源,本質(zhì)上是在為 AI 時(shí)代的社交「修路」。

從一個(gè)社交平臺(tái),到一家輸出底層能力的 AI 科技公司,Soul 正在用開源證明:AI 時(shí)代,最好的防守是開放,最深的護(hù)城河是生態(tài)。隨著技術(shù)門檻逐漸降低,交互體驗(yàn)不斷升級(jí),社交也將逐漸回歸情感鏈接的本質(zhì)。

*頭圖來(lái)源:視覺中國(guó)

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問

你如何看待 SoulX-LiveAct ?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬賽0-2洛里昂,貝納蒂亞:球隊(duì)就像在度假,完全配不上馬賽

馬賽0-2洛里昂,貝納蒂亞:球隊(duì)就像在度假,完全配不上馬賽

懂球帝
2026-04-19 04:25:09
正式出局,庫(kù)里的時(shí)代結(jié)束了

正式出局,庫(kù)里的時(shí)代結(jié)束了

毒舌NBA
2026-04-18 14:02:09
老公干40年每次升職都沒他,剛退休大領(lǐng)導(dǎo)來(lái)電:你們家到底想怎樣

老公干40年每次升職都沒他,剛退休大領(lǐng)導(dǎo)來(lái)電:你們家到底想怎樣

周哥一影視
2026-04-15 13:58:59
張雪機(jī)車荷蘭站拿下第二!被強(qiáng)制增重7公斤+降轉(zhuǎn)速 奪冠后遭制裁?

張雪機(jī)車荷蘭站拿下第二!被強(qiáng)制增重7公斤+降轉(zhuǎn)速 奪冠后遭制裁?

生活新鮮市
2026-04-19 01:15:58
騎士官宣傷情!悍將缺席,哈登重磅發(fā)聲,東部季后賽G1懸念拉滿

騎士官宣傷情!悍將缺席,哈登重磅發(fā)聲,東部季后賽G1懸念拉滿

阿嚼影視評(píng)論
2026-04-18 12:03:58
10小時(shí)高鐵彰顯外交態(tài)度!蘇林以行動(dòng)拒絕德日,表明越南的新選擇

10小時(shí)高鐵彰顯外交態(tài)度!蘇林以行動(dòng)拒絕德日,表明越南的新選擇

魔都姐姐雜談
2026-04-18 13:59:48
卡里克:青年足總杯賽后才告知思韋茨入選一線隊(duì)比賽名單

卡里克:青年足總杯賽后才告知思韋茨入選一線隊(duì)比賽名單

懂球帝
2026-04-19 03:00:09
劉青山死后30年,三個(gè)兒子找到當(dāng)年舉報(bào)者李克才:請(qǐng)為我父親平反

劉青山死后30年,三個(gè)兒子找到當(dāng)年舉報(bào)者李克才:請(qǐng)為我父親平反

微野談寫作
2026-04-17 10:55:11
北京一公園內(nèi)有蛇出沒

北京一公園內(nèi)有蛇出沒

美麗大北京
2026-04-18 18:50:52
伊朗總統(tǒng)連發(fā)數(shù)問怒斥美國(guó)“憑什么”:憑什么攻擊我們的國(guó)家?憑什么殺害我們的領(lǐng)袖?

伊朗總統(tǒng)連發(fā)數(shù)問怒斥美國(guó)“憑什么”:憑什么攻擊我們的國(guó)家?憑什么殺害我們的領(lǐng)袖?

極目新聞
2026-04-15 17:45:11
這才是頂薪水平!再砍30分6助,場(chǎng)均近20+5+4,球迷:MVP沒跑了

這才是頂薪水平!再砍30分6助,場(chǎng)均近20+5+4,球迷:MVP沒跑了

弄月公子
2026-04-18 10:02:16
烏克蘭稱在克里米亞擊中3艘俄軍艦

烏克蘭稱在克里米亞擊中3艘俄軍艦

財(cái)聯(lián)社
2026-04-18 22:51:09
斯諾克18日賽程解讀!中國(guó)4人出戰(zhàn),趙心童打響揭幕戰(zhàn),央視直播

斯諾克18日賽程解讀!中國(guó)4人出戰(zhàn),趙心童打響揭幕戰(zhàn),央視直播

曹說(shuō)體育
2026-04-18 12:52:26
去年才退休!中國(guó)民航大學(xué)汪瑾老師去世了,年僅56歲!

去年才退休!中國(guó)民航大學(xué)汪瑾老師去世了,年僅56歲!

凱旋學(xué)長(zhǎng)
2026-04-18 12:10:51
秦始皇死亡之謎被揭開?郭沫若:被人用條3寸長(zhǎng)的鐵釘活活釘死的

秦始皇死亡之謎被揭開?郭沫若:被人用條3寸長(zhǎng)的鐵釘活活釘死的

健康快樂丁
2025-04-13 18:09:33
TA:哈登將拒絕下賽季4200萬(wàn)美元球員選項(xiàng),進(jìn)入自由市場(chǎng)

TA:哈登將拒絕下賽季4200萬(wàn)美元球員選項(xiàng),進(jìn)入自由市場(chǎng)

懂球帝
2026-04-18 08:58:04
從11漲到322,股東轉(zhuǎn)讓減持后又清倉(cāng)減持34億,股票為何還是漲?

從11漲到322,股東轉(zhuǎn)讓減持后又清倉(cāng)減持34億,股票為何還是漲?

丁丁鯉史紀(jì)
2026-04-18 11:40:53
打不得!日本戰(zhàn)艦闖入臺(tái)海峽,我軍為什么不直接擊沉它?

打不得!日本戰(zhàn)艦闖入臺(tái)海峽,我軍為什么不直接擊沉它?

趣文說(shuō)娛
2026-04-18 19:34:03
廣東輸福建,徐杰賽后言論致球隊(duì)心氣全無(wú)

廣東輸福建,徐杰賽后言論致球隊(duì)心氣全無(wú)

鏗鏘格斗
2026-04-18 22:28:05
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
2026-04-19 04:36:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11962文章數(shù) 78871關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

親子
房產(chǎn)
手機(jī)
藝術(shù)
軍事航空

親子要聞

退燒藥怎么用?90%家長(zhǎng)都搞錯(cuò)了

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

手機(jī)要聞

榮耀600系列參數(shù)、外觀全曝光

藝術(shù)要聞

波蘭美女奧拉·卡茲馬雷克,絕美風(fēng)情讓人驚艷!

軍事要聞

解放軍護(hù)衛(wèi)艦與外艦纏斗20小時(shí) 細(xì)節(jié)披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版