无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

上智院聯合復旦、上交提出全球首個強化學習與潛擴散融合框架SOLD

0
分享至



作者丨上智院女媧生命大模型團隊

編輯丨ScienceAI

在 RNA 療法、基因調控和合成生物學等領域,RNA 逆折疊(RNA Inverse Folding)是至關重要的核心任務,其目標是設計出能夠折疊成特定 3D 結構的 RNA 序列。如同設計一把能開啟特定「基因鎖」的鑰匙,這要求生成的序列不僅在理論上符合要求,更需在物理上精準折疊成目標構象。

然而,面對復雜的 RNA 序列 - 結構相互作用,現有的深度學習方法盡管在序列恢復率上取得了一定進展,其局限仍非常明顯:它們往往難以直接優化次級結構一致性(SS)、最小自由能(MFE)和局部距離差測試(LDDT)等關鍵的結構與功能指標,導致生成的序列在物理真實性和結構準確性上經?!复蝺灐?。此外,現有的基于強化學習的擴散模型優化方法,通常需要采樣完整的擴散軌跡,計算成本極高,難以在 RNA 設計這種復雜任務中高效應用。

為此,上海科學智能研究院(下稱上智院)與復旦大學、上海交通大學等聯合提出了首個集成強化學習與潛擴散模型的 RNA 逆折疊框架(SOLD)。該框架從 RNA 的共進化模式出發,在預訓練階段引入 RNA-FM 嵌入,并在優化階段通過創新的「分步式」(Step-wise)強化學習策略,實現了對非導向性結構目標的直接、高效優化。實驗表明,該方法在多個權威指標上全面超越了現有的 SOTA 方法,為開發高精度、功能導向的 RNA 設計工具開辟了新路徑。



論文題目:Structure-based RNA Design by Step-wise Optimization of Latent Diffusion Model

論文地址:https://arxiv.org/abs/2601.19232

代碼地址:

https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/01301556

https://github.com/SAIS-LifeScience/SOLD

該研究成果已被 AAAI 2026 接收。上智院生命科學方向研究員斯奇、劉旭陽,上海交通大學生命科學系博士生王鵬磊,是共同第一作者。上智院首席科學家、復旦大學特聘教授漆遠,是論文共同作者。上智院生命科學方向主任研究員郭昕,上智院生命科學方向負責人、復旦大學人工智能創新與產業研究院研究員程遠,是共同通訊作者。

研究項目由星河啟智科學智能開放平臺(https://aistudio.ai4s.com.cn/)和復旦大學 CFFF 智算平臺提供技術和算力支持。

現有方法的兩大局限

既往的 RNA 逆折疊方法雖取得一定進展,但存在兩個面向實際設計的關鍵短板:

一是難以處理非可微的結構目標。現有的深度學習方法(如 GrnaDe、RDesign)雖然提升了生成序列的質量,但它們大多無法直接優化如最小自由能(MFE)或 3D 結構相似度(LDDT)等「硬指標」。這些指標對于 RNA 是否能在真實生物環境中穩定發揮功能至關重要,但由于它們通常是不可微的,傳統的梯度下降方法難以直接對其進行優化。這導致模型生成的序列往往「形似」而「神不似」,難以滿足嚴格的物理約束。

二是傳統強化學習優化效率低下。為了解決上述問題,強化學習(RL)被引入以優化這些離散目標。然而,現有的結合擴散模型與 RL 的方法(如 DDPO、DPOK),通常需要對擴散過程的完整軌跡進行采樣才能更新策略 。在 RNA 設計的高維空間中,這種「全軌跡」采樣的計算開銷巨大,收斂速度極慢,且容易陷入局部最優,嚴重限制了其在大規模 RNA 設計任務中的應用潛力。

為解決這些問題,研究團隊提出了SOLD (Step-wise Optimization of Latent Diffusion Model)框架,通過引入預訓練 RNA 語言模型嵌入和創新的分步優化策略,實現了從序列生成到底層物理屬性優化的全流程突破。

SOLD 的雙階段創新設計

SOLD 框架包含潛擴散模型(LDM)預訓練和強化學習微調兩個階段,分別對應基礎表征構建與結構目標精修,形成完整的技術閉環。

1、LDM 預訓練:融合共進化信息。SOLD 首先構建了一個強大的潛擴散模型(LDM)底座。不同于以往直接在序列空間操作的方法,SOLD 利用預訓練的 RNA-FM 提取包含豐富共進化信息的嵌入表示。



  • 潛空間建模:通過編碼器將 RNA-FM 的高維嵌入壓縮至高效的潛空間,結合 GVP-GNN 提取骨架幾何特征,使模型在生成之初就具備了對 RNA 序列 - 結構復雜依賴關系的深刻理解。
  • 序列恢復提升:僅依靠這一階段,LDM 在序列恢復率和核苷酸恢復率上即已超越了包括 RiboDiffusion 在內的多種現有方法,為后續優化打下堅實基礎。

2、Step-wise RL 微調:分步式高效優化。微調階段是 SOLD 的核心創新。團隊提出了一種單步式(Step-wise)強化學習算法,直接針對復雜的結構指標進行優化。



  • 單步采樣策略:受 DDIM 啟發,SOLD 無需采樣完整軌跡,而是從任意噪聲時間步直接預測去噪后的潛變量。這意味著模型可以在極短的時間內獲得反饋,大幅提升了訓練效率。
  • 長短期獎勵融合:為了平衡訓練的穩定性與準確性,SOLD 設計了分段獎勵函數。在噪聲較大的早期階段,使用短期獎勵引導方向;在噪聲較小的后期階段,使用長期獎勵精確對齊目標。
  • 直接指標優化: SOLD 直接集成了 ViennaRNA 和 RhoFold 作為獎勵函數,直接優化 SS、MFE 和 LDDT 等物理指標,無需額外訓練可能引入誤差的代理獎勵模型。

在現有 RNA 結構測試集上超越現有最優方法

本研究在現有 RNA 結構數據集上進行了系統評估,結果全面超越了現有最優方法。具體而言,在多目標聯合優化實驗中,SOLD 不僅保持了極高的序列自然度(Sequence Recovery),更在結構指標上實現了質的飛躍。例如,在 CASP15 測試集上,SOLD 生成的序列在SS(次級結構一致性)上達到 0.6957,遠超 RiboDiffusion 的 0.4699;在MFE(最小自由能)上達到 - 64.0375,顯著優于基線模型,證明了其設計出的 RNA 具有更高的熱力學穩定性。此外,在訓練效率方面,得益于單步優化策略,SOLD 完成一輪 MFE 優化僅需 256 秒,而同類方法 DDPO 和 DPOK 分別需要 5953 秒和 7677 秒,訓練速度提升了20 倍以上。

實際案例驗證與模塊有效性



為了驗證 SOLD 在真實生物場景中的應用潛力,研究團隊對TPP 核糖開關進行了案例研究。結果顯示,SOLD 成功設計出了能精準折疊成目標構象的序列(RMSD 僅為 2.8157?,LDDT 高達 0.6171),而其他對比方法(如 RhoDesign、RiboDiffusion)生成的序列折疊結構嚴重偏離目標,甚至完全解體。這一結果有力證明了 SOLD 在處理復雜生物學約束時的卓越能力。

總結與展望

SOLD 的成功,在于其巧妙地結合了預訓練大模型的表征能力與強化學習的策略優化能力。首先,模型利用 RNA-FM 捕捉深層的共進化模式,解決了傳統方法「只見樹木不見森林」的問題。其次,創新的單步式 RL 策略攻克了非可微目標優化的效率瓶頸,使得直接針對物理屬性(如自由能、結構偏差)進行設計成為可能。這種模塊化、工具無關的框架設計,使得未來可以無縫集成更先進的獎勵評估工具。

該研究不僅為 RNA 逆折疊任務確立了新的 SOTA 基準,也印證了 AI 驅動生物設計的發展方向 — 通過高效的算法創新,跨越從「生成序列」到「設計功能」的鴻溝。展望未來,研究團隊計劃進一步擴展高質量 RNA 結構數據集,并探索多尺度指標的協同優化,從而為 RNA 療法及合成生物學的落地持續注入新動力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

都市快報橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達文西看世界
2026-05-21 09:48:14
網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

每日經濟新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

千秋文化
2026-05-20 20:33:05
職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風俠
2026-05-21 11:13:14
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

念洲
2026-05-21 08:02:07
光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

懂球帝
2026-05-21 15:41:08
三大元兇引發跳水 后期策略

三大元兇引發跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續:大四重修生,老師道歉,學?;貞獊砹?>
    </a>
        <h3>
      <a href=奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災了

今天直接跌成股災了

曹多魚的財經世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發"高達" 融合機器人技術的主動懸架

態度原創

親子
本地
數碼
旅游
公開課

親子要聞

研究:生育對男性產生影響加劇,育兒成本到底該由誰來“買單”?

本地新聞

用云錦的方式,打開江蘇南京

數碼要聞

AMD攜手多家中國臺灣地區OSAT企業推進新一代EFB技術研發

旅游要聞

當國航紫宸遇見崇州竹編 這場小滿時節的航文旅融合快閃超浪漫!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版