RNA預(yù)測超95%專家，OpenAI發(fā)布生命科學(xué)大模型

2026-04-17 16:22:07　來源: 智東西

北京舉報

分享至

智東西
編譯高遠(yuǎn)矚
編輯漠影

智東西4月17日消息，新藥研發(fā)平均耗時10到15年，這是生命科學(xué)領(lǐng)域長期面臨的困境。如今，OpenAI將目光投向這一賽道。4月16日，OpenAI發(fā)布了其首個行業(yè)專用高級推理模型GPT-Rosalind，專為生物學(xué)、藥物發(fā)現(xiàn)和轉(zhuǎn)化醫(yī)學(xué)定制，試圖用AI的力量大幅壓縮早期研發(fā)周期，提高整個管線的成功率。

該模型得名于DNA雙螺旋結(jié)構(gòu)的關(guān)鍵貢獻者羅莎琳德·富蘭克林，已作為研究預(yù)覽版登陸ChatGPT、Codex及API，目前僅向符合條件的美國企業(yè)客戶開放，且預(yù)覽期內(nèi)不消耗現(xiàn)有額度。

與此同時，OpenAI還開源了Codex生命科學(xué)研究插件，免費連接超50個公共數(shù)據(jù)庫與生物信息學(xué)工具，并已與安進(Amgen)、莫德納(Moderna)、洛斯阿拉莫斯(Los Alamos)國家實驗室等機構(gòu)達(dá)成首批合作。

一、行業(yè)專用模型：OpenAI為何選中生命科學(xué)？

OpenAI將生命科學(xué)作為行業(yè)專用模型的切入口，背后有清晰的戰(zhàn)略邏輯。

一款新藥從靶點發(fā)現(xiàn)到監(jiān)管批準(zhǔn)平均需要10到15年，而早期發(fā)現(xiàn)階段的任何效率提升，都會在下游產(chǎn)生復(fù)合效應(yīng)——更優(yōu)的靶點選擇、更強的生物學(xué)假設(shè)、更高質(zhì)量的實驗設(shè)計，最終提高整個研發(fā)管線的成功率。然而，科學(xué)家的工作流長期被大量文獻、專業(yè)數(shù)據(jù)庫、實驗數(shù)據(jù)和不斷演化的假設(shè)所拖累，耗時、碎片化且難以規(guī)模化。

▲GPT-Rosalind 在化學(xué)、實驗設(shè)計與分析等關(guān)鍵任務(wù)上的得分均明顯優(yōu)于前代模型

GPT-Rosalind針對科學(xué)工作流進行了深度優(yōu)化，將工具使用能力與化學(xué)、蛋白質(zhì)工程、基因組學(xué)的理解相結(jié)合，支持證據(jù)整合、假設(shè)生成、實驗規(guī)劃等多步研究任務(wù)。

OpenAI表示，該模型不僅讓現(xiàn)有工作更高效，更能幫助科學(xué)家探索更多可能性、發(fā)現(xiàn)被忽略的聯(lián)系，并更快地得出更好的假設(shè)。

二、RNA預(yù)測超95%人類專家，多項基準(zhǔn)領(lǐng)先

在性能評估中，GPT-Rosalind在生物信息學(xué)基準(zhǔn)BixBench上，取得了已發(fā)布模型中的最高分。

▲GPT-Rosalind 在 BixBench 上的表現(xiàn)全面超越 Gemini、Grok 及 GPT 系列前代模型

在涵蓋文獻檢索、序列操作、實驗方案設(shè)計等11項任務(wù)的LABBench2基準(zhǔn)中，GPT-Rosalind有6項任務(wù)優(yōu)于OpenAI最新的通用旗艦?zāi)Ｐ虶PT-5.4，其中最顯著的提升來自分子克隆實驗設(shè)計（CloningQA）。

更為關(guān)鍵的驗證來自與AI基因療法公司Dyno Therapeutics的合作。雙方使用未公開、無污染的RNA序列，評估模型在序列到功能預(yù)測和序列生成上的表現(xiàn)。歷史數(shù)據(jù)中，AI生物學(xué)領(lǐng)域的人類專家共有57個得分。

當(dāng)直接在Codex應(yīng)用中評估時，GPT-Rosalind在十次提交中的最佳結(jié)果：序列功能預(yù)測排名高于95%的人類專家，序列生成排名約為84%的人類專家。

三、開源插件+頂級合作：打造生命科學(xué)AI生態(tài)

除了模型本身，OpenAI還同步在GitHub上開源了Codex生命科學(xué)研究插件。該插件集成了超過50個公共多組學(xué)數(shù)據(jù)庫、文獻源和生物信息學(xué)工具，涵蓋人類遺傳學(xué)、功能基因組學(xué)、蛋白質(zhì)結(jié)構(gòu)、生物化學(xué)、臨床證據(jù)等方向。插件對所有用戶免費，不限于GPT-Rosalind，普通模型也可使用，為科研人員提供了一個靈活、可復(fù)用的工作流編排層。

▲OpenAI Codex 的「Life Science: Research」插件，提供覆蓋多領(lǐng)域的生命科學(xué)研究工作流，支持路由、證據(jù)合成與并行子代理分析

在生態(tài)合作方面，OpenAI已與安進（Amgen）、莫德納（Moderna）、艾倫研究所（Allen Institute）、賽默飛世爾科技（Thermo Fisher Scientific）等機構(gòu)合作，將GPT-Rosalind嵌入實際研發(fā)工作中。

安進公司AI與數(shù)據(jù)高級副總裁Sean Bruich表示：“生命科學(xué)領(lǐng)域每一步都要求精準(zhǔn)，問題極其復(fù)雜，風(fēng)險極高。與OpenAI的合作讓我們能以創(chuàng)新的方式應(yīng)用其最先進的能力，加速藥物送達(dá)患者。”

此外，OpenAI正與洛斯阿拉莫斯國家實驗室探索AI引導(dǎo)的蛋白質(zhì)和催化劑設(shè)計，包括在保持或改善關(guān)鍵功能的前提下修改生物結(jié)構(gòu)。

結(jié)語：OpenAI入場垂直賽道，前路仍待破局

GPT-Rosalind在RNA預(yù)測等任務(wù)上表現(xiàn)亮眼，其開源插件也以免費的形式降低了科研工具的使用門檻。

但其爭議同樣不容忽視：該模型目前僅面向美國企業(yè)客戶，技術(shù)普惠性受限；在LABBench2的11項任務(wù)中仍有5項未超越通用模型，性能優(yōu)勢尚不全面。此外，該模型以羅莎琳德·富蘭克林命名，被批評是在消費一位曾遭受不公的女科學(xué)家，而非真正的致敬。

在安全層面，OpenAI雖強調(diào)通過信任訪問機制（trusted access）防范生物技術(shù)濫用，但批評者認(rèn)為，任何強大的生物學(xué)推理模型都可能被惡意用于設(shè)計危險病原體或毒素，而目前缺乏獨立的第三方安全評估來驗證這一制度的有效性。

就在GPT-Rosalind發(fā)布前兩天，OpenAI推出了面向防御性網(wǎng)絡(luò)安全的GPT-5.4-Cyber，競爭對手Anthropic也發(fā)布了前沿AI模型Mythos。

AI巨頭正加速向行業(yè)垂直模型賽道滲透，但生命科學(xué)領(lǐng)域的特殊性決定了，從技術(shù)突破到最終成藥，中間仍隔著漫長的臨床驗證和監(jiān)管審批。開源插件或許能降低科研的工作門檻，但技術(shù)公平性、安全性驗證等問題，仍是其走向廣泛落地前必須直面的大山。

來源：OpenAI、路透社、BlockBeats

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.