網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

在這方面，AI的效率是生物學家的上萬倍

2022-01-19 07:28:40　來源: biokiwi 舉報

分享至

寫在前面

2021年年末，《科學》雜志提名了十項年度科學突破，其中不少進展與生命科學息息相關，而且充分展現(xiàn)了現(xiàn)階段科學突破中，生命科學與其他學科交叉碰撞出來的強大能量。

今天我們來聊聊這里面最受矚目，同時也是連續(xù)兩年入選的一項——AI預測蛋白質結構。

過去的幾十年里，世界各地的頂尖結構生物學家完成了大約18萬種蛋白質結構的解析；但在過去的兩年里，AlphaFold 完成了人體內幾乎所有蛋白質的結構預測，AI預測蛋白質結構為何如此神奇？又有哪些價值？

我們先不談蛋白質結構，說到人工智能，大家會想到什么？

我猜大多數(shù)人都會想到，幾年前在圍棋上戰(zhàn)勝人類的AlphaGo。那場比賽展現(xiàn)了人工智能在計算上的超凡能力——如何運用算法實現(xiàn)對圍棋的推演，并勝過人類。

這場比賽相信不少人還歷歷在目

那再看回這項science評選出來的突破，你腦袋上一定有很多問號：什么是蛋白質？它的結構很復雜嗎？為什么要用人工智能來預測蛋白質結構？

說起蛋白質，相信不少人其實并不陌生，甚至了解蛋白質是細胞里行使各種功能的“元件”。不僅如此，蛋白質也是組成我們身體的基本物質之一。比如說健身可以鍛煉肌肉，但想要肌肉增強變大，就必須有足夠的蛋白質供給才行。

餐桌上的雞蛋、牛奶以及各種肉類都是富含蛋白質的食物，對于人類來說，蛋白質唾手可得；但是，想要得到蛋白質的結構卻難于上青天。

富含蛋白質的飲食 | 圖源：iSlide

因為蛋白質的結構非常復雜：簡單講，氨基酸組成蛋白質，一個個氨基酸會有叫肽鍵的結構鏈接，它的連接可以形成兩種不同的角度。

那現(xiàn)在給大家出一個簡單數(shù)學題：假設有100個氨基酸組成蛋白質，那就需要99個肽鍵，99個肽鍵有兩種不同角度的結構，同時不同角度還會有三種可能的穩(wěn)定結構，那就是3的198次方種可能，你要是慢慢窮舉，從宇宙爆炸到現(xiàn)在都數(shù)不完，這就是利文索爾悖論——蛋白質結構非常非常多樣，沒辦法用窮舉來算完。

氨基酸組合過程中不同的二面角會產生不同的結構，因此才有利文索爾悖論這樣的無窮種結構可能

| 圖源：Wikipedia

結構這么復雜該怎么辦？生物學家最直接的想法就是觀測，用不同的方法來測量：上世紀五六十年代，用的是X光衍射——把蛋白質結晶，然后打上X光，通過反射的角度可以推測蛋白質長什么樣子，這個難點就是怎么把蛋白質純化結晶出來。

另一個現(xiàn)在很熱門的研究方法叫冷凍電鏡，就是利用冷凍切片技術，加上電子顯微鏡直接看蛋白質結構，但缺點就是非常非常貴，太燒錢了。

冷凍電鏡的基本原理 | 圖源：Wikipedia

那大家猜猜這么些方法，測量了幾十年了，我們分析出來多少個蛋白質結構？其實已經不少了，根據(jù)數(shù)據(jù)庫記載，現(xiàn)在實驗已經解析了18萬種蛋白質。

但是相對的，我們剛剛說到蛋白質是氨基酸組成的，只要測序技術測得到DNA序列，就能推導出蛋白質序列。查找數(shù)據(jù)庫可以發(fā)現(xiàn)，現(xiàn)在已知的有十幾億種蛋白質序列，這和18萬之間差了將近一萬倍。

所以結構生物學家就很苦惱——測序太簡單了，導致結構生物學遠遠跟不上測序的速度。

蛋白質結構解析數(shù)量變化 | 圖源：Nucleic acids research, 2019.

蛋白質序列測序的速度 | 圖源：www.ncbi.nlm.nih.gov/genbank/statistics/

所以很多開發(fā)算法的計算生物學家就想預測結構，通過算法預測肯定比做實驗快很多。但是剛剛也說了利文索爾悖論，預測結構非常非常難，你要是窮舉那是天文數(shù)字。

所以有很多的計算思路，比如我可以類比，實驗解出來的結構我可以類比相似的序列，推測相似的序列會不會有相似的結構，這個叫同源建模；也可以拆開來類比，比完再像縫縫補補拼積木一樣把結構拼出來，這個叫穿線法……但是這么多方法都有個問題：精度特別差。這就好像我想看1080P的高清視頻，但是怎么調都只有馬賽克高糊版，看都看不清。

做個類比的話，比如實際的蛋白結構是左圖，但是預測結果往往只能得到左圖的效果，很多信息都無法得知（僅作示意進行處理，實際并不僅僅是模糊，還會有很多完全不同的差別） | 圖源：Wikipedia

為了促進各國科學家不斷向前，從1994年開始，每兩年都會舉辦CASP，叫蛋白質結構預測關鍵測試，來評估大家的算法預測準不準，來提高算法的精度。

簡單來說就是從各種蛋白質序列里挑幾個出來，一邊讓結構生物學家做實驗解出一個“標準答案”，然后計算生物學家就用自己的算法來比，看看誰跟標準答案更接近。

但很遺憾，24年過去了，仍然進展很慢。

CASP官網(wǎng)

直到2018年，一個叫AlphaFold的方法出來，得到了80分的高分，兩年之后2020年AlphaFold二代打分到了90分，基本就和實驗做出來的標準答案一樣了。還是剛剛1080P的比喻的話，別人預測像個馬賽克，但AlphaFold2預測就已經差不多1000P，和1080P基本大差不差。

這個大家也知道了，就是Deepmind公司開發(fā)的人工智能方法。所以去年的science十大突破，其實也有AI預測蛋白質結構。

AlphaFold2方法預測的精度遠遠超過其他算法（圖a），同時預測的結果和實驗結果基本吻合（圖b-d）

| 圖源：Nature, 2021.

那怎么今年又有突破了？這是因為這個算法實際應用到了生物學上了。

一是Deepmind開發(fā)的AlphaFold2算法，在短短幾個月時間里，就把幾十年結構生物學家解析的沒解析完的蛋白質都解了：人體98%的蛋白質都試著預測了一遍，其中三分之一能準確預測，還有一些也能大概預測一半多。同時他們聲稱后面幾個月就把數(shù)據(jù)庫擴展到一億個蛋白質。這就比實驗方法快了上萬倍了。

基于AlphaFold2預測的蛋白質結構數(shù)據(jù)庫

另一個生物學上的應用，是同樣基于人工智能算法開發(fā)的RoseTTAFold，它挑戰(zhàn)的是更難的領域——怎么預測蛋白質和蛋白質相互結合，也在短時間預測了幾千種蛋白質的相互結合。

RoseTTAFold的宣傳圖，最突出的就是對于蛋白質互作的結構預測

不少人可能要問了：預測一億多種蛋白質，能有什么用呢？

我們最開始就提到了蛋白質在我們生活無處不在，而蛋白質要發(fā)揮功能，基礎是要有一定的結構。所以預測蛋白質結構，可以幫助我們更好地理解蛋白質的功能，進而去比如構建蛋白質分子藥物，或者研究復雜的生物化學現(xiàn)象。

一個最簡單的例子，比如現(xiàn)在我們知道新型冠狀病毒的新變異奧密克戎傳播力特別強，而這傳播關鍵的刺突蛋白結構，就可以利用人工智能來預測，進而可以推測什么藥物或者治療方法可以更有效的針對奧密克戎。

使用AlphaFold預測的奧密克戎突變體的S蛋白結構

但同時，雖然說人工智能已經完成了結構生物學家很多的工作，但是這個預測仍然是不完善的：

比如有些復雜的結構，可能結構生物學家實驗還沒有解析出來，人工智能也就還沒辦法學習到，因此也預測不出來，所以很多問題仍然需要結構生物學家的深入探究；

還有很多蛋白在發(fā)揮功能的時候是一個動態(tài)變化的過程，這種時候預測的結果就不準確，還是用1080P舉例的話，就是理論上是一個1080P的視頻，但是人工智能在這幾秒預測出來是1080P高清，那幾秒預測出來卻是馬賽克，所以也不準確。

這些都是人工智能預測蛋白質的瑕疵，但是瑕不掩瑜，人工智能在蛋白質結構預測帶給我們的驚喜實在太多了，而這項年度突破，就是計算科學在生命科學上最好的應用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.