二十年前,當人類基因組計劃最終完成時,中國科學家只承擔了其中1%的測序任務。那時候,我們用的是別人造好的工具,走的是別人探過的路,在生命科學的"登月工程"里,我們更像是一個搭車的乘客。
![]()
而昨晚,西湖大學楊劍教授團隊在國際頂尖期刊《Nature》發表的最新研究,標志著中國科學家在人類基因組研究領域完成了從"跟跑"到"領跑"的跨越。
這一次,我們100%獨立完成了一項里程碑式的研究。
一張"千瘡百孔"的標準地圖
人類基因組,這本由30億個堿基對寫成的生命之書,自2003年以來一直依賴著一張"標準地圖"——參考基因組GRCh38。
但問題在于,這張地圖本質上是基于歐洲白人樣本構建的"單人地圖"。它就像一張老舊的導航圖,主干道還算清晰,但無數小巷、岔路和新建街區都是一片空白。更麻煩的是,當你拿著這張地圖去導航亞洲人的基因組時,會發現大量"道路對不上號"。
![]()
這種偏差直接影響了疾病診斷的準確性。許多東亞人群特有的遺傳變異被系統性地遺漏或誤判,導致罕見遺傳病的診斷困難重重,精準醫療更是無從談起。
"泛基因組"的概念應運而生。它不再是一張單人的地圖,而是一個群體中所有基因組序列的集合,包含該群體存在的全部遺傳變異。理論上,只要把大家的基因"拼在一起",就能得到這個物種的完整遺傳圖景。
成本與規模:泛基因組的"不可能三角"
聽起來簡單,做起來卻極其昂貴。
高質量的基因組組裝需要第三代測序技術,也就是所謂的"長讀長"測序。這種技術能夠一次性讀取數萬甚至數十萬個堿基對,是搭建基因組"骨架"的關鍵。但代價是驚人的——測一個人的成本就高達數萬元。
國際上現有的泛基因組研究樣本量極小,從幾十人到百余人不等。2022年啟動的"人類泛基因組參考聯盟"(HPRC)項目,在全球46個樣本中僅包含3個中國人樣本。對于擁有14億人口、遺傳多樣性極其豐富的中國而言,這3個樣本顯然無法代表全貌。
如何用有限的經費,實現大規模的樣本覆蓋?這是楊劍團隊2020年加盟西湖大學后面臨的核心挑戰。
PIGA:一場關于"性價比"的方法學革命
2021年,博士生王逸飛加入楊劍課題組。在一次實驗室頭腦風暴中,一個大膽的想法浮出水面:能否將昂貴的"長讀長"測序與相對便宜的"短讀長"測序混合使用?
短讀長測序,也就是第二代測序技術,雖然每次只能讀取幾百個堿基對的片段,但勝在通量高、成本低,能夠精確捕捉細節。長讀長則負責搭建骨架,確保整體定位精準。
這就像用"高清局部特寫"配合"廣角全景圖"來給基因組拍照——既保證了畫面的準確度,又將拍攝成本降低了數倍。
經過數年摸索,團隊最終開發出了基于泛基因組的聯合組裝方法(Pangenome Integrated Genome Assembly,簡稱PIGA)。該方法充分利用中等深度的短讀長和長讀長測序數據,實現了對大規模人群二倍體基因組的聯合組裝。
由此,千人泛基因組(1000 Chinese Pangenome,1KCP)誕生了。
13%的"基因新大陸"
1KCP包含1116個中國人群的二倍體基因組組裝,其中包括55個從頭組裝和1061個基于泛基因組指導的組裝。這是目前全球最大規模的人類泛基因組資源庫,平均質量值QV達到46——意味著錯誤率低至約五萬分之一。
但真正令人震撼的發現,在于那4.053億個堿基對的全新序列。
這些序列在現有的國際參考基因組(GRCh38和CHM13)中完全不存在,相當于人類基因組總大小的13%。超過十分之一的基因組內容,此前一直是未被標注的"盲區"。
研究團隊進一步鑒定發現,這些新序列中有多達2620萬個堿基對具有明確功能,涉及基因編碼區和調控元件。它們不僅能指導蛋白質合成,還可能控制著基因何時、何地、以何種強度表達。
換句話說,我們在人類基因組中發現了一片"新大陸",而且這片大陸并非荒原——上面有大量活躍的生命跡象。
那些被遺漏的罕見變異
1KCP的另一項核心價值,在于對復雜遺傳變異的系統解析。
研究團隊鑒定了3540萬個小變異、11萬多個結構變異、48.5萬個串聯重復序列,以及86萬個"嵌套變異"——即隱藏在復雜結構變異內部的次級變異。
特別值得關注的是,33.3%的結構變異是首次被發現,其中83.5%屬于罕見變異(在人群中頻率≤1%)。
![]()
圖2.HP - HPR 基因簇圖形泛基因組、結構變異及其相關復雜性狀
![]()
圖3.泛變異eQTL分析及與嵌套變異關聯的基因表達
這些罕見變異往往與遺傳性疾病密切相關,但在小樣本研究中極易成為"漏網之魚"。只有當樣本規模擴大到千人級別,這些低頻變異才能被準確打撈上來。
研究還發現了5239個直接影響蛋白質編碼基因外顯子的結構變異,平均每個中國人攜帶450個這樣的變異。此外,2427個串聯重復擴增事件被精準鎖定——這類變異與亨廷頓病、小腦性共濟失調等多種神經退行性疾病密切相關。
從"標準答案"到"中國參考"
1KCP項目的意義,遠不止于發表一篇頂刊論文。
它為中國人群的疾病風險預測、藥物基因組學和個性化治療提供了專屬的遺傳參考框架。長期以來,中國患者在進行遺傳病診斷時,使用的都是基于歐洲人群構建的參考標準,誤診漏診的風險始終存在。
現在,我們終于擁有了自己的"標準地圖"。
研究團隊已建立1KCP數據門戶,向全球研究者開放。這不僅填補了精準醫學的空白,更為新藥研發提供了新的可能——基于中國人群特異的遺傳變異,可以開發更適合中國人的靶向藥物。
方法學的勝利
回顧這項研究,最值得關注的可能并非那些驚人的數字,而是背后的方法論創新。
楊劍團隊長期致力于統計遺傳學和生物信息學方法的開發。他們此前開發的GCTA-GREML、SMR、gsMap等分析方法已被全球研究者廣泛應用。這一次,PIGA方法的問世,為全球大規模人群泛基因組研究提供了一條"高性價比"的技術路徑。
![]()
在生命科學領域,工具和方法的革新往往比單一發現更具持久價值。PIGA方法不僅適用于人類基因組研究,也可推廣至其他物種的泛基因組構建,為農業育種、進化生物學等領域提供新的可能。
從20年前的1%,到今天的100%,這條路的跨度遠不止于數字的變化。
它意味著中國科學家在人類基因組研究的國際舞臺上,不再需要"搭車",而是可以獨立設計路線、自主建造工具、引領研究方向。
![]()
千人泛基因組不是終點。隨著測序成本的進一步下降和計算方法的持續優化,萬人級、十萬人級的泛基因組研究將成為可能。屆時,人類對生命密碼的解讀將進入一個全新的維度。
而這一次,中國科學家站在了起跑線上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.