人類基因組序列的“標準地圖”自2001年首次發布以來,不斷被修正和完善。然而,這些參考基因組主要基于少量個體構建,難以全面反映全球不同人群的遺傳多樣性。尤其是在識別結構變異、串聯重復等復雜變異方面,傳統的短讀長測序技術存在明顯局限,大量存在于非參考序列中的遺傳信息長期被忽視。泛基因組概念的提出,為整合群體中完整的遺傳變異譜系提供了新的框架,但要真正服務于醫學研究和臨床實踐,還需要足夠規模的樣本來捕獲稀有的、潛在致病的變異。
2026年4月1日,西湖大學楊劍教授團隊在《自然》雜志發表了題為“The 1000 Chinese Pangenome empowers medical and population genetics”的研究論文。該研究基于1116名中國個體的高質量二倍體基因組組裝,構建了首個大規模中國人群泛基因組圖譜,系統揭示了此前未發現的遺傳多樣性,為精準醫學和群體遺傳學研究提供了關鍵數據資源。
![]()
研究團隊首先利用自主研發的泛基因組引導組裝流程,對1116份樣本進行了高質量二倍體基因組組裝,平均質量值達到46,展現出極低的錯誤率。基于這些組裝結果,他們構建了一個包含40.53億堿基序列的泛基因組,其中2.77億堿基序列在現有參考基因組中完全缺失。在這些新序列中,研究團隊鑒定出2620萬堿基具有潛在功能的遺傳元件,包括增強子、啟動子和轉錄因子結合位點。
在變異檢測方面,該研究構建了迄今為止最全面的中國人群遺傳變異圖譜,涵蓋3540萬個單核苷酸變異、11萬余個結構變異、48.6萬個串聯重復變異以及86萬個嵌入非參考序列的嵌套變異。值得注意的是,80.3%的結構變異位點呈現多等位性,研究團隊通過優化合并策略將其平均等位基因數從61.7個降至5.5個,更準確地反映了群體遺傳特征。與現有數據庫相比,33.3%的結構變異為首次報道,其中83.5%為罕見變異。
聚焦醫學相關基因,研究團隊發現了5239個影響蛋白質編碼基因外顯子的結構變異,這些變異在進化上呈現出明顯的純化選擇信號。在623個與孟德爾遺傳病或癌癥相關的基因中,罕見結構變異的比例高達74.6%。此外,他們利用DBSCAN算法在全基因組范圍內識別出2427個串聯重復擴增事件,其中124個位于外顯子區域。在HP基因簇等具有復雜結構單倍型的區域,該研究揭示了多個此前未報道的結構單倍型及其與血脂水平的關聯。
![]()
為探究復雜變異的調控功能,研究團隊整合了1101份樣本的基因表達數據,開展了涵蓋所有變異類型的表達數量性狀位點分析。結果顯示,復雜變異解釋了12.6%的基因表達遺傳力,在3256個領先表達數量性狀位點中,包含串聯重復、結構變異和嵌套變異等類型。特別是嵌套變異在增強子、啟動子和非編碼外顯子中顯著富集,揭示了非參考序列在基因調控中的重要作用。通過共定位分析,他們還發現了如GSTM1基因18kb缺失等可能影響血小板計數的潛在機制。
基于上述研究成果,研究團隊構建了首個涵蓋多類型變異的中國人群基因型填充參考面板,包含2630萬個單核苷酸變異、10萬余個結構變異、148萬個嵌套變異和超過51萬個串聯重復變異。評估結果顯示,該面板對結構變異、串聯重復和人類白細胞抗原等位基因的填充準確性優于或相當于現有參考面板,并首次實現了嵌套變異和四字段人類白細胞抗原等位基因的填充。所有數據和研究工具已通過項目門戶網站開放共享,為全球遺傳學和醫學研究提供了重要資源。
西湖大學生命科學學院博士研究生王逸飛、助理研究員段忠取博士為本文的共同第一作者,楊劍教授為最后通訊作者。本研究得到了國家自然科學基金、國家重點研發計劃、浙江省“尖兵”“領雁”研發攻關計劃項目以及新基石科學基金會的經費支持。同時感謝西湖大學高性能計算中心對本研究的大力支持。
READING
BioPeers
歡迎關注本公眾號,所有內容歡迎點贊,推薦??,評論,轉發~
如有錯誤、遺漏、侵權或商務合作請私信小編~~
歡迎大家投稿課題組 研究進展 、招聘及招生宣傳~
所有文章只為科普、科研服務,無商業目的~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.