作者:奶樹
編輯:蝌蚪
過去一兩年的時間里,以大語言模型(LLM)為代表的人工智能(AI)技術(shù)無疑是最受公眾關(guān)注的話題。尤其涉及到美國對英偉達等芯片企業(yè)出口中國的限制,已然打響了又一輪無聲的“冷戰(zhàn)”。
在另一塊生物科技的“戰(zhàn)場”,中美雙方出現(xiàn)了新的矛盾:美國總統(tǒng)拜登簽署了《關(guān)于防止關(guān)注國家(countries of concerns)批量獲取美國個人及政府敏感信息的行政令》,“關(guān)注國家”自然包括中國,而敏感信息之一,則是人類基因組信息。
這個矛盾在剛剛過去的美國時間3月6日達到了“高潮”——美國參議院國土安全與政府事務委員會近日召開聽證會,以11比1的同意票數(shù)通過了參議院版的“生物安全法案”草案,目的在于禁止美國聯(lián)邦政府與某些與外國競爭對手有聯(lián)系的生物技術(shù)提供商簽訂合同。被“點名”的中國企業(yè)包括華大系、藥明系等。
事實上,這并不是國家之間首次限制彼此人類基因組信息的交流,2019年,我國出臺了《中華人民共和國人類遺傳資源管理條例》,并在其中多項條款規(guī)定限制外國對中國人類遺傳數(shù)據(jù)的使用。
對于大多數(shù)公眾來說,可能沒那么容易理解:基因組數(shù)據(jù),至于要這么嚴格嗎?國家與國家之間,真的有必要相互封鎖嗎?
20多年前的約定
這個故事可能得從28年前的一場會議講起。
1996年,參與人類基因組計劃(Human Genome Project,HGP)的科研人員齊聚大西洋上的百慕大島嶼,共同商量一件過去科學家從來沒有想過的事情:基因組數(shù)據(jù)要怎么共享?
人類基因組計劃歷史 | 圖源:Microbe Notes
在上個世紀,生物學實驗相對簡單,不論結(jié)果再怎么多,往往一張表格就能放下。但是基因組測序不同,以最簡單的病毒、細菌、酵母或古菌為例,它們的基因組不大,但是打印出來少說也得幾十甚至上千頁。
而彼時已經(jīng)開展了6年的人類基因組計劃,預計有3000000000個堿基,倘若發(fā)表出來,就是一本寫滿ATCG的超級大詞典。這在過去的生物研究歷史中,聞所未聞。
而且寫出來也看不懂
當時的人類基因組計劃是一項世界級的工程,來自美國、英國、法國、中國的科學家需要分工協(xié)作。只有及時更新數(shù)據(jù)庫,大家才能第一時間知道項目的進展。其他科學家也能盡快根據(jù)自己感興趣的內(nèi)容,開展相關(guān)的研究。
基于此,這些科學家最終達成了一個即便放在今天,都是令人震撼和感慨的共識:數(shù)據(jù)產(chǎn)生的24小時內(nèi),就要分享到數(shù)據(jù)庫讓全世界看到,而且是完全免費開放。
2003年,隨著人類基因組計劃的初步完成與基因組數(shù)據(jù)的增多,新的“勞德代爾堡協(xié)議”達成,在過去“百慕大原則”的基礎上,進一步支持了合作項目間基因組數(shù)據(jù)的及時分享,并構(gòu)建了一個更完善的責任制度,更好地支持基因組數(shù)據(jù)的產(chǎn)生與使用。二者被認為是基因組數(shù)據(jù)開放使用的開端,也深深影響了后來二十年間基因組研究的數(shù)據(jù)共享方式。
得益于“即時共享”的核心思想,本來預計需要15年完成的人類基因組計劃,整整提前了四年。時至今日,世界主流的幾個基因組數(shù)據(jù)庫,例如美國的國家生物技術(shù)信息中心(NCBI)、英國的生物銀行(UK BioBank),以及中國的國家基因組科學數(shù)據(jù)中心,都包含了成百上千萬的人類基因組信息,以及百萬物種的基因組數(shù)據(jù)。而且這些信息的訪問和獲取全部免費。
中國國家基因組科學數(shù)據(jù)中心的GSA數(shù)據(jù)2016年成立,短短幾年間數(shù)據(jù)量就是指數(shù)級的增長 | 圖源:Chen T,et al.
于是,一家單位發(fā)布了基因組,另一家單位就能快速下載下來,并在前人的基礎上補充更豐富的分析,或者添加更具體的實驗。基因組學,甚至說生物學的大廈,就是通過這種數(shù)據(jù)開放的方式在這20年里一磚一瓦搭建起來的。
基因組的發(fā)表已經(jīng)大不相同
但隨著數(shù)據(jù)的增多,科研人員相互之間的競爭也越發(fā)激烈,基因組數(shù)據(jù)的發(fā)表方式逐漸發(fā)生了變化:
首先,考慮到文章發(fā)表的時效性,以及與其他研究者的沖突,第一時間給世界共享數(shù)據(jù)在今天已經(jīng)很少見了,作者至少要確保自己的文章和成果成功發(fā)表,才會在數(shù)據(jù)庫上傳數(shù)據(jù)。
其次,很多大型的基因組數(shù)據(jù)不會簡單釋放開來,你想要使用的時候需要給負責人提交申請,而每一家負責單位對申請的考核標準都不一樣,很可能因為各種原因遭受拒絕。
另外,伴隨著測序費用的降低,基因組原始文件越來越大,個別單個大項目的數(shù)據(jù)已經(jīng)不是以GB、TB為單位,而是以更高的PB為單位了(1024個TB)。研究人員為了“省事”,更樂意上傳一些中間文件數(shù)據(jù),甚至只上傳部分他們覺得有必要的數(shù)據(jù)。至于其他原始數(shù)據(jù)和細節(jié),你就得單獨想辦法去要了。
“共享遺傳信息”的做法曾加速生命科學的發(fā)展,但隨更多社會、政治等因素的介入,也不得不被踩下剎車。尤其到了最近幾年,國家開始干預基因組數(shù)據(jù)的分享,例如前面提及的美國、中國頒布的一系列法案條規(guī)。
國內(nèi)人類遺傳數(shù)據(jù)對外提供申請的流程
如今在中國,一份人類遺傳學數(shù)據(jù)的產(chǎn)生到發(fā)布,你需要經(jīng)歷:項目申請的審批,采樣前的審批,國外研究人員合作的審批(如有),數(shù)據(jù)提交的審批與備份……通過這樣一系列的過程,你的數(shù)據(jù)才能被“半公開”。海外科學家想要使用的話,需要向中國數(shù)據(jù)庫提交申請,獲批后方能獲取。
美國則是提出了一套更有“針對性”和“目的性”的法案——特定國家的科學家不能隨意使用其人類基因組信息。當然,是否執(zhí)行、以及未來會如何執(zhí)行,可能都還是未知數(shù)。
基因組泄露關(guān)鍵的問題在于個人安全
為什么國家要下場干預基因組數(shù)據(jù)的共享與開放?原本透明、公開、開放的信息體系不好嗎?一同搭建全人類的生物學研究“大廈”不好嗎?
美國政府官網(wǎng)是這樣說的:
總統(tǒng)的行政命令重點保護美國人最私密和最敏感的個人信息,包括基因組數(shù)據(jù)、生物特征數(shù)據(jù)、個人健康數(shù)據(jù)、地理位置數(shù)據(jù)、財務數(shù)據(jù)和某些類別的個人身份信息。不良行為者可以利用這些數(shù)據(jù)追蹤美國人(包括軍事人員),窺探他們的個人生活,并將這些數(shù)據(jù)傳給其他數(shù)據(jù)經(jīng)紀人和外國情報機構(gòu)。這些數(shù)據(jù)可能導致侵入性監(jiān)視、詐騙、勒索和其他侵犯隱私的行為。
中國的《人類遺傳資源管理條例》第二十八條則是這樣說的:
二十八條 將人類遺傳資源信息向外國組織、個人及其設立或者實際控制的機構(gòu)提供或者開放使用,不得危害我國公眾健康、國家安全和社會公共利益;可能影響我國公眾健康、國家安全和社會公共利益的,應當通過國務院科學技術(shù)行政部門組織的安全審查。
不難看出,雙方共同的關(guān)注重點在于個人/公眾安全。
這里的安全涉及到很多方面,最直接的問題是隱私安全問題。這也是我們每個人需要關(guān)注的問題——不論國家封不封鎖,我們都應該注重個人的基因組隱私,畢竟這可能比指紋或者面容信息都要重要。
可以想象一下,如果你的身高、體重、三圍和疾病史,在你不知情時,被千里之外一個奇怪的實驗室拿來研究、發(fā)表文章、被公開給全世界,甚至創(chuàng)造一個和你一樣的克隆人……這還是非常駭人聽聞的。
雖然科研人員在發(fā)表數(shù)據(jù)時會專門隱去志愿者的具體姓名信息,但從技術(shù)層面看,基于基因組溯源到個人身份信息是可行的,有一項研究就曾利用千人基因組項目的數(shù)據(jù)和網(wǎng)絡信息,找到了其中50個人的名字。
因此對數(shù)據(jù)庫設定層層訪問審查,保證提供數(shù)據(jù)的志愿者的全面知情同意,也都是必須的。
基因組數(shù)據(jù)產(chǎn)生與后續(xù)分析的基本流程,從樣本、比對、測序、數(shù)據(jù)釋放,每一步都有可能發(fā)生隱私泄露的風險
而另一個大家普遍擔心的問題,是人身安全,換言之則是生物武器的可能性,更具體點是基因武器。
小說《三體》里展示了這樣的一種技術(shù):主角羅輯為了保護自己,藏身于軍方的地下基地,但卻還是被敵人設計的,專門只感染他的致命病毒感染,差點喪命。這樣的劇情在今天,可能實現(xiàn)嗎?
除了同卵雙胞胎,任意兩個人的基因組都是不一樣的,平均差異大約是0.1%,對于擁有30億個堿基的人類基因組來說,那就是300萬個堿基,這不是一個小數(shù)目。
即便是一個堿基的差異,都可能為生物武器提供“機會”。而如今伴隨著生物合成技術(shù)和生物信息分析方法的快速發(fā)展,一方面從頭合成制造病毒、支原體、細菌、酵母已經(jīng)紛紛實現(xiàn),另一方面AI設計、輔助生產(chǎn)特定蛋白質(zhì),基因組快速比對也已經(jīng)是科研上的常規(guī)操作——二者一結(jié)合,小說里的情節(jié)就能照進現(xiàn)實。
這也是美國、中國急于頒布相關(guān)法規(guī)的原因之一了。而限制生物數(shù)據(jù)的訪問,以保護隱私與放權(quán)的做法,必然是未來的趨勢。
100%的“遺傳封鎖”并不可取
但是我們也不難發(fā)現(xiàn),其實各國的“封鎖”并不是一種100%的限制,而是受控訪問。比如中國的《人類遺傳資源管理條例》強調(diào)的是加強監(jiān)管,美國近期的法案草案也沒有完全限制中國全部科研單位。
因為相比20年前“人類基因組計劃”時期,今天數(shù)據(jù)產(chǎn)生的速度、技術(shù)迭代更新的速度都今非昔比,大量的數(shù)據(jù)產(chǎn)生、大量生物醫(yī)學問題得以解析——此時不能,也完全不應該限制不同國家科研人員之間的數(shù)據(jù)訪問。任何一方的限制,從科學研究與技術(shù)發(fā)展的角度考慮,都會成為極大的阻礙。
與之相應的是科學問題對數(shù)據(jù)的“如饑似渴”——人類基因組研究最常見的全基因組關(guān)聯(lián)分析(GWAS),動輒就需要上萬人的基因組數(shù)據(jù),其產(chǎn)生、分析與數(shù)據(jù)存儲成本以“億元”為單位;人類疾病的診療往往涉及大量潛在的基因突變位點,想要研究清楚也需要海量數(shù)據(jù)的支持;而在未來想要實現(xiàn)個性化的精準醫(yī)療,對于個人的基因組分析也是必不可少的……
GWAS的分析原理是基于大樣本量的基因組比較,從30億個堿基位點里篩選出與某個表型性狀有關(guān)的基因,這就要求有足夠的樣本量結(jié)果才具有意義
面對這些問題,最有效、最具性價比的方式,就是展開合作與數(shù)據(jù)共享。因此,如何在“開放數(shù)據(jù)、促進科研”和“保護隱私、保護個人安全”之間取得平衡,就是如今生物醫(yī)學研究者繼續(xù)探討的問題。過去的“百慕大原則”與“勞德代爾堡協(xié)議”已經(jīng)有些過時,我們需要一套更符合當下的制度。
但這也是一個涉及科學、倫理、道德、法律、政治、國家、社會、個人的復雜問題,單靠某個國家的政策其實并非長久之計。一方面需要各國各行各業(yè)的人們坐下來一起協(xié)商,像過去一同約定禁止生物武器一樣,通過一致的協(xié)定盡可能地規(guī)避基因組研究帶來的生物風險;另一方面,還應該進一步完善統(tǒng)一的審核與開放使用標準,提高數(shù)據(jù)的加密算法,讓研究者能以最快且最安全的方式開展科學研究。
令人振奮的是,已經(jīng)有不少科研人員在嘗試這一方面的努力:2013年成立的全球基因組學與健康聯(lián)盟就在嘗試聯(lián)合全世界的基因組數(shù)據(jù)庫,讓數(shù)據(jù)共享的規(guī)定達成一致;不少國家的研究者也開發(fā)了多種加密算法,比如同態(tài)加密等方法,確保數(shù)據(jù)的安全和可用性……
未來的數(shù)據(jù)是共享還是封鎖?科學與技術(shù)的發(fā)展,社會與規(guī)定的完善,會給出答案。
參考資料:
●Powell K. The broken promise that undermines human genome research[J]. Nature, 2021, 590(7845): 198-202.
●Wang S, Jiang X, Singh S, et al. Genome privacy: challenges, technical approaches to mitigate risk, and ethical considerations in the United States[J]. Annals of the New York Academy of Sciences, 2017, 1387(1): 73-83.
●Chen T, Chen X, Zhang S, et al. The genome sequence archive family: toward explosive data growth and diverse data types[J]. Genomics, Proteomics and Bioinformatics, 2021, 19(4): 578-583.
●缺乏數(shù)據(jù)使用指導原則,基因組數(shù)據(jù)共享遇阻. 中國科學報
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.