![]()
![]()
1979-1989年間,李政道、吳瑞(Ray Wu)、William von Eggers Doering和陳省身(Shiing-shen Chern)通過物理、化學、生化、數學四個中美博士生考試與申請項目(China-US PhD Examination and Application Programs, CUS-PhD-EA)選派1700余人赴美攻讀博士,培養了大批頂尖人才。該系列訪談旨在通過展示這些校友在過去半個世紀中對中國乃至全球發展所做出的集體貢獻,彰顯這些項目不僅對中國,也對全球都具有劃時代的歷史意義。
劉軍: 大家好我叫劉軍,我是81年入學北大,85年本科畢業。后來參加了陳省身項目,86年出國先在羅格斯學習數學后來88年轉到芝加哥大學讀統計,91年統計系博士畢業之后在哈佛大學任助理教授。接著先后在斯坦福大學任助理教授、副教授,后來哈佛大學任終身教授。從00年開始一直在哈佛大學,今年正式離開哈佛大學,加入清華大學擔任講席教授。
墨子沙龍:當初是什么推動了您赴美留學?第一次踏上文化語言跟中國有很大差異的美國,您有什么感受?這段經歷如何影響您后來指導國際學生?
劉軍: 這問題有點宏大但是其實契機還是蠻簡單的。我最早接觸陳省身項目是因為聽說陳省身項目有留學機會。后來我發現消息比我靈通的一些同學,他們知道不需要任何項目都可以申請留學。那時候我們很多本科生不知道自己可以申請國外學校的可能性。所以當時我們參加項目,國家給我們提供了很多幫助,也讓我們知道了,有這么一扇門可以去外面的世界。申請完之后國家給我們培訓一年,出資送我們出去留學,雖然算是“借錢”,但是我還是非常的感激。
當時我剛到美國,落地紐約JFK機場,是領事館派車把我們接到領事館,直到今日我仍然印象深刻。我坐在車里,傍晚時分,穿行曼哈頓街道,傍邊的高樓大廈完全遮住了陽光,可謂是見識了所謂的摩天大樓。你想象一下,那時候我從小到大從來沒見過十層樓以上的樓,而這一剎那,我走進了高樓林立的地方,感覺像是在電影里一般,一切非常魔幻。
其實現在的年輕人對世界的了解,比我們那時候要多很多,雖然這么說可能有很多片面性。我覺得在后來的生活中,我對同學們的教育有兩點,一是很多不那么重要的事情要看淡一點,要真正抓住自己想干什么自己對什么感興趣,分清主次,不要什么都關注,我覺得也顧不過來。另一個就是如果有能力的話,我覺得還是要做自己感興趣的事情為主,就是什么事情你愿意下半輩子一直這個,比如我,比較適合做研究,喜歡去問一些問題,自己去想一些事情,按照大家現在所說的,要有質疑精神,我覺得每個科學家都會這么跟大家說。
墨子沙龍:您認為您在專業領域最大的成就是什么?可以用大眾方便理解的方式跟觀眾介紹一下嗎?
劉軍: 我就厚著臉皮說一些。一個就是把統計學方法和一些比較先進的計算方法最早的跟生物信息結合起來。我是相當于最早用這些數據統計,AI或者說是機器學習的方法用在計算生物學,去解決一些生物學方面的問題。另外一個就是我研究了很多年蒙特卡洛算法,這是以抽隨機樣本來做近似計算的一套方法。最著名的大家可能知道比如說AlphaGo,底層的一個搜索方法叫查找蒙特卡洛樹,這個就是相當于用蒙特卡洛的方法,做下一步搜索而并不是窮舉的這么一套方法,非常的有效。
但直觀的講你可以說我們早年的工作并不是直接的去處理現在的大模型問題,而只是比如說你把現在的大模型比喻成一個大的波音747飛機的話,我們早年的工作,可能是研究哪種引擎效率更高、哪種引擎更穩定。另一方面如果要想做底層創新的話,可能還是得抽絲剝繭,要把它底層進一步簡化,才能真正的有創新。
墨子沙龍:1993年您發表于《Science》的基因調控網絡論文被引用超1600次。當時如何想到將統計模型應用于DNA序列分析?
劉軍: 有很大的程度是一種機緣湊巧。我覺得主觀上來講,可能有幾個原因。一個是我非常喜歡數學,我也對生物還是蠻有興趣的,一直對生物這方面很好奇。因為我爺爺是個中醫,對生物體怎么生病,生病的原因,還有生物的很多非常奇特的性質,經常會從從原理的角度去想,我覺得是非常不可思議的一件事情,也受到他很多影響。
但比較偶然的是,我當時做這個項目之前,是碰見了一個人——崔普勞倫斯。他是一個美國人,他原來也是學優化數學這方面出身。但是后來他就志愿到一個研究蛋白質DNA方面的實驗室里面。他開始就是想用數學方法來做這些事情,但是他對統計了解的比較少。
我們在一次會議的時候碰上了,之后就開始聊,我覺得他的問題很有意思,他也覺得我給他講的這些貝葉斯方法很有意思,所以我們就一拍即合。后來我們倆磨合了一段時間,我把我學的這些模型和蒙特卡洛方法結合起來,寫了這一篇文章。
墨 子沙龍:您認為“統計學是數據分析的靈魂”。在大數據時代,傳統統計方法面臨哪些新挑戰?又該如何進化?
劉軍: 這是一個非常大也非常重要的一個問題,也是我們這個領域很多的大佬們一直在思考的這么一個問題。
我個人的想法是,我覺得交叉科學,是我們統計學發展的一個基本的契機。很多的新方法和新的發展都植根于這種跨學科研究,就是要交叉科學跟別的科學去做,植根于新的數據處理方法。曾經我的導師最早有一個對我非常有影響的說法,就是跟著數據走。看看什么樣的新數據出來,然后看看有沒有用武之地。我覺得這是一個很好的策略,尤其是現在AI發展如火如荼。
另外一個,也是我們現在統計數據科學系一個重點之一,我們重點有三個,一個就是這種交叉學科研究,另外一個就是跟AI有關的基礎性研究,這方面得到本領域的人越來越多的認可,衍生一些新發展出來的AI理論,就是像深度學習這些模型。另外一個就是想辦法去用數學或者統計學的一些基本原理去研究它們內部的一些特色。
對于如何進化,我覺得一方面當然就是希望能夠在研究這類的問題中,有一些新的創新。但從思想性來講,我覺得統計學的一些基本的方法在里面起的至關重要的作用,所以我覺得作為我們這個領域應該要有胸懷,要包容或者借鑒現代發展的這個浪潮和技術,另一方面,還是要堅持這個跨學科研究,我覺得這兩點對于統計學人至關重要。
墨子沙龍:您的跨學科研究令人印象深刻,關于跨學科研究,您對如今的年輕學生和科學家有什么樣的建議?
劉軍: 我覺得要有以下幾點,一點就是一定有一兩門非常能夠熟悉運用的基本方法,或者說你基礎打的非常好,有一些廣闊的眼界和胸懷和興趣,去看在什么地方有可能有應用價值。另外一點是比如說建立模型,從建模這個基本角度,對一些基礎的概率、隨機過程這方面也是要很了解,經常出錯這一點還是要不得,要想真的創新技術發展,這種基本技能要掌握。另外一點眼界要開闊,有時候可以跟你的朋友、你的同學,比如中學同學或者其他地方的同事去溝通,聊一些各自學科中比較難的問題,從你的角度說不定就可以幫別人解決,那這樣就是一個非常大的貢獻。
文字整理:路飛
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.