![]()
北京月之暗面科技有限公司創始人兼首席執行官楊植麟在2026中關村論壇年會上發表主題演講——《開源AI加速探索智能上限》,以下是發言實錄。本文來源:中關村論壇年會官網。
本賬號接受投稿,投稿郵箱:jingjixuejiaquan@126.com
楊植麟:開源AI加速探索智能上限
很高興有機會跟大家分享我們在開源模型方面,包括訓練更好的大模型這個領域上做的很多最新的工作。
其實做大模型這個事情本質上是把更多的能源轉化成智能,轉化過程中最重要的一件事情是能夠規模化,也就是說能夠把盡可能多的能源經過算力和模型變成更多更高程度的智能。本質上,規模化這個事情是過去若干年所有的模型和AI發展的一個很重要的基礎。規模化并不代表著我們只是暴力地增加能源或暴力地增加算力,而是涉及到怎么在這里能夠非常有效地進行規模化。所以我們會從不同方面去提高有效性,比如會強調提升Token的效率,本質上代表著同樣數據中能夠學到多少智能,因為這個世界上有效的數據池是常量或者是非常有限的值,如果你有更好的網絡架構或有更好的優化性,就可以從一樣的數據里面學到更多的智能。同時我們也希望支持更長的上下文,因為這樣可以在相同情況下得到更低的loss,通過更低的loss,本質上意味著這個模型可以學會復雜的任務,所以我們也設計了一系列網絡架構以及數據,去提升它的長上下文的表現。
同時我們在最新的模型Kimi K2.5里提出新的規模化方法,即通過引入多個Agent,形成一個Agent集群的概念,使得多個Agent可以一起工作,通過這種方式去提升它能完成任務的復雜度。
這是我們在K2.5里研發出來的Agent集群的效果。橫坐標是任務復雜度,縱坐標是執行時間,所以如果原來只是用單一Agent的方式進行工作,可以看到隨著任務復雜度逐漸提升,需要完成的時間是指數增加的,比如完成一個非常復雜的任務,想從頭寫一個代碼倉庫實現很復雜的功能,可能需要幾天甚至幾周的時間,如果能夠并行開啟100個Agent同時完成這個任務,可能在這個過程中會進行互相協作,相互協調和規劃接下來應該要做的事情,就像一個人類的組織一樣,這時候可以隨著任務復雜度增加,執行時間其實沒有太大的變化,這樣意味著可以在單位時間內完成更加復雜的任務,使得原來一些完全不可能實現的任務變得有可能。就像一個公司一樣,如果想做一件非常艱難的事情,要完成一個很復雜的任務,比如從0到1建造一家100億或者1000億美元的公司,只靠一個人可能要100年才能做出來,在市場上是沒有競爭力的,但這個時候如果有100個人或200個非常聰明的人能一起協作,很可能就可以在短時間內完成。
通過這個Agent集群,可以實現規模化的輸入,比如可以同時調查幾百個不同的數據來源,在各種權威的數據源里尋找你要的答案,也可以做規模化的輸出,比如可以通過數據來源撰寫一篇幾百頁的論文或規模化執行、規模化編排,通過這種方式去提升任務的復雜度。
我們也非常注重研發更好的網絡架構,這是我們最新開源的一個模型架構,這里最主要的insight來自于十年前的技術——ResNet,十年之前沒有任何人有辦法訓練這種深度的神經網絡,我們之前與一些研究者共同研究殘差網絡,可以讓模型訓練超過幾十、幾百層,可以任意增加層數。這種殘差結構可以認為是LSTM網絡的變種,只是說LSTM只是應用在時間的維度上,殘差網絡現在更多應用在深度上,使得每一層可以用上一層的輸出做一個函數的處理,得到當前這一層的輸出。
我們就是把類似的思路做一個自然的泛化,把注意力機制這種計算模式進行90度旋轉,從原來只是應用在時間軸上,現在應用在深度上。把注意力應用到深度上以后有很多好處,可能不僅僅是基于前一層輸出進行計算,而是可以結合之前所有層的輸出進行計算,在優化時就會有非常多的好處。
我們有標準的殘差結構、最新的開源殘差結構,也設計了基于塊狀殘差結構,使得它能夠非常高效地進行實現,基本上在只有2%的額外成本情況下,能夠大幅度提升效果。這只是我們做模型架構包括優化器創新的一個例子,我們不僅僅是暴力地做規模化,而是希望在規模化的同時也能夠提升它的效率。所以我們一直致力于研發更強的模型架構,使得它的token效率可以更高。
比如Adam優化器或attention架構、殘差連接,這些都是有了8~11年歷史的技術,這在計算機里其實是非常長的時間,就是過去十年時間里,其實沒有任何人能夠挑戰這樣的技術,大家都把它當作一個標準。但是可以看到隨著現在算力的進步,包括大家研發方式的變化,從原來偏學術,單純從idea出發的研究,到現在變成更加重視與工程的結合,可以設計非常扎實的規模化驗證實驗,從而讓你能得到非常扎實的結論。所以很多以前認為是標準的東西,現在都是可以被挑戰的,我們在這里通過一系列新的模型架構和開源,讓它能夠被全世界更多的人去獲取這樣新的技術,從而推進整個領域的發展。
通過開源的技術,逐漸讓更多的技術和模型成為新的標準。以Kimi為代表的很多模型,現在正在全世界所有模型廠商的評測中作為一個標準,即如果發布一個新的芯片,必須通過Kimi或其他的開源模型來評測性能的提升。包括全世界很多研究機構也在用K2.5或其他開源模型進行研究,通過開源讓每一個企業、每一個研究者、每一個終端用戶能非常低門檻地獲取智能,是一個非常重要的事情。同時我們在這里也做很多重要的創新,包括很多架構,使得這些技術都是開放的,可以被任何人所獲取,大家能夠形成一個生態系統,一起去推動這個領域的發展。
這個領域的發展也在逐漸往前走。現在的研發方式跟兩三年之前有很大的不同,可能三年之前更多是大家使用天然數據,即可能從整個互聯網獲取的數據加上一些少量的人工標注,可能要標注某一條數據到底是不是符合你的價值觀或偏好,到去年大家更加重視大規模的強化學習系統,在這里人是去篩選、精選里面高質量的任務,但是這些任務還是由人來確定的,通過在這些任務上做強化學習得到更好的效果。大家在編程或數學領域上得到的提升主要來自于這種技術路線。
從今年到明年以及接下來的若干年時間內,整個AI研究和研發的方式會發生重大的變化,會有更多是AI主導這個研究,每個研究員會配備非常多的AI token,這些AI token可以幫你合成新的任務,幫你合成新的環境,幫你定義在這個環境下面到底什么樣是最好、最合適的獎勵函數,甚至幫你探索新的網絡架構長什么樣。所以在這樣的前提下,整個AI的研發也會逐漸加速,我們希望能夠跟整個開源社區一起不斷地把智能技術往前推進,打造一個更好的生態系統。
感謝大家!■
掃碼報名新一期太學錄制
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.