![]()
文|霍霍
排版|小西
黃仁勛的話應(yīng)驗了。
2026年4月24日,DeepSeek V4正式發(fā)布,參數(shù)規(guī)模達1.6萬億,支持100萬token超長上下文。
![]()
比技術(shù)突破更引人注目的是,DeepSeek V4首次與華為昇騰芯片完成深度適配。這意味著,至少在推理端,中國最頂尖的大模型,正在擺脫對英偉達芯片的依賴。
消息傳出當天,港股芯片板塊集體拉升,英偉達股價則應(yīng)聲下跌。
除了DeepSeek,中國還有智譜、MiniMax、月之暗面等幾家AI企業(yè)一同涌現(xiàn)。
而在三年前的2023年,中國AI產(chǎn)業(yè)還完全是另外一幅景象。
彼時,美國開始對中國實施英偉達H800、A800等高端AI芯片禁售,所有人都在焦慮、都在追問,中國能不能做出自己的大模型?
但是黃仁勛看得明白,后來他在多個場合表達過一個觀點:“中國將借此機會培養(yǎng)本土企業(yè)家,自己研制芯片。”
他說的,可能正是上述還在萌芽的四顆種子。
這場大逆襲中,2025年春節(jié)DeepSeek逆襲是個不可,中國AI就開始發(fā)生改變。梁文鋒入選《時代》“全球最具影響力100人”和《自然》“年度十大科學人物”。硅谷開始認真研究DeepSeek的技術(shù)報告,討論“V3/R1時刻”對行業(yè)的沖擊。
|逆流而生|
2023年初,楊植麟正在卡內(nèi)基梅隆大學從事研究工作。作為Transformer-XL和XLNet論文的第一作者,他對大模型技術(shù)有深刻的理解。ChatGPT的出現(xiàn),讓他意識到一個技術(shù)范式轉(zhuǎn)變的窗口可能正在打開。
就在同一時期,梁文鋒在杭州管理著幻方量化。這家他一手創(chuàng)建的量化私募剛剛突破了百億管理規(guī)模。作為幻方的創(chuàng)始人,他在那時開始思考:幻方積累的技術(shù)能力和算力資源,是否可以在AI領(lǐng)域做些更大的探索?
在北京,閆俊杰正在推進MiniMax的技術(shù)研發(fā)。他的公司已經(jīng)成立一年半,技術(shù)方向仍在探索中,面臨路線選擇的考驗。
而清華大學的唐杰教授正在審閱GLM-4的測試報告。作為“悟道”大模型的負責人,他比任何人都清楚中國在基礎(chǔ)模型上的位置,盡管慢人一步,但可以追趕。
2023年,這四個人的命運,在ChatGPT引發(fā)的海嘯中悄然交匯。
2022年11月30日,OpenAI創(chuàng)始人Sam Altman只在推特上發(fā)了一條簡短的公告:“我們正式推出ChatGPT了!”
![]()
▲ 圖注:OpenAI創(chuàng)始人Sam Altman
這甚至算不上一次合格的產(chǎn)品發(fā)布。但僅僅5天后,ChatGPT的用戶數(shù)就突破100萬;兩個月后,月活用戶突破1億。
英偉達CEO黃仁勛將這一刻比作“iPhone時刻”。
ChatGPT的成功并非偶然。它建立在OpenAI多年技術(shù)積累的基礎(chǔ)上。從GPT-1到GPT-3.5,從InstructGPT到RLHF(基于人類反饋的強化學習),每一步都在為這一刻鋪墊。但真正讓全世界驚喜的是,它能寫代碼、寫詩、寫論文,能理解上下文,能“涌現(xiàn)”出意料之外的能力。
2023年3月14日,OpenAI發(fā)布GPT-4。這一次,沒有“研究預(yù)覽”的謙辭,沒有小心翼翼的措辭。而一份長達98頁的技術(shù)報告,和一個傲人的事實:GPT-4在模擬律師考試中進入了前10%,在SAT、GRE等標準化考試中接近人類頂尖水平。
微軟隨即宣布將GPT-4接入Office全家桶。Windows 11開始內(nèi)置AI助手。比爾·蓋茨說:“這是我一生中見過的最具顛覆性的技術(shù)演示。”
而在北京,一場發(fā)布會正在醞釀。
2023年3月16日,百度創(chuàng)始人李彥宏站在臺上,發(fā)布“文心一言”。語氣里帶著一絲緊張,“大家的期望值,是我們對標ChatGPT、對標GPT-4,這個門檻有點高。”
![]()
發(fā)布會采用了預(yù)錄制演示而非實時問答。彈幕里有人說:“這像極了畢業(yè)答辯的自己。”發(fā)布會期間,百度港股收盤下跌6.36%,盤中最大跌幅約10%,市值蒸發(fā)數(shù)百億。
但真正讓市場擔憂的不是技術(shù)差距,而是時間窗口。
如果說技術(shù)差距還可以用時間和投入來彌補,那么芯片限制則是一道更冰冷的枷鎖。2022年10月,美國商務(wù)部發(fā)布針對中國的芯片出口管制規(guī)則,禁止向中國出口先進AI芯片。A100、H100等高端GPU成為禁運品。2023年10月17日,管制進一步升級,覆蓋了性能稍低的芯片型號。
這意味著中國AI公司無法獲得訓練大模型最核心的算力資源。
阿里巴巴、字節(jié)跳動、騰訊等互聯(lián)網(wǎng)公司選擇了最穩(wěn)妥的路,提前囤貨,盡可能多地鎖定芯片資源。
梁文鋒后來在一次罕見采訪中回憶那段日子:“我們很早就意識到算力會成為問題。所以幻方的策略是,在管制之前儲備大量芯片。”幻方量化的螢火二號算力集群配備了1萬張A100。但對于那些沒有提前布局的公司來說,芯片短缺成了懸在頭頂?shù)倪_摩克利斯之劍。
2023年的中國互聯(lián)網(wǎng)彌漫著一種奇特的情緒,既興奮又焦慮。
焦慮催生了狂熱。投資人開始瘋狂尋找“中國版OpenAI”,任何帶有“大模型”“AGI”“AI”標簽的項目都能拿到融資。2023年,中國AI領(lǐng)域融資額創(chuàng)下歷史新高,超過2000億元人民幣。
而在這場浪潮的中心,四位創(chuàng)始人做出了各自的決斷,但都沒有回避技術(shù)探索。
|踐行技術(shù)信仰|
2023年初,楊植麟正在思考人生中最重要的一個決定。在一次內(nèi)部討論中,他表達了這樣的判斷:“如果這真的是AGI的起點,那真正的窗口期可能只有一個月。”
對于一個需要數(shù)年研發(fā)周期的大模型項目來說,一個月能做什么?
楊植麟看到的不是技術(shù)本身,而是一種結(jié)構(gòu)性的機會。他做出了一個讓所有人震驚的決定,放棄循環(huán)智能的一半股份,ALL IN AGI。2023年3月,月之暗面(Moonshot AI)正式成立。
![]()
為什么叫“月之暗面”?這來自Pink Floyd的專輯《The Dark Side of the Moon》。楊植麟在清華讀書時曾組建Splay樂隊,擔任鼓手和詞曲作者,音樂一直是他激情的一部分。但更深層的含義是:當所有人都在追逐光明(OpenAI)時,他選擇探索那些被忽視的角落。
楊植麟選擇了“長文本”作為突破口。當時GPT-4的上下文窗口只有8K tokens(約6000字),而他認為長上下文是一個被低估的方向。2023年10月,月之暗面發(fā)布Kimi Chat,支持20萬漢字的超長上下文。
投資人問他:“為什么是這個方向?”他回答:“因為所有人都覺得不可能。”
同年7月,DeepSeek悄然成立。這家新公司的注冊時間比月之暗面晚了三個月,但背后的資金和技術(shù)儲備卻遠超大多數(shù)競爭對手。
梁文鋒的策略是用幻方量化產(chǎn)生的收益,支持DeepSeek的研發(fā)運營。但真正的創(chuàng)新不在商業(yè)模式,而在技術(shù)路線。
當行業(yè)都在追求更大參數(shù)、更多算力時,梁文鋒提出了一個反直覺的問題:“為什么訓練GPT-4需要1億美元?為什么我們不能把成本降低到十分之一?”
他要求團隊:不拼算力,拼算法效率。用更少的芯片、更低的成本,做出更強的模型。
2023年年中,MiniMax也經(jīng)歷了一次關(guān)鍵的技術(shù)路線選擇。公司成立已經(jīng)一年半,技術(shù)方向卻始終沒有找到北。是繼續(xù)做Transformer的Scaling(規(guī)模化)?還是探索新的架構(gòu)?每個選擇都可能導向完全不同的未來。
閆俊杰的創(chuàng)業(yè)念頭,始于一個樸素的愿望。2021年春節(jié),他回到河南商丘老家。外公已經(jīng)八十多歲了,一直想寫一本回憶錄,記錄自己的人生故事,卻苦于不會打字。“要是有個機器能幫我寫就好了,”外公說。
這個樸素的愿望成為閆俊杰ALL IN AI的起點。但現(xiàn)在,他需要做出更關(guān)鍵的決定。在一次管理層會議上,他宣布:“我們把80%的算力押在MoE架構(gòu)上。”
MoE(Mixture of Experts,混合專家系統(tǒng))在當時并不是主流路線。GPT-4用的是Dense Transformer,Google的Switch Transformer雖然驗證了MoE的可行性,但效果并不穩(wěn)定。
一位投資人后來回憶閆俊杰當時的決策時說:“把80%的算力押在一個非主流路線上,這幾乎等于賭博。”
后來的事情證明了這次押注的正確性。但在那之前,閆俊杰經(jīng)歷了三四次幾乎讓公司崩潰的失敗。
2023年10月,智譜AI完成了一筆超過25億元的融資。投資方名單星光熠熠:阿里、騰訊、美團、螞蟻……幾乎涵蓋了中國最有影響力的互聯(lián)網(wǎng)公司。
![]()
這是唐杰第一次公開走到聚光燈下。
作為清華大學計算機系的教授、IEEE/ACM/AAAI三大學術(shù)會士,他此前一直保持低調(diào)。智譜AI的前身是清華大學知識工程實驗室(KEG),他在這里工作了多年,研究知識圖譜和社會網(wǎng)絡(luò)分析。
但ChatGPT改變了一切。“技術(shù)頂天,市場立地”,唐杰一直記在心里。KEG多年的積累,包括科研人員的知識圖譜、AMiner科技情報平臺,以及自研的GLM預(yù)訓練架構(gòu)。這些成果如果只停留在論文里,那永遠只是論文。
2023年,他決定邁出可能是最穩(wěn)妥的一步:把清華多年的積累產(chǎn)業(yè)化,借助資本的力量加速追趕。他賭的是,中國獨特的語料和場景優(yōu)勢,可以彌合與OpenAI的技術(shù)差距。
四個人的四種選擇,都關(guān)系著中國AI產(chǎn)業(yè)的命運。
|正面競爭|
2023年,中國GDP增速放緩至5%左右,互聯(lián)網(wǎng)行業(yè)裁員潮此起彼伏。AI大模型賽道成為少數(shù)幾個“確定性”增長的故事。而在這個故事里,中美科技競爭是不能忽視的不確定因素。
梁文鋒曾在一次非正式場合說過一句話,被廣泛傳播:“我們不需要復制OpenAI,我們需要證明,在資源受限的情況下,算法創(chuàng)新同樣可以改變游戲規(guī)則。”
這句話既是對技術(shù)路線的注解,也是對時代命題的回答。
現(xiàn)在,DeepSeek V4用極致的技術(shù)創(chuàng)新,給出了答案。美國硅谷的開發(fā)者們也在調(diào)用Kimi、MiniMax、智譜的大模型,中國算力也實現(xiàn)了出海。
當我們回望2023年,看到的不應(yīng)該只是四位創(chuàng)始人的成功和身價,而是在那個人人焦慮、人人期待的時代,有四個人選擇了相信。
梁文鋒、楊植麟、閆俊杰、唐杰他們不再像上一代企業(yè)家那樣“模仿+微創(chuàng)新”,而是在原創(chuàng)性技術(shù)上與世界最強者正面競爭。他們相信技術(shù)可以改變世界。他們也相信那些看似瘋狂的賭注,最終會得到時間的獎賞。
英偉達CEO黃仁勛在播客中說過一句話,被全球媒體反復引用:“如果中國的AI模型跑在華為芯片上,這對美國是‘可怕’的結(jié)果。”
這句話已經(jīng)應(yīng)驗,但我們也要看到Anthropic正悄然崛起。其產(chǎn)品Claude正在證明一條可落地的商業(yè)化技術(shù)路徑。2026年,Anthropic的估值將達到3800億美元,成為OpenAI最有力的競爭者,也是我們新的對手。
答案,從來不只是終點,是下一個故事的起點。AGI的覺醒年,從來不只是某一項技術(shù)的突破,而是無數(shù)人選擇相信的那一刻。
圖片源于網(wǎng)絡(luò),侵刪。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.