无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

梁文鋒的擔子更重了

0
分享至



梁文鋒用V4打破質疑,但Coding、to B商業化、人才爭奪,DeepSeek還有硬仗要打。

文|《中國企業家》記者 閆俊文
見習編輯|李原編輯|何伊凡

頭圖來源|視覺中國

DeepSeek-V4上線幾日,圍繞它的討論仍未停止。梁文鋒用V4的強勢發布,回擊了外界對于DeepSeek迭代緩慢的質疑。

從效果來看,V4參數放大明顯。其擁有1M(百萬字)超長上下文,分為DeepSeek-V4-Pro和Flash兩個版本。其中,Pro版本模型參數規模達到1.6T,比V3大出兩倍,在開源陣營位列最高梯隊,向OpenAI和谷歌看齊。

大參數版本也標志著,DeepSeek正在放棄“小而美”路線,轉而追求“參數暴力美學”與稀疏架構效率并行。

更重要的突破來自于國產算力適配。DeepSeek將華為昇騰和英偉達共同寫進技術報告,在英偉達GPU和華為昇騰NPU平臺上均驗證了細粒度專家并行方案。在昇騰平臺上,V4實現了1.50至1.73倍的推理加速,使得V4成為全球首個在國產算力底座上完成訓練與推理驗證的萬億參數級模型。

在這背后,DeepSeek面臨的模型適配和上下游產業鏈,工作量之龐大、艱巨,被千芯科技董事長陳巍形容為“爬雪山、過草地”。這也不免讓DeepSeek難以將全部精力,放在模型的性能優化上。

但這場勝利意味著什么,市場情緒給出了有力證明。4月24日當天,寒武紀、摩爾線程、沐曦等國產芯片公司收盤價上漲2%至7%不等,并同時宣布,當天全量適配V4模型。

發布同時,DeepSeek的價格閃電戰也同步上演。

《中國企業家》獲悉,DeepSeek近日推出DeepSeek-V4-Pro模型API限時2.5折優惠,活動截至2026年5月31日。優惠后,該模型輸入價格降至0.025元(緩存命中)、3元(未命中),輸出6元,較原價1元、12元、24元大幅下調,已接近Flash版本水平。

DeepSeek稱,受高端算力限制,當前Pro版服務吞吐有限,預計下半年昇騰950超節點批量上市后,價格還將進一步下調。

不過需要注意的是,在模型廠商正掀起“Token漲價潮”的背景下,DeepSeek逆勢而行,一方面在于其素以“價格殺手”自居,算力能力和供給資源充足——但另一個可能性是:用戶熱情不足。

《中國企業家》觀察到:在4月24日、25日上線兩天,DeepSeek的API服務和網頁對話服務均很穩定,沒有發生“擁堵”的事故報告。市場總體對DeepSeek的反饋體驗,也比較“冷靜”。

而V4的“難產”本身,是這家明星創業公司正在面對的多重壓力:核心人才被競爭對手爭搶、國產算力適配還面臨漫長攻堅、與模型大廠和創企圍繞代碼能力需要貼身肉搏,以及懸而未決的融資傳聞。

DeepSeek的優勢依然清晰:技術頂尖、開源心智強、性價比突出、國產芯片適配領先、開發者生態基礎好。但其短板同樣現實:to B大客戶交付經驗不足、場景化解決方案不夠豐富、組織規模與巨頭差距明顯、商業化仍處于爬坡期。

如今大模型已不再是單一維度的天才或技術方面的競賽,而是一家公司資金、資源、人才、組織、戰略的集團作戰,這也需要DeepSeek不斷在技術理想和嚴峻現實之間做出選擇。

實測V4:能力很強,Coding仍需突破

一直以來,DeepSeek的創新方法論是,通過底層架構創新,實現極致成本控制,壓榨每一個Token的潛力。

這一次,V4在架構上,DeepSeek開創了全新的注意力機制——“CSA(壓縮稀疏注意力)+HCA(重度壓縮注意力)”的混合注意力架構。這一創新主要目標是對Token進行條目化的極致壓縮,以進一步降低對計算和顯存的需求。

技術報告顯示,在100萬Token的上下文設置下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需27%的單Token推理FLOPs(浮點運算數)和10%的KV緩存。


來源:視覺中國

一位專家對《中國企業家》指出,V4在訓練和推理中采用“FP4+FP8”混合精度,而非業界通用的FP32標準精度格式。DeepSeek固然是為了實現更快的計算速度、更低的緩存需求,但也為此犧牲了準確率。

特別是當模型參數規模達到1.6萬億時,這種“壓榨”是否仍能維持輸出質量的穩定性,也成為了V4在實際應用中的最大考驗。

在模型穩定性上,《中國企業家》將V4的技術報告丟給了DeepSeek,要求V4進行翻譯并給出關鍵指標的解讀。在專家模式下,上傳文件花了15秒,全文翻譯大概耗時20分鐘。雖然從長文本理解、信息抽取、邏輯梳理能力上,V4表現不錯,但也出現了丟失圖片的問題。

此外,隨著代碼能力正成為頂級模型的必爭之地,DeepSeek也正在遭遇強力阻擊。

在V4技術報告的Coding相關測試集里,出現了多處明顯的數據空白,顯示缺少與月之暗面K2.6、智譜GLM-5.1的直接對標結果。DeepSeek給出的解釋是:“由于K2.6和GLM-5.1的API太忙,無法回應查詢。”

這句略帶無奈的表述,也折射出了大模型戰局的殘酷:過去半年,月之暗面與智譜均將代碼能力、Coding Agent、工程化能力作為戰略制高點,API調用量與企業接入量暴漲。

盡管DeepSeek強調,V4-Pro在代碼智能體任務上已與K2.6、GLM-5.1達到可比水平,但行業普遍認為,代碼能力、工具穩定性、工程化魯棒性將直接決定MaaS收入、開發者生態黏性與大客戶付費意愿。這也意味著,DeepSeek下一輪攻堅的核心戰場,必須清晰指向代碼與Agent。

關鍵的權衡

雖然V4的表現有不盡如人意的地方,但它對全行業的標志性意義,顯然更為重大。

上海財經大學特聘教授、FutureLabs未來實驗室首席專家胡延平對《中國企業家》說:V4預覽版可以說不負各方期待,也成功在國產芯片適配的前提下,通過對注意力機制的改進,降低了計算和緩存開銷,提升了效率。

過去近5個月,在外界對DeepSeek“迭代放緩”的持續質疑中,業內卻清楚:DeepSeek的攻堅,并非單純在調優模型效果,而是要完成一次從英偉達CUDA生態,向國產芯片“昇騰NPU”等生態的全棧遷移——這是一場沒有硝煙的硬仗。

多位底層架構專家向《中國企業家》證實,超大模型在國產芯片上的遷移,難度遠超想象。

一家AI Infra初創公司CEO曾告訴《中國企業家》:適配新生態架構,會面臨算子缺失,大量自定義算子需重新開發的問題,編譯器也會經常出bug,訓練中途易崩潰。“相當于我造了一個賽車,理論速度有150公里/小時,但我可能要跑100次才能跑出一個這樣的速度,它不是那么穩定。”

《中國企業家》綜合各方信息來看,DeepSeek為適配國產算力,做出了一系列關鍵權衡:采用更低精度混合精度(FP4+FP8),降低顯存壓力與計算復雜度;強化稀疏注意力與KV緩存壓縮,減少芯片間通信量;優化MoE負載均衡策略,提升在非均勻芯片集群上的穩定性;放棄了部分極端基準刷分,優先保證長上下文、多輪、Agent場景的魯棒性。


來源:AI生成

陳巍將DeepSeek對華為昇騰的適配,比作“爬雪山、過草地”的事情。這個工作量非常大,會讓DeepSeek難以將全部精力,放在模型的性能優化上。

對于DeepSeek來說,其通信庫、集合通信、分布式策略需深度重構;萬億參數MoE模型對集群穩定性、顯存帶寬、網絡延遲要求近乎苛刻。這都會導致,V4開發十分艱難。

從根本上說,這是涉及到整個產業鏈上下游優化、水準提升的過程,比如芯片良率、芯片性能,大模型的整體Infra部署和優化等,是一個水漲船高的過程。

胡延平表示,超大參數的大模型開始訓練之后,需要集群里的每一張卡都要保持最佳狀態,計算集群協同工作的要求度很高,除了算力卡的穩定,還要求顯存帶寬、連接與網絡等各個方面跟得上。訓練任務動輒持續一兩個月,任何一張卡、一條鏈路不穩,都可能導致整體任務失敗。

不過,DeepSeek走出了最艱難的全棧遷移第一步后,已經證明中國大模型的自主可控,已經在成為可落地、可商用、可規模化的現實。隨著下半年,昇騰950批量交付,V4-Pro的吞吐能力還將大幅提升。

增長暗戰:人才、資本、競爭三座大山

V4的強勢發布,暫時平息了外界對DeepSeek技術能力的質疑,但更多的挑戰,也擺在了梁文鋒面前。人才流失、資本選擇、行業內卷、商業化壓力,都在把這家以技術理想主義著稱的公司,拖入集團作戰。

V4技術報告顯示,本次參與作者共270人,名單中包括梁文鋒——但一個不容忽視的細節是:過去5個月,已經有10位署名作者離開了DeepSeek。

其中最受關注的,是代碼與推理核心負責人郭達雅。據《晚點LatePost》報道,郭達雅以億元年薪,加盟了字節跳動。他深度參與了DeepSeekV3、R1、Coder、Math等關鍵模型研發,是代碼能力、推理架構、工程化的核心貢獻者。

基座架構、MoE分布式、推理引擎、長上下文、代碼Agent等關鍵崗位,都高度依賴核心人員的判斷與經驗;骨干流失不僅影響研發節奏,更可能帶來技術路線、架構偏好、工程文化的波動。

梁文鋒能在人員變動的情況下,如期推出V4并實現1.6T的大參數更新,說明其已建立了可復制、可擴展、不依賴單一個人的工程化體系。但如何留住核心人才、激勵早期成員、穩定團隊軍心,仍是DeepSeek必須解決的長期問題。

V4發布前后,市場也再次傳出重磅消息:DeepSeek計劃開啟新一輪融資,估值約200億美元,阿里、騰訊等都被列為潛在投資方。

胡延平直言:“DeepSeek應該融資,甚至上市。模型上限提升,來自用戶反饋、參數規模、Agent網絡,這些都需要巨大投入。”

更重要的是,整個行業正在從模型競賽轉向Token工廠競賽。DeepSeek選擇降價、擴參數,都是在為Token時代做準備——而Token工廠,也需要更巨額的資金投入。

對于梁文鋒來說,更深層的命題剛剛開始:如何把模型優勢,轉化為持續、高毛利、可規模化的收入?如何建立不依賴個人的技術迭代機制與人才激勵體系?如何在技術探索與商業交付之間保持平衡?如何從“模型公司”升級為“平臺生態公司”?

梁文鋒已經用V4回應了一切質疑,DeepSeek仍在最強玩家序列。但未來真正的決戰,才剛剛開始。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巔峰時期的QQ有多“狂”?2008年,騰訊竟打算用Q幣給員工發工資

巔峰時期的QQ有多“狂”?2008年,騰訊竟打算用Q幣給員工發工資

荊楚寰宇文樞
2026-05-14 23:20:07
曝北京男籃醞釀首筆交易,范子銘成為籌碼,交換場均11+6大前鋒

曝北京男籃醞釀首筆交易,范子銘成為籌碼,交換場均11+6大前鋒

中國籃壇快訊
2026-06-13 16:46:47
中國比伊朗狠太多!美專家警告:從第一島鏈往后撤,別當活靶子

中國比伊朗狠太多!美專家警告:從第一島鏈往后撤,別當活靶子

泠泠說史
2026-06-13 21:39:16
記者:加拿大世界杯開幕式引爭議

記者:加拿大世界杯開幕式引爭議

懂球帝
2026-06-13 03:05:31
法甲神鋒登頂射手榜,美國4-1大勝巴拉圭,后者曾斬巴西阿根廷

法甲神鋒登頂射手榜,美國4-1大勝巴拉圭,后者曾斬巴西阿根廷

釘釘陌上花開
2026-06-13 11:05:22
遍地開花的低價零食店!根本不靠賣零食賺錢,真相太殘酷

遍地開花的低價零食店!根本不靠賣零食賺錢,真相太殘酷

流蘇晚晴
2026-06-12 13:11:04
男子意外離世留下27萬元逾期貸款,銀行起訴家屬還款,法院判了

男子意外離世留下27萬元逾期貸款,銀行起訴家屬還款,法院判了

蓬勃新聞
2026-06-13 17:51:37
小米增程車!獲批

小米增程車!獲批

新浪財經
2026-06-14 01:11:10
賴清德和蔡英文從“臺灣共和國”到“中華民國”的轉化已經做到?

賴清德和蔡英文從“臺灣共和國”到“中華民國”的轉化已經做到?

陳腕特色體育解說
2026-06-14 00:13:11
起訴渝見小面引爭議!遇見小面:已撤銷訴訟,反思維權行動

起訴渝見小面引爭議!遇見小面:已撤銷訴訟,反思維權行動

南方都市報
2026-06-13 13:38:22
上映16天被觀眾趕出院線!網播也救不了它,事實證明爛片已無市場

上映16天被觀眾趕出院線!網播也救不了它,事實證明爛片已無市場

星宿影視鴨
2026-06-11 14:45:57
詹姆斯還是那么受歡迎!富保羅:有10-12支球隊對詹姆斯有興趣

詹姆斯還是那么受歡迎!富保羅:有10-12支球隊對詹姆斯有興趣

愛體育
2026-06-13 23:56:54
齊達內力挺C羅:他說世界杯只有7場比賽,因為他就瞄準了決賽!

齊達內力挺C羅:他說世界杯只有7場比賽,因為他就瞄準了決賽!

體育閑話說
2026-06-13 11:53:49
華為扔出核彈級王炸!十年磨一劍,鴻蒙7.0徹底掀翻安卓桌子

華為扔出核彈級王炸!十年磨一劍,鴻蒙7.0徹底掀翻安卓桌子

侃故事的阿慶
2026-06-13 09:04:37
伊朗外長:美國在諒解備忘錄中承諾不發動戰爭

伊朗外長:美國在諒解備忘錄中承諾不發動戰爭

澎湃新聞
2026-06-13 03:54:11
連傳噩耗!不到72小時,4位名人相繼離世,65歲的她經歷太過坎坷

連傳噩耗!不到72小時,4位名人相繼離世,65歲的她經歷太過坎坷

冷紫葉
2026-06-13 20:10:52
穿得沒感覺了,衛衣配瑜伽褲,到晚上脫下來才想起來今天沒換過。

穿得沒感覺了,衛衣配瑜伽褲,到晚上脫下來才想起來今天沒換過。

只要高興就好
2026-06-13 13:34:16
50歲李小冉機場吃面,褪去濾鏡才懂,普通人的衰老藏不住

50歲李小冉機場吃面,褪去濾鏡才懂,普通人的衰老藏不住

庭小娛
2026-05-13 12:06:40
20歲大學生被蜈蚣咬傷,整夜失眠、胡言亂語!家長誤以為心理壓力大,送醫才發現全身炎癥,醫生:病例極具警示性

20歲大學生被蜈蚣咬傷,整夜失眠、胡言亂語!家長誤以為心理壓力大,送醫才發現全身炎癥,醫生:病例極具警示性

上海約飯局
2026-06-13 13:23:47
河南美女老師被抓,臥室發現一本日記,里面所寫內容令人崩潰

河南美女老師被抓,臥室發現一本日記,里面所寫內容令人崩潰

可兒故事匯
2024-10-19 18:41:40
2026-06-14 01:56:49
中國企業家雜志 incentive-icons
中國企業家雜志
本賬號由《中國企業家》雜志社有限責任公司運營
3229文章數 19899關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

藝術
本地
房產
公開課
軍事航空

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

本地新聞

AK劉彰邂逅河北南大港濕地

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版