一直以來DeepSeek都很低調(diào),近日DeepSeek宣布推出V4推理模型,距其2025年1月發(fā)布的R1已經(jīng)過去一年多,所以業(yè)界對新版本格外關(guān)注。
外媒MIT Technology Review撰文指出,在過去一年多時間里,DeepSeek經(jīng)歷一系列波折,比如核心員工離職、模型發(fā)布延遲、美國加強審查。相比R1,V4的“震撼程度”可能有所不及,但本次更新依然很重要,背后蘊含三重意義。
![]()
第一重:塑造開源模型新局面
和之前的R1一樣,DeepSeek聲稱V4的性能可與最佳模型媲美,但價格便宜很多。對于開發(fā)者和企業(yè)來說,這是一個好消息,意味著他們可以快速獲得前沿AI能力,不必?fù)?dān)心成本飆升。
DeepSeek V4有兩個版本,一個是V4-Pro,它的規(guī)模更大,專為編程、復(fù)雜智能體構(gòu)建;另一個是V4-Flash,規(guī)模較小,旨在運行得更快、更便宜。
兩個版本都提供推理模式,在這種模式下,模型可以仔細(xì)解析提示詞,并在解決問題時展示每一個步驟。
就定價而言,V4-Pro的收費為每百萬輸入詞元(Input Tokens)1.74美元,每百萬輸出詞元(Output Tokens)3.48美元,只相當(dāng)于OpenAI和Anthropic的一小部分。
V4-Flash更便宜,每百萬輸入詞元約0.14美元,每百萬輸出詞元約0.28美元。
至于大眾關(guān)注的性能,V4相比R1有了巨大飛躍。按照DeepSeek的描述,V4-Pro可以與領(lǐng)先的閉源大模型競爭,和Claude-Opus-4.6、GPT-5.4、Gemini-3.1相當(dāng)。
與開源模型Qwen-3.5、GLM-5.1相比,DeepSeek V4在編程、數(shù)學(xué)和STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))問題上有所超越,它是有史以來最強的開源模型之一。
在智能體編程任務(wù)中,V4-Pro也是最強開源模型之一,其寫作能力和世界知識也處于領(lǐng)先地位。
DeepSeek表示,他們已針對Claude Code、OpenClaw和CodeBuddy等流行智能體框架進行了專門優(yōu)化。
第二重:用新方法對內(nèi)存效率進行優(yōu)化
擁有長上下文窗口(Context Window)是V4的關(guān)鍵創(chuàng)新之一,也就是說,模型可以一次處理更長的文本。
兩個版本都能處理100萬個詞元(Tokens)。DeepSeek稱,這樣的上下文窗口是所有服務(wù)的默認(rèn)配置,與Gemini和Claude的尖端版本相當(dāng)。
DeepSeek是如何做到的?這點更重要。它對模型進行了架構(gòu)調(diào)整,格外重視“注意力機制(Attention Mechanism)”,這一機制是模型理解提示詞各部分與其他部分關(guān)聯(lián)的重要變量。當(dāng)提示詞變長,注意力機制成為長上下文模型的主要瓶頸之一。
DeepSeek通過創(chuàng)新技術(shù),讓模型對關(guān)注的內(nèi)容有了更強的選擇性。V4不會將文本看得同等重要,而是壓縮舊信息,專注當(dāng)前時刻最可能重要的部分,同時保留附近文檔,避免遺漏重要細(xì)節(jié)。
在100萬個詞元的上下文中,V4-Pro使用的算力只有V3.2的27%,內(nèi)存使用量也削減至10%。V4-Flash的降幅更大,僅使用10%的計算能力和7%的內(nèi)存。
AI模型如何“記憶”信息是DeepSeek的研究重點,它在過去一年發(fā)表一系列論文,嘗試通過壓縮和數(shù)學(xué)技術(shù)擴展AI模型實際能處理的內(nèi)容。
第三重:擺脫英偉達(dá)
V4針對華為昇騰(Ascend)等國產(chǎn)芯片進行了優(yōu)化,之前沒有過,這是一次檢驗,檢查DeepSeek能否擺脫對英偉達(dá)芯片的依賴。
The Information報道稱,在新模型發(fā)布前,通常會向英偉達(dá)、AMD提前開放權(quán)限,方便芯片商支持,但這一次DeepSeek沒有這樣做,而是給了中國芯片制造商早期訪問權(quán)限。
華為表示,基于昇騰950系列的昇騰超節(jié)點產(chǎn)品將支持DeepSeek V4。也就是說,如果企業(yè)和個人想運行修改版DeepSeek V4,可以使用華為芯片。
不難看出,AI全面國產(chǎn)化已經(jīng)提速,從芯片到軟件框架再到數(shù)據(jù)中心,必須全面國產(chǎn)化,刻不容緩。
擺脫英偉達(dá)體系并不簡單,主要是受到軟件生態(tài)系統(tǒng)的制約。轉(zhuǎn)向華為體系,意味著要調(diào)整模型代碼、重建工具,要證明系統(tǒng)足夠穩(wěn)定,可以投入使用。
從現(xiàn)有信息看,DeepSeek似乎并沒有完全擺脫英偉達(dá),它只將V4訓(xùn)練過程的一部分適配了中國芯片。一些人認(rèn)為,V4可能仍然是在英偉達(dá)芯片上訓(xùn)練的。
中國芯片仍有差距,仍需要追趕,目前國產(chǎn)芯片更適合推理而非訓(xùn)練。V4的未來成本將與華為芯片聯(lián)系起來。DeepSeek宣稱,華為昇騰950超節(jié)點于今年下半年開始大規(guī)模出貨后,屆時V4-Pro的價格可能會大幅下降。如果能奏效,V4可能表明中國正在成功構(gòu)建新AI基礎(chǔ)設(shè)施。
分析師怎么看?
除了媒體解讀,業(yè)界分析師也對DeepSeek V4的推出發(fā)表了各自的看法。
金融服務(wù)公司晨星(MorningStar)的高級股票分析師蘇偉(Ivan Su)說:“R1震驚了美國市場,因為沒人料到中國模型能達(dá)到如此高的水平。V4只是這一趨勢的延續(xù),而趨勢不會像沖擊那樣成為頭條新聞。”
中國模型比美國模型便宜,這已經(jīng)是公認(rèn)事實,美國股市早將這一因素考慮在內(nèi),所以這次美國股市并沒有暴跌。
Counterpoint Research首席分析師孫偉(Wei Sun)認(rèn)為:“R1是在英偉達(dá)硬件上訓(xùn)練的,V4不一樣,它在華為和寒武紀(jì)芯片上運行。也就是說,中國AI系統(tǒng)的構(gòu)建和部署不再依賴英偉達(dá),因此,V4可能比R1帶來的影響更大,它將加速國內(nèi)采購,促進全球AI更快發(fā)展。”
DeepSeek在聲明中表示,V4在開源模型中擁有最好的智能體編程能力,并實現(xiàn)了“世界級”的推理能力。在廣泛的世界知識方面,V4的表現(xiàn)優(yōu)于其他開源模型,只是不及Gemini。
據(jù)估計,美國AI初創(chuàng)公司內(nèi)部約有80%都在使用中國開源模型,亞馬遜、微軟、谷歌的云平臺也提供中國模型。
一項分析發(fā)現(xiàn),中國模型的運行成本僅為美國競爭對手的六分之一到四分之一,價格戰(zhàn)是中國模型的一大優(yōu)勢,也是搶占市場的關(guān)鍵。
有趣的是,V4模型剛剛發(fā)布,DeepSeek便宣布降價打折,全系A(chǔ)PI的輸入緩存命中價格永久降至原有的1/10,DeepSeek-V4-Pro模型的API限時享受2.5折優(yōu)惠,該優(yōu)惠活動將持續(xù)至2026年5月5日。
有觀點認(rèn)為,DeepSeek以如此快的速度重拳出擊,優(yōu)惠力度如此之大,絕非偶然或者隨意為之。在美國模型的壓力下,中國AI的競爭力沒有被削弱,反而一直在增強。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.