无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Redis之父下場,給DeepSeek V4單獨造了一臺推理引擎

0
分享至

DeepSeek V4,已經開始逼著海外開發者為它修專屬高速公路了。

發布才兩周,開源圈里,第一批V4原生基礎設施已經冒了出來。

而且,不是那種在現有框架上套一層殼的“小修小補”。

不是通用GGUF加載器;不是llama.cpp的wrapper;甚至壓根不支持別的模型。

它只干一件事:

把DeepSeek V4 Flash,在Mac上跑到極致。


這條“專屬高速公路”,叫ds4.c。而把修出來的人,分量有點嚇人——

Salvatore Sanfilippo,程序員圈更熟悉他的另一個名字:antirez

他一手創造了 Redis(GitHub 7.4 萬 Star),并親自主導這個全球最流行的內存數據庫整整 11 年。

而現在,他的新項目ds4.c,是一個專門為DeepSeek V4 Flash打造的本地推理引擎。

時間線上,已經有網友在128GB Mac上把它跑了起來。


可以說,這波,Mac庫存又被DeepSeek清了一遍。

鯨魚,確實值得。

專為V4 Flash打造的本地推理引擎

4月24日,DeepSeek發布V4系列。其中,V4 Flash是效率型號:284B總參數、13B激活參數、100萬token上下文。

這樣的體量,過去幾乎默認屬于云端。

而antirez想做的,是把它塞進一臺Mac。于是,ds4.c誕生了。


這是一個用C + Metal從頭寫出來的推理引擎。

整個項目就幾個文件,C占55.4%,Objective-C 30.2%,Metal 13.8%。Metal-only,沒有運行時,沒有框架依賴,沒有抽象層。

Metal-only。

Metal是蘋果自家的圖形和計算API,在Mac、iPhone、iPad上調用GPU都靠它,相當于蘋果生態里的CUDA。

ds4只用Metal的意思是,這個引擎只在Apple Silicon上跑,不管Nvidia顯卡,也不管AMD。

整個項目只有一個目標:

讓V4 Flash在本地的蘋果機器上,不只是“能跑”,而是真正“能用”。

目前測試結果已經相當夸張:

在128GB內存的MacBook Pro M3 Max上,2-bit量化、32K上下文,短prompt預填充58.52 token/s,生成26.68 token/s。

換成512GB的Mac Studio M3 Ultra,長prompt(11709 token)預填充能到468.03 token/s,生成27.39 token/s。

對一個284B參數的MoE模型來說,這個速度在本地機器上是可用的。

怎么做到的?

關鍵在三件事。

第一,非對稱量化

ds4并不會把所有參數都壓到2-bit,而是只量化路由的MoE專家層,up/gate用IQ2_XXS,down用Q2_K,這些層占了模型空間的絕大部分。

其他組件,共享專家層、投影層、路由層,全部保留Q8精度不動。

antirez在README里寫了一句很直接的話:

這些2-bit量化不是開玩笑,它們在coding agent下表現良好,能可靠地調用工具。

第二,KV緩存搬到硬盤上。

現在的LLM agent客戶端都是無狀態的,每次請求把整段對話重新發一遍。

通用引擎的做法是每次重新做prefill。

ds4的做法是把KV狀態寫到磁盤上,下次請求過來匹配token前綴,命中了就直接從磁盤加載,跳過prefill。

緩存的key是token ID序列的SHA1哈希值。

這對Claude Code這種每次啟動會發25K token初始prompt的agent場景尤其有用,第一次prefill完成后,后續會話直接從磁盤恢復。

第三,內置OpenAI和Anthropic兩套API兼容層。

/v1/chat/completions走OpenAI協議,/v1/messages走Anthropic協議。tool calling也做了適配。README里直接給了opencode、Pi、Claude Code三種agent客戶端的配置示例。

關于為什么要做這件事。

antirez的回答是,本地推理領域有很多優秀項目,但新模型不斷發布,注意力立刻被下一個要實現的模型吸走。

通用引擎為了兼容所有模型,必須做抽象。抽象意味著妥協。他想做的是一條刻意的窄路,一次只賭一個模型,用官方logits做驗證,做長上下文測試,做足夠的agent集成來確認它真的能用。

框架一經發布,就有網友不少網友反饋,已經在Mac上跑起來了。




你準備好在本地跑V4了嗎?

一個模型一個推理框架

這件事,也在開發者圈炸出了一個更大的討論:

未來會不會變成——一個模型,一個推理框架?

Hacker News上一條高贊評論提了一個有意思的方向,如果開始針對精確的GPU加模型組合構建超優化推理引擎呢?

GPU越來越貴,如果去掉足夠多的抽象層,直接針對精確的硬件和模型編碼,可能能優化很多。

這條路的代價也很明顯。同一條評論指出,一旦模型過時,一切從頭來過。


antirez自己也承認了這個問題。他說ds4當前賭的是DeepSeek V4 Flash,但模型可能會換。

不變的約束是,本地推理要在高端個人機器或Mac Studio上跑得靠譜,起步128GB內存。

未來會怎樣,README里留了個伏筆。

當前是Metal-only,未來可能會做CUDA支持。但他寫得很謹慎,也許會,但僅此而已。這個項目刻意保持小、快、專注。


更值得關注的是他在README里拋出的一個觀點,本地推理應該是三件事一起做好,開箱即用。

一個有HTTP API的推理引擎,一份針對這個引擎和這套假設特別打造的GGUF,一套和coding agent對接的測試和驗證。

這是一種全棧本地推理的思路,不是把組件拼起來,是把鏈路當成一個產品來設計。

如果這條路走通了,它可能改變本地推理的玩法。

模型廠商發布新模型的同時,社區里就會有人跳出來給它做專屬引擎,做專屬量化,做專屬agent接入。每一代模型都有一個自己的「antirez」。

ds4還有一個很坦率的細節。README里有一段聲明,這個軟件是在GPT 5.5的「強力輔助」下開發的,人類負責想法、測試和調試。

antirez說如果你不接受AI輔助開發的代碼,這個軟件不適合你。


兩周時間,從fork llama.cpp做適配,到從頭寫一個專用引擎,離不開AI輔助。這件事本身可能比ds4還更值得關注。

One more thing

最后說一下antirez這個人。


真名Salvatore Sanfilippo,1977年出生于西西里島。2009年創建Redis,主導這個項目十一年,2020年離開。


離開時他寫過一段話,說自己寫代碼是為了表達自己,代碼是一件制品而不只是有用的工具。他寧可被記住為一個糟糕的藝術家,也不愿被記住為一個好程序員。

2024年底他回到Redis,擔任evangelist角色。

除了Redis之外,他還寫過Kilo(不到1000行C代碼的文本編輯器)、dump1090(航空ADS-B信號解碼器)、linenoise(readline的微型替代品)。

他還在玩Flipper Zero,寫了RF協議分析工具,把Asteroids移植到上面。2022年他出了一本科幻小說《WOHPE》,主題是AI、氣候變化、程序員,以及人類和技術的互動。

他個人主頁第一行寫的是,「我把大部分專業時間花在寫代碼和寫小說上。」


關于Redis的誕生,他在個人主頁里寫了一段:

我老婆說,Redis的前幾年我大部分代碼都是坐在馬桶上寫的,用一臺MacBook Air 11寸。我真希望能說她錯了,但她正好說得完全對。

這種調性貫穿了他做的所有項目。小、精確、自成一體。

ds4.c也是同一個路子。

看一下他在ds4 README里關于macOS bug的那段備注,能立刻感覺到這個人的味道。

ds4有一個CPU推理路徑用于正確性驗證,但當前版本的macOS在虛擬內存實現上有一個bug,跑CPU推理會導致內核崩潰。

他寫道,記住了嗎?軟件都很爛。我沒法修復CPU推理來避免崩潰,因為每次都得重啟電腦,一點都不好玩。

然后加了一句,如果你有膽量,來幫我們。

他在個人主頁里還留了一句話:

現代編程正變得復雜、無趣,全是要粘合的層。它正失去大部分美感。大多數程序員既不在面對編程的藝術面,也不在面對編程的高級工程面。

從Redis到ds4.c,十五年過去,antirez還是那個antirez。

只不過這一次,他開始給AI修路了。

參考鏈接
[1]http://invece.org/
[2]https://github.com/antirez/ds4
[3]https://news.ycombinator.com/item?id=48050751

文章來源:量子位。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
清華教授柳冠中語出驚人!他質問道:科技沒有人,那還要人干嘛?

清華教授柳冠中語出驚人!他質問道:科技沒有人,那還要人干嘛?

秋楓凋零
2026-06-10 03:30:11
日本隊世界杯戰袍曝光,臂章位置偏移被指“逼死強迫癥”

日本隊世界杯戰袍曝光,臂章位置偏移被指“逼死強迫癥”

星耀國際足壇
2026-06-09 23:56:02
國米與拜仁共創世界杯決賽紀錄,兩家俱樂部始終有球員在場

國米與拜仁共創世界杯決賽紀錄,兩家俱樂部始終有球員在場

懂球帝
2026-06-09 22:22:22
何潔一家在美國吃中餐!她臉垮眼袋大面相變了,被曝已在加州買房

何潔一家在美國吃中餐!她臉垮眼袋大面相變了,被曝已在加州買房

楓塵余往逝
2026-06-08 22:00:49
履新!國家杰青,任985大學院長

履新!國家杰青,任985大學院長

TOP大學來了
2026-06-10 17:33:14
尼克斯總決賽G4媒體日:布倫森談父子并肩 阿奴諾比回應隔扣文班

尼克斯總決賽G4媒體日:布倫森談父子并肩 阿奴諾比回應隔扣文班

羅說NBA
2026-06-10 05:59:37
被欠薪6個月的網友哭訴:在央企電力設計院的女兒又降薪了30%!

被欠薪6個月的網友哭訴:在央企電力設計院的女兒又降薪了30%!

燈錦年
2026-06-09 15:12:21
以色列報復性空襲德黑蘭,伊朗革命衛隊司令傳出死訊

以色列報復性空襲德黑蘭,伊朗革命衛隊司令傳出死訊

桂系007
2026-06-08 19:47:22
“好好的孩子喂成了低能兒!”孩子奶奶的發型,預示了家教水平!

“好好的孩子喂成了低能兒!”孩子奶奶的發型,預示了家教水平!

林林先生
2026-06-10 07:10:03
電梯門事件持續發酵!阿珍開始直播了,大量勝宏的股民刷禮物安慰

電梯門事件持續發酵!阿珍開始直播了,大量勝宏的股民刷禮物安慰

火山詩話
2026-06-10 05:53:04
很多人在說:性蕭條時代來臨了

很多人在說:性蕭條時代來臨了

華人星光
2026-05-23 10:48:28
正式登上世界第一!中國女網15歲新星刷爆神跡:新版李娜天生要強

正式登上世界第一!中國女網15歲新星刷爆神跡:新版李娜天生要強

李喜林籃球絕殺
2026-06-09 16:50:20
長腿美女,身材真好

長腿美女,身材真好

藍色海洋009
2026-05-24 09:53:01
嗲精父親被秘密逮捕了

嗲精父親被秘密逮捕了

毒舌扒姨太
2026-06-09 22:45:03
63歲穆帥執教皇馬獲官宣!本菲卡獲1500萬歐賠償金,周四正式亮相

63歲穆帥執教皇馬獲官宣!本菲卡獲1500萬歐賠償金,周四正式亮相

我愛英超
2026-06-10 06:48:01
趙少康這回尷尬了,鄭麗文拿出亮眼“成績單”!王金平意外受矚目

趙少康這回尷尬了,鄭麗文拿出亮眼“成績單”!王金平意外受矚目

明天后天大后天
2026-06-10 17:49:10
杜聿明俘獲7名偵察兵,他決意處決,副參勸阻,事后杜聿明致謝

杜聿明俘獲7名偵察兵,他決意處決,副參勸阻,事后杜聿明致謝

嘮叨說歷史
2026-06-05 15:12:09
伊朗對美方目標發動襲擊!伊朗多地遭美軍空襲,儲水系統被炸,特朗普:行動“非常強硬”!伊方:美國已戰敗,若想安全最好離開

伊朗對美方目標發動襲擊!伊朗多地遭美軍空襲,儲水系統被炸,特朗普:行動“非常強硬”!伊方:美國已戰敗,若想安全最好離開

每日經濟新聞
2026-06-10 07:45:17
臺灣地區最后12個“邦交”全是硬茬

臺灣地區最后12個“邦交”全是硬茬

人工島分布
2026-06-07 08:18:25
中國的戰略縱深藏著多重底牌,是所有國家中最深不可測的存在

中國的戰略縱深藏著多重底牌,是所有國家中最深不可測的存在

磊子講史
2026-06-09 17:48:41
2026-06-10 20:20:49
算法與數學之美 incentive-icons
算法與數學之美
分享知識,交流思想
5604文章數 64624關注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

特斯拉FSD中國山區掛壁公路實測 馬斯克親自轉發視頻

頭條要聞

特斯拉FSD中國山區掛壁公路實測 馬斯克親自轉發視頻

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

一紙研報引"光"速下跌 CPO落地節奏有變?

汽車要聞

首款搭載激光雷達的A00級車型 2026款海鷗煥新上市

態度原創

教育
手機
數碼
旅游
軍事航空

教育要聞

高考考不上本科,可以看看這3所大學,王牌專業就業比一本都要好

手機要聞

2026值得入手的輕薄折疊屏推薦:OPPO Find N6領銜 兼顧便攜實用

數碼要聞

TRYX(創氪星系)全球首創全息視效水冷HOLO 360開售,999元

旅游要聞

官宣!復興島官方賬號正式上線,速關注

軍事要聞

伊朗襲擊美軍第五艦隊

無障礙瀏覽 進入關懷版