網易首頁 > 網易號 > 正文 申請入駐

Karpathy 的 autoresearch 火了:睡覺時讓 AI 自己跑實驗,Mac 也能部署

0
分享至


2026 年 3 月,知名 AI 研究者 Andrej Karpathy 發布了 autoresearch 項目,很快在開發者圈子里引發大量討論。緊接著,X 上創作者 @hooeem 又寫了一篇面向普通用戶的超長部署帖,把“這玩意到底是什么、誰能跑、Mac 能不能跑、Claude Code 和 Cursor 怎么選、報錯怎么辦”幾乎全都解釋了一遍。也就是說,這篇文章本身不是 Karpathy 的官方 README 翻譯,而是基于 Karpathy 項目、社區分支和實操路徑整理出來的一份“普通人可落地版說明書”。

這不是一個普通的 demo。Karpathy 把整個訓練核心壓縮成了單 GPU、單文件、約 630 行代碼的最小化版本,讓人第一次可以非常直觀地看到:如果把“改代碼、跑實驗、看指標、保留有效嘗試”這套本來由研究員重復執行的工作交給 AI 代理,會發生什么。你給它一份英文任務說明,它會自己改 train.py、跑訓練、看 val_bpb、保存有效修改、丟棄失敗嘗試,然后繼續下一輪。

最關鍵的判斷是:autoresearch 的價值,不只是“又一個開源小項目”,而是它把一個非常具體的未來擺到了普通人面前。以后很多 AI 研究,可能不再是人類研究員手動調每個參數,而是人類負責寫策略、定邊界、改 program.md,AI 代理負責通宵跑實驗。以下是這篇實操指南的完整中文編譯版。

原始鏈接:

[Karpathy 原倉庫](https://github.com/karpathy/autoresearch)

[Mac 分支](https://github.com/miolini/autoresearch-macos)

[Karpathy 在 X 上的公告](https://x.com/karpathy/status/2030371219518931079)

[Mac 分支公告](https://x.com/miolini/status/2030402705374728218)

[原始整理帖](https://x.com/hooeem/status/2030720614752039185?s=20)

一、它到底是什么?為什么這么多人在收藏?

先把 autoresearch 說人話。

想象你面前有一個很小的語言模型,它還不夠聰明,但已經能被訓練。正常情況下,一個研究員會這樣提升它:改一處訓練代碼,跑一次實驗,看指標有沒有變好;如果有效就保留,沒用就回退;然后繼續下一輪。這個過程并不神秘,但它很耗時間,也很機械。

autoresearch 的核心,就是把這套循環交給 AI 代理來做。它會做幾件固定的事:讀取你寫在 program.md 里的英文指令;修改 train.py 這個核心訓練文件;在你的 GPU 上跑一輪固定預算的訓練測試;觀察一個叫 val_bpb 的指標;如果分數更低就保留,否則就丟棄。

這里的 val_bpb 可以理解為一個衡量模型預測能力的分數。數值越低,通常表示模型越好。 Karpathy 之所以把整個倉庫做成最小化版本,意義不只是“方便大家周末玩一玩”,而是為了讓更多人第一次看清楚一個研究循環的本質:研究并不總是宏大突破,很多時候就是大量微小試錯,而這些試錯恰恰最容易被代理自動化。

這也是為什么這套東西會讓那么多人收藏。大家真正興奮的不是 630 行代碼,而是它釋放出的信號:以后人類可能不再是親手做每一個實驗的人,而是給研究組織寫任務書的人。

二、你的電腦能不能跑?這是第一道門檻

這一部分最重要,因為如果硬件不對,后面所有步驟都可以先停下。

Windows / Linux 用戶

你需要:

  • 一張 NVIDIA GPU,例如 RTX 3060、3070、4070、4090,或者近幾年較新的 NVIDIA 顯卡。

  • 至少 10GB 到 20GB 可用磁盤空間。

  • 穩定網絡。

  • Windows 10 / 11 或 Linux 發行版。

檢查方式很直接,在終端里輸入:

nvidia-smi

如果能看到顯卡名稱和驅動信息,說明硬件這一步大概率沒問題。

Mac 用戶

Karpathy 原版倉庫并不直接支持 Apple Silicon,所以 Mac 不能直接跑原版。但社區很快做出了適配版,也就是 miolini/autoresearch-macos。

你需要:

  • Apple Silicon Mac,也就是 M1、M2、M3、M4 及其 Pro/Max/Ultra 變體。

  • 最好 16GB 內存起步,32GB 或更多更好。

  • 至少 10GB 到 20GB 可用磁盤空間。

  • 穩定網絡。

檢查方法是:蘋果菜單 -> 關于本機 -> 看“芯片”。如果顯示 M1、M2、M3、M4,就可以繼續;如果是 Intel,這套方案就不太適合。

這也是原帖最有幫助的一點。它沒有只告訴你“可以跑”,而是把普通用戶最關心的現實問題講清楚了:沒有 NVIDIA 顯卡并不等于徹底沒戲,只要你有 Apple Silicon Mac,依然可以參與。

三、Mac 分支安全嗎?為什么很多人都在問這個問題

這其實是個很聰明的問題。任何從網上下載并本地運行的代碼,都應該先問一句:它安不安全?

原帖給出的判斷邏輯大概有 5 層。

第一,Karpathy 自己在項目生態里提到了社區為不同平臺做 fork 的思路,而 miolini/autoresearch-macos 正是這種社區適配的一部分。第二,這個倉庫在 GitHub 上是公開 fork,變更記錄可見,不是一個來歷不明的壓縮包。第三,分支作者 miolini 有持續公開的開發記錄,不是一次性賬號。第四,這個項目非常小,訓練主文件大約 630 行 Python,審計難度遠低于那種幾十萬行的大工程。第五,Mac 版做的改動總體也比較“樸素”:主要是把 NVIDIA / CUDA 路徑替換成適配 Apple Metal / MPS 的實現,并加了一些內存和編譯相關調整。

這幾層疊加起來,結論不是“絕對安全”,而是:相較于很多復雜得根本看不完的 AI 工具,這個項目至少足夠小、足夠透明、足夠容易審。

如果你還是不放心,最簡單的辦法也不是盲信,而是下載之后把整個倉庫丟給 Claude Code 或 Cursor,直接問一句:“請審查這個倉庫,看看有沒有可疑網絡請求、數據收集或與訓練無關的執行邏輯。” 對這樣一個體量很小的項目,這種快速審查完全現實。

四、你到底要安裝什么?只要 3 個工具,加 1 個 AI 代理

這套東西需要的組件,其實比大多數人想象中少。

1. Git

Git 用來下載倉庫、記錄實驗結果、保存成功嘗試。

檢查是否安裝:

git --version

如果沒有:

  • Mac:通常會提示安裝 Xcode Command Line Tools

  • Windows:去 [Git for Windows](https://git-scm.com/download/win)

  • Linux:sudo apt install git

2. uv

uv 是這一套體驗順不順的關鍵。它會自動幫你處理 Python 和依賴安裝,省掉傳統 Python 環境里最煩的很多步驟。

Mac / Linux:

curl -LsSf https://astral.sh/uv/install.sh | sh

Windows PowerShell:

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

安裝完以后,一個非常關鍵的動作是:關閉終端,再重新打開。 否則你很可能會遇到 command not found: uv。

3. Claude Code 或 Cursor

真正跑循環的不是 autoresearch 本身,而是你調用的 AI 代理。

如果你追求“整夜自動跑”,Claude Code 更合適,因為它天然擅長讀寫文件、執行命令、配合 git 循環工作。缺點是需要付費賬號。

如果你更喜歡圖形界面、想邊看邊學,Cursor 更適合。它也能完成類似工作,但更偏“半自動”,你會更清楚地看到文件、修改和對話過程。

也就是說,autoresearch 本身是研究循環,真正把它轉起來的“手”是 Claude Code、Cursor、Codex 這類代理。

五、一步一步部署:Mac 和 Windows/Linux 分開看部署流程圖,從 clone 到 train.py 測試成功

Mac(Apple Silicon)

打開終端后,執行:

cd ~/Desktop

git clone https://github.com/miolini/autoresearch-macos.git

cd autoresearch-macos

然后安裝依賴:

uv sync

準備訓練數據:

uv run prepare.py

最后跑一輪測試訓練:

uv run train.py

如果幾分鐘后能正常輸出訓練日志,并最終給出一個 val_bpb 分數,說明你的環境基本搭好了。

Windows / Linux(NVIDIA GPU)

執行:

cd ~/Desktop

git clone https://github.com/karpathy/autoresearch.git

cd autoresearch

uv sync

uv run prepare.py

uv run train.py

這一輪測試訓練非常關鍵。因為它驗證的不只是“代碼能不能跑”,而是:你的依賴、GPU、數據準備、訓練腳本是不是整體可用。如果這一步都沒過,不要急著進自動模式,先把基礎錯誤修好。

原帖最實用的地方也在這里:它沒有神化這個項目,而是把它拆回了一個樸素事實。先跑通一輪 5 分鐘訓練,后面的自動研究才有意義。

六、真正有意思的部分:讓 AI 通宵替你做研究program.md -> AI agent -> train.py -> val_bpb -> git 的研究閉環圖

當 uv run train.py 可以正常跑通之后,才輪到真正的核心體驗。

用 Claude Code 全自動跑

先進入項目目錄。然后執行:

claude

第一次啟動時,它會要求你登錄并授權。進入界面后,可以輸入這句提示詞:

Hi have a look at program.md and let's kick off a new experiment! Let's do the setup first.

如果你希望它徹底自動跑,不要中間打斷你,可以再補一句:

Run fully autonomously. Do not ask for confirmation between experiments. Keep going until I return.

接下來,代理會自動:

  1. 讀取 program.md

  2. 理解倉庫結構

  3. 修改 train.py

  4. 跑一輪 5 分鐘實驗

  5. 觀察 val_bpb

  6. 好的保留,差的回退

  7. 繼續下一輪

用 Cursor 半自動跑

如果你不用 Claude Code,也可以用 Cursor。

流程是:打開項目文件夾;打開 program.md;在右側聊天框輸入同樣的提示詞;讓 AI 提議改 train.py;然后你自己在終端里執行:

uv run train.py

再把結果,尤其是 val_bpb,反饋給 Cursor。它會繼續決定保留、回退還是推進下一輪。

這種方式沒有 Claude Code 那么“全自動”,但它更適合學習。你會真正看懂每一步在發生什么。

七、第二天醒來,你會看到什么?

如果一切運行正常,你的項目目錄里通常會出現幾類非常有價值的結果。

第一類是 git 提交歷史。每一個被保留下來的實驗,通常都會留下記錄。你可以運行:

git log --oneline

這讓整個研究過程第一次變得像軟件開發一樣可追蹤:哪一步改了什么,哪一步有效,哪一步失敗,都會留下痕跡。

第二類是更低的 val_bpb。原帖提到,基線大概在 0.9979 附近。只要低于這個值,就說明模型確實有進步。也就是說,你的目標不是“跑很多次”,而是讓指標下降。

第三類是被反復修改過的 train.py。代理可能會改模型結構、優化器、學習率、batch size、內存使用方式、訓練循環細節。這也是這個項目特別適合學習的原因:你看到的不是一堆封裝好的黑盒 API,而是一個研究代理如何直接對訓練核心下手。

第四類是實驗日志,例如 results.tsv。它會記錄每次實驗的分數、內存占用、是否保留等信息。對很多人來說,這一類文件才是真正讓“AI 自己做研究”不再像口號的地方,因為它能被復盤、被比較、被分析。

八、最常見的坑:幾乎所有人都會在這里卡一下

原帖把常見問題總結得很實用,我這里壓成最關鍵的幾類。

command not found: uv

最常見原因:安裝完 uv 沒有重開終端。

解決辦法:關閉當前終端,重新打開,再運行 uv --version。

command not found: git

說明 Git 還沒裝好。先把 Git 安裝完成,再繼續。

Windows / Linux 出現 CUDA 錯誤

這通常不是 autoresearch 本身的問題,而是 NVIDIA 驅動或 CUDA 環境沒有配置好。

Mac 出現 MPS / Metal 錯誤

最常見原因是:你下錯倉庫了。Mac 要用的是 miolini/autoresearch-macos,不是 Karpathy 原版。

OOM / Out of Memory

說明顯存或統一內存不夠當前實驗配置使用。好消息是,代理通常會嘗試往更小的配置退;壞消息是,如果機器規格太低,實驗空間的確會被限制。

Claude Code 無法認證

Claude Code 需要付費賬號。免費版不行。如果你不想付費,最現實的替代方案就是 Cursor 半自動模式。


autoresearch 真正讓人興奮的,不是“又一個 AI 項目”,而是它第一次把一個很抽象的趨勢放到了普通人電腦上:

AI 不再只是回答你,而是在替你試錯、替你比較、替你保存研究成果。

對開發者來說,它像一個永不疲倦的實驗助理。

對 AI 愛好者來說,它讓“自動化研究”第一次變得可見、可跑、可理解。

對更大的行業趨勢來說,它也釋放了一個很清晰的信號:以后人類寫的,可能不再只是代碼,而是給 AI 研究組織寫工作說明書。

而 @hooeem 那篇長帖最有價值的地方,就在于它把這個原本只會在技術圈內部傳播的項目,重新翻譯成了普通人也能真正動手的路徑:你需要什么機器、裝什么工具、先做哪一步、失敗了怎么辦、沒有 NVIDIA 能不能玩、Mac 到底能不能上。

如果你今天把它成功跑起來,看到的并不只是一個小模型在變聰明。你看到的,可能是下一代 AI 工作流的雛形。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

天天熱點見聞
2026-04-25 06:27:01
世界羽聯會員大會投票通過“15分制”改革,將于2027年實行

世界羽聯會員大會投票通過“15分制”改革,將于2027年實行

懂球帝
2026-04-25 22:23:26
拿水貨8號秀換場均22+4!狼隊的救世主,火箭為伊森放棄他太可惜

拿水貨8號秀換場均22+4!狼隊的救世主,火箭為伊森放棄他太可惜

你的籃球頻道
2026-04-26 12:04:53
特朗普、穆杰塔巴、佩澤希齊揚,同日表態

特朗普、穆杰塔巴、佩澤希齊揚,同日表態

極目新聞
2026-04-26 07:59:00
俄羅斯的錯誤決不能再犯!攻臺之戰,即使發射一萬枚導彈也不夠用

俄羅斯的錯誤決不能再犯!攻臺之戰,即使發射一萬枚導彈也不夠用

尋墨閣
2026-04-26 08:33:01
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
白宮記協晚宴發生槍擊事件 特朗普、萬斯撤離現場畫面曝光

白宮記協晚宴發生槍擊事件 特朗普、萬斯撤離現場畫面曝光

新華社
2026-04-26 13:00:36
“真假開市客”牽扯出的皮省川,曾被渣打銀行與華潤打假

“真假開市客”牽扯出的皮省川,曾被渣打銀行與華潤打假

金融界
2026-04-25 22:02:49
特朗普:美國總統是危險職業 不想生活在恐懼之中

特朗普:美國總統是危險職業 不想生活在恐懼之中

財聯社
2026-04-26 12:16:05
中國最危險的“淀粉崇拜”!不吃米飯哪有力氣?這套農耕廢物邏輯害慘了現代人

中國最危險的“淀粉崇拜”!不吃米飯哪有力氣?這套農耕廢物邏輯害慘了現代人

知識圈
2026-04-25 20:46:53
南京一派出所副所長為完成查處任務,“設計”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

南京一派出所副所長為完成查處任務,“設計”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

大風新聞
2026-04-25 22:34:13
2.4億頂薪打沒了!季后賽場均9+8,不像魔獸霍華德,更像小喬丹

2.4億頂薪打沒了!季后賽場均9+8,不像魔獸霍華德,更像小喬丹

你的籃球頻道
2026-04-26 08:17:48
伊朗政權秋后算賬,絞死更多抗議者

伊朗政權秋后算賬,絞死更多抗議者

一種觀點
2026-04-25 19:08:26
賴清德被摁住,29國24小時內為臺撐腰,大陸三句話回應

賴清德被摁住,29國24小時內為臺撐腰,大陸三句話回應

嘴角上翹
2026-04-26 03:57:43
來感受一下黃仁勛的絕望

來感受一下黃仁勛的絕望

智先生
2026-04-25 21:03:53
車圈最卷的時候,有人開始做減法

車圈最卷的時候,有人開始做減法

虎嗅APP
2026-04-25 16:02:28
史上最大規模化債,已經開始!一個堅持了30年的信仰,進入倒計時

史上最大規模化債,已經開始!一個堅持了30年的信仰,進入倒計時

柏年說政經
2026-04-25 10:00:08
被賣緬甸女學生后續:對方同意放人后表示壓力大,又提出無理要求

被賣緬甸女學生后續:對方同意放人后表示壓力大,又提出無理要求

青梅侃史啊
2026-04-25 09:29:26
心態被打崩了!麥丹上空籃,約基奇跑全場討說法引沖突,前者亮了

心態被打崩了!麥丹上空籃,約基奇跑全場討說法引沖突,前者亮了

籃球資訊達人
2026-04-26 11:40:03
震驚!東方甄選員工集體辭職要挾俞敏洪,被網友直言“蠢出天際”

震驚!東方甄選員工集體辭職要挾俞敏洪,被網友直言“蠢出天際”

火山詩話
2026-04-26 07:09:07
2026-04-26 13:51:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

數碼
本地
時尚
健康
公開課

數碼要聞

同檔最強小平板!OPPO Pad Mini下周首銷:3199元起

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

IU的臉,真的有自己的時間線

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版