網易首頁 > 網易號 > 正文 申請入駐

Autoresearch 全自動寫代碼、寫論文,Claude、Codex、龍蝦紛紛復現

0
分享至

Karpathy 最近搞了一個叫 autoresearch 的項目,一出手就在圈內炸了鍋。

核心思路簡單到離譜:你去睡覺,AI 幫你通宵做實驗

一覺醒來,100 多個實驗結果整整齊齊地擺在面前。

更猛的是,社區在此基礎上迅速衍生出了好幾個項目,把這套"自主研究"的范式推向了更廣的場景——從代碼質量優化,到直接幫你寫論文。

我覺得這可能是 2026 年最有意思的 AI Agent 落地方向之一

Karpathy 的 autoresearch:用 Markdown 編程的研究機構

項目地址:https://github.com/karpathy/autoresearch

Karpathy 在 README 里寫了一段非常有畫面感的話:

曾經,前沿 AI 研究是由肉體大腦完成的,他們在吃飯、睡覺和其他娛樂之間擠出時間做研究,偶爾通過名為"組會"的儀式用聲波互聯來同步進展。那個時代早已過去。研究現在完全屬于在天空中計算集群巨型建筑上運行的自主 AI Agent 群。
Karpathy autoresearch 實驗進展圖

核心玩法是什么?

整個項目只有三個關鍵文件:

文件

作用

誰來改?

prepare.py

數據準備、評估函數、dataloader

? 不能動

train.py

模型架構、優化器、訓練循環

AI 改這個

program.md

AI Agent 的行為指令

? 人類改這個

這個設計太妙了——你不再寫 Python,你寫 Markdown

program.md就是你的"研究組織代碼",定義 AI Agent 的行為模式:怎么實驗、怎么評估、怎么決定保留還是回滾

實驗循環長這樣:

永遠循環:
1. 看當前 git 狀態
2. 改 train.py,嘗試一個想法
3. git commit
4. 跑實驗(5分鐘固定時長)
5. 讀取結果:val_bpb 有沒有降低?
6. 降了 → 保留,推進分支
7. 沒降 → git reset 回滾
8. 記錄到 results.tsv
9. 繼續下一個實驗

每次實驗固定跑 5 分鐘,一個小時跑大約 12 個實驗。你睡 8 小時,AI 就給你跑了將近 100 個實驗。每個實驗的指標、內存、狀態全部記錄在 TSV 里

program.md里有一條非常霸氣的規則:

NEVER STOP: 一旦實驗循環開始,不要暫停問人要不要繼續。人類可能在睡覺。你是自主的。如果沒想法了,想得更深一些。循環持續到人類手動打斷為止

快速上手:

# 安裝 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安裝依賴
uv sync

# 下載數據和訓練 tokenizer
uv run prepare.py

# 手動跑一次訓練(驗證環境正常)
uv run train.py

然后開啟你的 Claude Code 或者 Codex,對它說一句話就行:

Hi have a look at program.md and let's kick off a new experiment!

醒來看results.tsv

設計哲學上有幾點我覺得特別精彩:

  • 固定時間預算:所有實驗都是 5 分鐘,不管你怎么改架構改參數,都是公平比較

  • 簡潔性原則:同等效果下更簡單的代碼優先。刪代碼能保持效果?那就是贏

  • 單一指標:只看val_bpb(驗證集 bits per byte),越低越好

  • Git 即記憶:所有實驗都 commit,成功推進分支,失敗就 reset

不過這個項目目前只支持 NVIDIA GPU(在 H100 上測試),對 Mac 或 CPU 用戶不太友好。好在社區已經有了 MacOS、Windows、AMD 的 fork 版本。

Codex Autoresearch:把自主研究推廣到一切有指標的場景

項目地址:https://github.com/leo-lilinxiao/codex-autoresearch


Codex Autoresearch Banner

Karpathy 的 autoresearch 只做 ML 訓練,而codex-autoresearch把這套邏輯泛化到了所有軟件工程場景。

它是一個 OpenAI Codex 的 Skill(技能插件),核心理念:只要你有一個可以衡量的數字指標,它就能幫你自動優化。

你只需用一句話描述目標,Codex 會自動分析項目、確認指標、然后進入自主迭代循環。

看幾個實際場景:

你說的話

Codex 做什么

"提高測試覆蓋率"

掃描項目,提出指標,自動寫測試直到達標

"修復 12 個失敗的測試"

逐個檢測修復,直到全部通過

"為什么 API 返回 503?"

用科學方法排查根因,給出可證偽的假設

"這段代碼安全嗎?"

STRIDE + OWASP 審計,每個發現都有代碼證據

架構上有個很聰明的設計——支持前臺和后臺兩種運行模式。

你可以盯著它跑,也可以讓它后臺無人值守地跑一整夜。

實驗循環跟 Karpathy 的一脈相承:

共享循環核心(永遠循環或 N 次):
1. 審查當前狀態 + git 歷史 + 結果日志
2. 選一個假設
3. 做一個原子改動
4. git commit
5. 跑驗證 + 安全護欄
6. 改進了 → 保留。變差了 → 回滾。崩了 → 修復或跳過
7. 記錄結果
8. 健康檢查
9. 連續 3 次丟棄 → 調整策略;5 次 → 轉向;2 次轉向 → 搜索網絡
10. 重復

它還有一個跨運行學習的機制——每次成功或失敗的經驗都會被提取成"教訓",注入到下一輪實驗的決策中。

安裝也很簡單:

git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch

然后在 Codex 里說:

$codex-autoresearch
I want to get rid of all the `any` types in my TypeScript code

走開,回來看結果。

Claude Autoresearch:9 個命令覆蓋全場景

項目地址:https://github.com/uditgoenka/autoresearch

這個是面向 Claude Code 的版本,口號很直白:

"設定目標 → Claude 跑循環 → 你醒來看結果"

跟 Codex 版本類似,也是泛化的自主迭代框架,但這個項目在命令體系上做得更完整,提供了 9 個開箱即用的命令:

命令

功能

/autoresearch

核心自主迭代循環

/autoresearch:plan

交互式配置向導

/autoresearch:security

STRIDE + OWASP 安全審計

/autoresearch:ship

發布前檢查工作流

/autoresearch:debug

科學方法自主排 bug

/autoresearch:fix

自動修復所有錯誤

/autoresearch:scenario

場景驅動測試生成

/autoresearch:predict

多角色預分析

/autoresearch:learn

自動生成/更新文檔

它定義了8 條核心規則,這也是整個 autoresearch 范式的精髓:

  1. 循環到底——無限循環或 N 次循環后總結

  2. 先讀后寫——理解上下文再動手

  3. 一次一改——原子性修改,壞了知道是哪步

  4. 機械驗證——不要主觀的"看起來行",要指標

  5. 自動回滾——失敗立刻撤回

  6. 簡單為王——同樣效果,代碼越少越好

  7. Git 即記憶——所有實驗都進 git 歷史

  8. 卡住了就想更深——沒思路的時候重新審視、組合近似成功的實驗、嘗試激進改變

安裝方式(推薦插件安裝):

# 在 Claude Code 中運行
/plugin marketplace add uditgoenka/autoresearch
/plugin install autoresearch@autoresearch

或者手動復制:

git clone https://github.com/uditgoenka/autoresearch.git
cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch

然后試試:

/autoresearch
Goal: Increase test coverage from 72% to 90%
Scope: src/**/*.test.ts, src/**/*.ts
Metric: coverage % (higher is better)
Verify: npm test -- --coverage | grep "All files"
Guard: npm test
AutoResearchClaw:最激進的——直接幫你寫論文

項目地址:https://github.com/aiming-lab/AutoResearchClaw


AutoResearchClaw

前面幾個還是在"優化代碼/模型"的范疇,這貨直接把目標拉到了全自主寫論文

口號:"Chat an Idea. Get a Paper."——你說一個想法,它給你出一篇會議論文


AutoResearchClaw 框架圖

23 個階段,8 個大的 Phase,全自動流水線

Phase A: 研究范圍界定         Phase E: 實驗執行
1. 主題初始化 12. 實驗運行
2. 問題分解 13. 迭代改進(自動修復)

Phase B: 文獻發現 Phase F: 分析與決策
3. 搜索策略 14. 結果分析(多 Agent)
4. 文獻收集(真實 API) 15. 研究決策(PIVOT/REFINE)
5. 文獻篩選 [人工關口]
6. 知識提取 Phase G: 論文寫作
16. 論文大綱
Phase C: 知識綜合 17. 論文初稿
7. 綜合 18. 同行評審(證據檢查)
8. 假設生成(多角色辯論) 19. 論文修訂

Phase D: 實驗設計 Phase H: 最終化
9. 實驗設計 [人工關口] 20. 質量關口 [檢查]
10. 代碼生成 21. 知識歸檔
11. 資源規劃 22. 導出發布(LaTeX)
23. 引用驗證

最終產出一整套交付物:

產出

paper_draft.md

完整論文(引言、相關工作、方法、實驗、結論)

paper.tex

可編譯的 LaTeX(NeurIPS/ICML/ICLR 模板)

references.bib

真實的 BibTeX 引用(來自 OpenAlex、Semantic Scholar、arXiv)

experiment runs/

生成的實驗代碼 + 沙箱運行結果

charts/

自動生成的對比圖表

reviews.md

多 Agent 同行評審

幾個讓我印象深刻的設計:

  1. 引用不造假:文獻通過 OpenAlex、Semantic Scholar 和 arXiv API 獲取真實論文,還有 4 層引用驗證。這一點非常關鍵,其他自動寫論文的工具最大的問題就是瞎編引用

  2. 自愈機制:實驗失敗了會自動診斷修復;假設不成立會自動 PIVOT 換方向

  3. 多 Agent 辯論:假設生成和結果分析都用多視角辯論機制,不是單一 LLM 的"自說自話"

  4. 跨平臺支持:通過 ACP(Agent Client Protocol),支持 Claude Code、Codex CLI、Copilot CLI、Gemini CLI、Kimi CLI 等任何兼容的 Agent 后端

  5. Sentinel 哨兵:后臺質量監控——NaN/Inf 檢測、論文證據一致性檢查、引用相關性打分、反編造守衛

快速上手:

# 克隆安裝
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .

# 交互式配置
researchclaw setup
researchclaw init

# 一條命令跑起來
export OPENAI_API_KEY="sk-..."
researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

它已經 showcase 了 8 個領域(數學、統計、生物、計算、NLP、RL、視覺、魯棒性)的全自主生成論文

橫向對比:四個項目怎么選?

特性

Karpathy autoresearch

Codex Autoresearch

Claude Autoresearch

AutoResearchClaw

核心場景

ML 模型訓練優化

通用代碼質量

通用代碼質量

全自主寫論文

Agent 平臺

任意

OpenAI Codex

Claude Code

多平臺 ACP

自主程度

高(永不停止)

高(后臺模式)

高(無限循環)

極高(23 階段流水線)

迭代粒度

改 train.py

任意代碼改動

任意代碼改動

文獻→實驗→論文

評估方式

val_bpb

自定義指標

自定義指標

多維質量評審

GPU 要求

需要 NVIDIA GPU

不需要

不需要

按任務而定

適合誰

ML 研究者

工程師/開發者

工程師/開發者

科研工作者


老章說兩句

這一波 autoresearch 生態的爆發,本質上是三個趨勢交匯:

第一,Agent 能力到位了。Claude Code、Codex CLI 這些編程 Agent 已經能夠穩定地修改代碼、運行測試、讀取結果。不再是"玩具級"了。

第二,范式足夠簡潔。Karpathy 的核心洞察是——你只需要一個指標 + 一個約束 + 一個循環。這個模式簡單到任何人都能理解、任何場景都能套用。

第三,Git 是天然的 Agent 記憶。每次實驗 commit,失敗就 revert,成功就推進。這比任何復雜的狀態管理系統都優雅。

說白了,這就是把 AI 從"一次性問答"變成"持續迭代"的范式轉變。以前你讓 AI 改代碼,改完就改完了。現在是讓它進入一個無限循環:改、測、評、保留或回滾、再來。跟人類科研的流程一模一樣——提出假設、做實驗、分析結果、決定下一步——只不過它不需要睡覺。

我覺得 AutoResearchClaw 是最值得關注的一個。

雖然全自主寫論文的質量還沒法跟頂級研究者比,但作為科研輔助工具——幫你快速做文獻調研、跑初步實驗、生成論文初稿——已經能省掉大量重復勞動了。

當然,這些項目也有很明顯的局限:

  • 只能優化能量化的東西。"讓代碼更優雅"這種目標它搞不定

  • API 成本不低。跑一夜的實驗,token 費用可能不便宜

  • 創造性有限。它擅長的是在已知空間內暴力搜索,真正顛覆性的創新還是得靠人類

但方向是對的。

當 Agent 能力繼續提升、成本繼續下降,"你定義方向,AI 做苦力"可能真的會成為科研和工程的常態。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

火山詩話
2026-04-26 06:11:32
5月1日起,有房有車有身份證的人,或要吃大虧了!

5月1日起,有房有車有身份證的人,或要吃大虧了!

小談食刻美食
2026-04-26 09:09:28
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

福建睿平
2026-04-26 10:53:36
小米:李某華已被行拘

小米:李某華已被行拘

南方都市報
2026-04-26 12:01:47
曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

橙星文娛
2026-04-26 14:26:26
華為余承東:尊界新車價格在200萬左右

華為余承東:尊界新車價格在200萬左右

界面新聞
2026-04-26 13:08:56
馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

思思夜話
2026-04-25 11:16:17
網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

極目新聞
2026-04-26 17:45:26
月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

火山詩話
2026-04-26 15:18:10
全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

墨印齋
2026-04-25 18:07:43
飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

奇思妙想草葉君
2026-04-25 15:02:47
斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

劉姚堯的文字城堡
2026-04-26 17:56:36
田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

離離言幾許
2026-04-25 20:49:13
手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

看看新聞Knews
2026-04-26 12:48:06
白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

爆角追蹤
2026-04-26 10:29:13
網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

魯中晨報
2026-04-26 15:40:06
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
結束了!再見愛德華茲!NBA最慘季后賽球隊

結束了!再見愛德華茲!NBA最慘季后賽球隊

籃球實戰寶典
2026-04-26 19:48:57
2026-04-26 20:00:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

旅游
本地
健康
手機
教育

旅游要聞

昨日1.78萬人次在廣富林文化遺址體驗壯鄉風情,“五一”期間還有精彩節目等你來

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

干細胞如何讓燒燙傷皮膚"再生"?

手機要聞

一加Ace 6至尊版規格全揭曉,堆料堆到友商沉默!

教育要聞

休學率上漲,驚到很多人!北大六院醫生直言:這背后其實是夫妻關系和家庭關系……

無障礙瀏覽 進入關懷版