文|李嘉星
編輯|周鑫雨
一句話介紹
context-mode 是一款專為 AI 編程打造的上下文優化 MCP(Anthropic 發布的模型上下文協議)插件。
它解決了開發者在長周期開發中遭遇的“模型失憶”與“Token 過多消耗”的核心痛點。
據團隊表示,在編程場景下,context-mode 能夠讓 AI 編程的成本降低 98%,同時將大模型的記憶力從30分鐘提升至 3 小時。
團隊背景
context-mode 的背后是一支背景多元的跨國初創團隊。目前團隊的核心成員分布在土耳其、法國等 4 個國家,主要通過 GitHub 異步協作。
Mert K?seo?lu(核心開發者、創始人):曾作為技術顧問為 OpenAI 等企業提供技術服務,擁有超 10 年全棧工程與系統架構經驗。創業前,他曾先后任職于 Countly、Planhat 及 Jotform 等全球知名數據與 SaaS 平臺,擔任高級軟件工程師。
孫逸誠(核心開發者、多平臺適配負責人):團隊里的中國面孔,目前大二在讀。他曾入圍強基計劃(數學與物理全省前 18 名),具有 Temporal-RAG(時序數據檢索增強)引擎的獨立開發經驗,并獲得知乎全球 A2A(Agent-to-Agent)黑客松銀獎。
產品及業務
![]()
圖源: context-mode
簡單來說,context-mode 是一款專門為 AI 編程助手“減負”和“整理記憶”的開源 MCP 插件。
該項目發布后曾登頂 GitHub Hacker News,目前已在 GitHub 獲得超 1.5 萬顆 Star。context-mode 現已吸引逾 24.3 萬名開發者接入,完成了對 15 個主流平臺的底層適配,并被微軟、谷歌、Meta、字節跳動及 Cursor 等科技公司的研發團隊采用。
context-mode 之所以能在極客圈獲得大量的關注,正是因為其精準切中了一個令人頭疼的行業焦慮:被昂貴API賬單和大模型失憶逼瘋的開發者
隨著“龍蝦(OpenClaw,一個開源 Agent 框架)”等全自動AI編程智能體的普及,Vibe Coding 的應用門檻進一步降低。
然而,享受到 AI 帶來的效率提升的同時,用戶很快意識到,智力是昂貴的:一方面,Claude、GPT等頂尖模型的 Token 定價并不便宜,包含充足 Token 額度的高級套餐,定價動輒高達 200 美元/月。
另一方面,受制于當下的能力,在執行具體任務過程中,模型的反復試錯、重復檢索都會造成額外的 Token 浪費。
在實際開發場景中,大模型往往表現得像一個“沒有常識的數據處理機器”。團隊成員孫逸誠分享了一個踩坑經歷:
參加 Kaggle 數據競賽時,他將一個包含 300 組數據的訓練任務交給了 Claude。為了確認任務進度,Claude 沒有選擇寫一段定時腳本,而是選擇每隔 5 秒鐘向整個項目發起一次全局檢索。這種極其低效的“死盯”策略,讓一個高配會員賬號的 API 額度在短短半小時內消耗了 90%。
與此同時,大模型還存在“失憶”的問題。開發者發現,當代碼量觸及某些主流 IDE(集成開發環境)的隱形上限(如 164K)時,系統會不得不丟棄或壓縮歷史信息,導致模型遺忘關鍵細節。這就導致:前一秒還在流暢寫代碼的 AI,下一秒就會把前置的關鍵架構和約束條件忘得一干二凈。
面對大模型嚴重的“幻覺”與“失憶”,context-mode 給出了解法:既然大模型處理海量原始數據又貴又笨,那就剝奪它直接閱讀原始數據的權利。
孫逸誠打了一個比方:“傳統的 AI 編程就像看一場馬拉松,大模型會死死盯著每一個選手的每一步,這當然會耗盡它的上下文。而 context-mode 做的,是把跑馬拉松的過程扔進一個屏蔽的沙盒(Sandbox)里,大模型只需要看最后的排名結果。”
具體到工作原理,首先,通過引入“虛擬沙盒”與精準檢索,context-mode 能夠有效降低 Token 的消耗。
在傳統的調用模式中,每一次 MCP 工具的調用都極其昂貴,龐大的原始數據會被直接傾倒進大模型的上下文窗口,導致 Token 消耗量上升。
context-mode 的“虛擬化沙盒”機制,就好比在大模型和操作系統間建立了一道“防火墻”。它會先把所有文件和運行記錄存放在本地,需要用到時再幫大模型把相關內容找出來。
![]()
《智能涌現》的測試結果。
根據《智能涌現》的測試,接入 context-mode 后,大模型讀取一份 79.3 KB 的文件時,Token 的消耗成本降低了 87.7%。
其次,為了解決大模型的“失憶”痛點,context-mode 通過構建“存檔點”,實時監控開發者的每一次文件編輯。
當對話太長,它會主動構建并向 AI 注入一個通常小于 2KB 的“快照”,相當于在代碼編輯過程中建立了一個“存檔點”。官方表示,這種機制能將大模型連續編程的有效時間從 30 分鐘提升至 3 小時。
最后,context-mode 引入了強制性“用代碼思考(Think in Code)”的范式,從而節省 Token 消耗。
所謂的 Think in Code,簡單而言,就是不讓模型逐行閱讀、處理文件,而是先讓模型編寫一個“小程序”,讓“小程序”先在本地完成數據分析,再將提煉后的結果反饋給模型。
context-mode 創始人 Mert 告訴《智能涌現》,開發者陷入了一個誤區:習慣將海量數據直接丟給大模型進行處理。實際上,面對 50 個文件的數據統計任務,與其讓模型親自逐個閱讀,不如先讓模型寫一段腳本,由腳本完成統計工作,再把結果返回給模型。
用 Mert 的話說,一個腳本可以替代十幾個昂貴的工具調用,并節省百倍的上下文。
根據《智能涌現》的測試,接入 context-mode 后,模型處理一份文件時,節省了 99.98% 的 Token 成本。
context-mode 的上手門檻,比 Cursor 等需要重新下載并適應環境的獨立開發軟件(IDE)更低。作為一個輕量級的 MCP(模型上下文協議)插件中間件,context-mode 可以直接接入開發者原有的工作流中。
context-mode 團隊還提供了一系列快捷指令,用來查看各大平臺的 Token 節省情況。用戶只需要在聊天框中輸入指令,瀏覽器就會彈出一個本地的數據統計面板,記錄著當周調用了多少次 API,以及 context-mode 攔截了多少次無效的數據讀取。
![]()
△快捷指令列表。 圖源: context-mode
近期,context-mode 針對企業研發場景,推出了“上下文即服務”。
在企業研發場景中,AI 的 ROI 往往難以衡量。
為此,context-mode 推出了企業服務“Insights”。獲得授權后,安裝在程序員電腦上的插件,可以直接將程序員使用 AI 的過程數據(比如調用了什么工具、報錯了幾次、消耗了多少錢),發送到Insights 所在服務器上。
與此同時,Insights 還能針對不同崗位,提供不同的數據報告。比如面向安全總監,系統會自動生成安全報告;面向財務團隊,系統可以提供 Tokens 消耗明細。
目前,Insights 仍處于定向內測階段。
Founder思考
- 停止將大模型視為“數據處理器”,它本質上是“代碼生成器”。
現在很多平臺和開發者陷入了一個誤區,喜歡把 50 個文件直接讀入上下文,讓大模型去里面“數”有多少個函數。
這不僅緩慢,而且極其浪費算力。我們的主張是“用代碼思考(Think in Code)”——LLM 應該去編寫一個統計腳本來完成計數,最后只輸出結果。
一個腳本可以替代十幾個昂貴的工具調用,并節省百倍的上下文。在未來的 AI 編程范式中,這是所有平臺都必須遵循的底層鐵律。
- 無限上下文是一個偽命題,克制才是 AI 工具最難建立的壁壘。
行業里都在卷大模型的長文本能力(比如 100K 甚至 1M 的上下文),但這其實是個陷阱。把幾十 KB 的報錯日志一股腦傾倒給 AI,只會加速它的“失憶”和幻覺。
真正的解法不是盲目擴容,而是建立起一套極度克制的“狀態記憶層(沙盒)”。誰能把傳給 AI 的無效噪音壓縮到極致,誰才能真正幫開發者把連續編程的時間從 30 分鐘延長到 3 個小時。
- 下一代 AI 編程的瓶頸不在于模型夠不夠聰明,而在于上下文管理框架夠不夠清晰。
現在大家都在抱怨 AI 會在同一個 Bug 上反復跌倒。這并不是因為模型變笨了,而是它在冗長的對話中迷失了。
只有給 AI 提供像單機游戲一樣的存檔點,強制它按優先級讀取記憶,才能為它真正有價值的邏輯推理留出足夠的空間。
- 大廠在卷“全家桶”,而我們在做跨平臺的“萬能插座”。
我們花大量精力去適配 Cursor、Claude、Gemini 等不同的底層邏輯,是因為真實的開發者生態永遠是碎片化且快速迭代的。
開發者不需要另一個被大廠深度綁定的全能 Agent,他們需要的是一個輕量、不吃內存、即插即用且能極大降低 API 賬單的中間件。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.