无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

熱門Harness項目OpenSquilla:拯救燒token燒到絕望的Agent們,估值1億

0
分享至


作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com

對 AI 創(chuàng)業(yè)公司而言,token 毛利賬單已經變成生死線。

這筆賬算的是:一家公司調用模型花掉的 token 成本,最終能從用戶身上賺回多少收入。

比如,一個 Agent 產品為了完成一次任務,模型調用成本是 1 元。如果它最終只能從用戶那里賺回 1.15 元,token 毛利就是 15%。據(jù)硅星人了解,對 AI 應用公司來說,token 毛利基本要做到 30% 以上,商業(yè)模式才有可能進入可循環(huán)狀態(tài)。

過去一年,模型廠商不斷降價,把 token 單價往下打。但對 Agent 公司來說,單價只是成本的一部分。它們真正要自己控制的,是一次任務到底要燒掉多少 token。

這也是 Harness 開始變得重要的原因之一。

Agent 比聊天機器人更費 token。它要規(guī)劃任務、調用工具、檢索網(wǎng)頁、讀取文件、管理記憶、選擇 Skill,最后再把結果整理出來。同樣一個用戶請求,背后可能跑十幾步,每一步都在消耗 token。

OpenSquilla 想做的,就是把這套運行過程里的 token 浪費率降下來。

OpenSquilla 是一個開源 Agent Harness 框架(https://github.com/opensquilla/opensquilla)。它在 Agent 應用和模型之間加了一層運行中樞。簡單來說,這里有至少四個重要的環(huán)節(jié):第一層,決定調哪個模型,第二層,決定喂進去多少上下文,第三層決定多個 Skill 怎么編排,第四層貫穿所有,不停讓前三層越用越準,形成某種自我進化的機制,讓這些能力最終內化進Harness里。


這層 Harness 負責的事情很直接:讓 Agent 少花不該花的 token,同時讓它越用越懂用戶,最終可以拯救那些燒token停不下來,越燒越虧,甚至就要燒到破產的Agent產品們。

硅星人了解到,OpenSquilla 由上海基元律動科技有限公司開發(fā)。根據(jù)多個公開報道,創(chuàng)始人王云鶴曾任華為大模型負責人,長期研究模型壓縮和高效計算;CTO 韓凱是原同廠實驗室首席研究員。最新消息顯示,基元律動成立僅幾個月后,已完成首輪融資,估值高達1億美元。

自Anthropic等頭部公司提出并帶火Harness概念后,真正將自己定義為Harness公司的創(chuàng)業(yè)公司事實上并沒有出現(xiàn)大批量高估值融資潮,這樣看來,基元律動的融資是一個代表性的案例。

OpenSquilla的信息顯示,它最近在Github上的受歡迎程度很高,同時又完成高估值的融資。對于這樣的熱門新項目,我們很好奇Harness 層究竟能把 Agent 的成本和能力進化做到什么程度?

近期,我們也去和OpenSquilla的韓凱聊了聊,嘗試弄清楚他們的產品究竟如何設計,為何可以幫助Agent產品們實現(xiàn)對token賬單更好的控制。以下是關于這個產品和項目的完整拆解。

1

第一層:智能路由就是token管家

過去做 Agent,很多團隊默認會先選一個主力模型。

最簡單的做法,是綁定一個旗艦模型。效果穩(wěn)定,開發(fā)也省事。問題是,一旦 Agent 開始進入真實任務,這個方案很快會變貴。

因為 Agent 的一次任務里,并不是每一步都需要最強模型。

復雜推理、代碼生成、長文分析,確實需要強模型。但分類、摘要、格式整理、工具結果清洗、上下文壓縮,這些動作不一定需要。很多 Agent 賬單高,不是因為任務本身都很難,而是每一步都用了同一檔模型。

這也是現(xiàn)在 Agent 創(chuàng)業(yè)公司最尷尬的地方:用戶不懂模型,也不該懂模型。讓用戶在一排模型里自己挑,本質上是產品把自己的工作甩了出去。

我們問韓凱,OpenSquilla 為什么把模型路由放在第一層。

他的回答是,模型正在變成一組能力和價格都不同的 SKU。不同模型的強項、價格、延遲、上下文長度都不一樣。Agent 如果長期只綁定一個模型,就很難同時做到效果和成本可控。

OpenSquilla 的做法,是在任務進入大模型之前,先用本地路由模型判斷任務復雜度。它會根據(jù)語義、關鍵詞、語言、上下文長度、對話輪次等特征,把任務分成不同等級,再匹配不同模型。

這件事的核心,不止是“省一點錢”。

它把 token 成本從事后結算,變成了調用前決策。過去 Agent 公司月底才知道自己燒了多少錢;OpenSquilla 想讓每一次調用發(fā)生之前,系統(tǒng)先判斷這一步該花多少錢。

據(jù)團隊提供的數(shù)據(jù),OpenSquilla 的智能路由和 OpenRouter 相比,路由精度高 4.4 個百分點,成本低 75%;和 Anthropic Opus 4.7 跑同類任務相比,精度基本持平,成本相差約 9 倍。

同樣是智能路由,OpenSquilla和 OpenRouter 的區(qū)別在于,它們解決的不是同一層問題。

OpenRouter 是云端 API 網(wǎng)關。用戶把 prompt 發(fā)過去,它再從幾十個模型里挑一個轉發(fā)。它的底層也有判斷,但更偏向在已知模型集合里按成本/速度做選擇,或者在同一模型的不同提供商之間調度,默認邏輯是通用的:它服務的是所有開發(fā)者,不會隨著某一個 Agent 的真實使用反饋自動變聰明。

而OpenSquilla 的路由長在 Harness 里,本質上是一個本地集成樹模型,它看的是這個 Agent 長期怎么干活:哪些任務成功了,哪些失敗了,哪些地方燒 token,哪些模型性價比更高,這些信號會回流到路由里,繼續(xù)訓練它。

韓凱的判斷是,Agent 公司不能只等模型廠商降價。模型廠商決定 token 單價,Agent 公司自己決定每個任務怎么花 token。

這就是 Harness 的第一層價值:把模型調用管起來。

1

第二層,上下文管理:Agent 燒掉的,很多是不該讀的

模型選錯,是一類浪費。上下文塞太多,是另一類浪費。

很多 Agent 系統(tǒng)為了省事,會把 Skill 描述、工具說明、歷史記憶、網(wǎng)頁內容、中間步驟,一起塞進 prompt。這樣做開發(fā)最快,成本最高。

模型每調用一次,都要重新讀一遍這些東西。哪怕當前任務只用得上其中一小段,剩下的 token 也照樣計費。

這在聊天機器人里還沒那么明顯。聊天機器人通常是一問一答,上下文相對短。Agent 不一樣。它會連續(xù)規(guī)劃、調用工具、檢索網(wǎng)頁、讀文件、生成中間結果,再把這些結果帶到下一步。上下文會越滾越大。

我們問韓凱,OpenSquilla 具體怎么減少這部分浪費。

他的回答是,Harness 要先判斷“當前任務到底需要什么”,而不是默認把所有東西交給模型。

所以 OpenSquilla 會按需加載 Skill。一次任務只注入可能用到的 Skill,不把幾十個 Skill 的說明全部塞進去。記憶也是一樣,不是把歷史對話整段搬進 prompt,而是從本地數(shù)據(jù)庫里檢索相關片段。

工具結果也會先處理。網(wǎng)頁檢索返回的 HTML 里,有標簽、樣式、導航欄、廣告和重復內容。OpenSquilla 會先裁掉這些內容,再交給模型。

這件事聽起來像工程細節(jié),但對 Agent 公司就是賬單問題。

用戶不知道 prompt 里塞了什么,也不知道一次工具調用返回了多少無關文本。他只會看到產品好不好用,價格貴不貴。中間這些浪費,最后都會落到 Agent 公司的毛利里。

據(jù)團隊提供的數(shù)據(jù),OpenSquilla的上下文管理可以額外帶來約 20% 到 50% 的成本降低。

韓凱的意思很直接:模型看到的每一個 token,都應該和當前任務有關。用不到的 Skill,不加載。無關的記憶,不召回。重復的網(wǎng)頁內容,不進入上下文。

1

第三層,MetaSkill:Skill 變多以后,用戶反而更累了

上下文裁剪解決的是別讓模型讀太多無關信息。但 Agent 跑復雜任務時,還有另一層問題:Skill 如何被正確選擇、組合和調用。

Agent 圈過去一年很流行 Skill。

一個 Skill 可以理解成一套可復用能力:怎么搜資料、怎么寫稿、怎么處理表格、怎么調用某個工具。理論上,Skill 越多,Agent 越強。

但真實使用里會出現(xiàn)另一個問題:Skill 多到一定程度,用戶開始不知道該怎么用。

一個復雜任務,可能需要多個 Skill 配合。比如寫一篇文章,要先查資料,再核事實,再學習風格,再寫初稿,再審校。每一步都有 Skill,但誰來決定先后順序?誰來決定哪個 Skill 該用、哪個不該用?

很多時候,用戶只能自己當項目經理。

這也是韓凱談到 OpenSquilla 的 MetaSkill 時最強調的一點:Skill 不應該只是一堆模板。真正難的,是讓 Agent 自己把 Skill 組織起來。

在 OpenSquilla里,一旦觸發(fā)MetaSkill,用戶說一個目標,AI就會拆步驟、選 Skill組合、安排依賴關系,確定是分步處理,還是并行處理。一個目標,多個步驟,多個Skill,每個步驟和skill的組合,獨享一段上下文。

這里的行業(yè)問題是,Agent 的能力正在從“單個模型聰不聰明”,轉向“多個能力能不能被組織起來”。

模型、工具、記憶、Skill 都在增加。用戶不可能理解每一個組件,更不可能每次都手動編排。Agent 產品如果還讓用戶自己選模型、選 Skill、排流程,就會卡在專業(yè)用戶手里,很難變成普通人能用的產品。

MetaSkill 想把這層復雜度藏起來,讓用戶只需要講目標。Harness 負責判斷路徑。

韓凱的判斷是,Skill 未來不會只是用戶手寫的一份提示詞,而會變成可檢索、可組合、可復盤、可更新的系統(tǒng)能力。

這也是 OpenSquilla 所謂“可進化”的地方。


1

第四層,可進化:把 Context 訓進 Harness

如果用一句話概括OpenSquilla 的可進化,那就是:讓 Harness 學會用戶的上下文。

很多用戶用 Agent 都有一個共同體驗:第一次讓它做任務,往往要改好幾輪。結構不對,語氣不對,格式不對,重點不對。用戶不斷補充:“不要這樣”“按這個格式”“這里保留”“下次記住”。

問題在于,Agent往往是,知道錯了,下次還敢。這意味著用戶每次都在重新指導它,經驗沒有沉淀下來。

MetaSkill則是想要把這些過程留下來。當一個任務來回改了三次,最后用戶滿意了,OpenSquilla 會回看這段過程:用戶補了哪些條件,糾正了哪些偏差,最終認可了什么結果。然后把這些信息沉淀進 Skill 或工作流里。

下次遇到類似任務,Agent 不必從零開始。

智能路由也是同一套邏輯。前面講到,它不是一張靜態(tài)規(guī)則表,而是一個可以根據(jù)任務反饋繼續(xù)更新的參數(shù)化模型。MetaSkill 學用戶怎么做事,路由學任務怎么花錢。

這也是 OpenSquilla 對 Harness 的判斷。因為用戶輸入進來,Harness 先接住,做完編排、組織、調度,再交給模型。模型輸出之后,也需要 Harness 做后處理、分發(fā)和執(zhí)行,所以,Harness 是離 Context 最近的地方,也最應該學習 Context。

這件事對 Agent 公司也很重要。用戶少糾正一次,系統(tǒng)就少跑一輪。少跑一輪,就是少燒一輪 token。用戶覺得它越來越懂自己,也更愿意繼續(xù)用下去。

所以OpenSquilla 的自進化,最后還是回到賬單和留存。

過去很多人把 Harness 理解成模型外面那層工程殼:接工具、管會話、做安全、調 API。OpenSquilla 的判斷更激進一點。

它押注的是:Agent 真正進入商業(yè)化后,中間這層 Harness 會變成最關鍵的位置。

模型提供能力,應用定義場景。Harness 決定這套能力能發(fā)揮的上限,和成本能壓到的下限。

而這會形成新的商業(yè)動態(tài)平衡。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
攻破德國隊球門,科梅嫩西亞打進庫拉索隊史世界杯首球

攻破德國隊球門,科梅嫩西亞打進庫拉索隊史世界杯首球

懂球帝
2026-06-15 01:35:11
后續(xù)!因女方懷孕彩禮降到3.8萬,龍鳳胎落地,男方家腸子悔青

后續(xù)!因女方懷孕彩禮降到3.8萬,龍鳳胎落地,男方家腸子悔青

魔都姐姐雜談
2026-06-14 07:57:18
被美國逼成“通勤隊”的伊朗,踢出了這屆“世界杯”最硬的骨氣

被美國逼成“通勤隊”的伊朗,踢出了這屆“世界杯”最硬的骨氣

小許論事
2026-06-14 09:59:48
炸裂!比爾·蓋茨自爆出軌20多次,一度被愛潑斯坦勒索

炸裂!比爾·蓋茨自爆出軌20多次,一度被愛潑斯坦勒索

新民周刊
2026-06-14 13:05:15
Lisa闖進世界杯歌詞引發(fā)低俗爭議!終因露屁股蛋子被LV家族拋棄

Lisa闖進世界杯歌詞引發(fā)低俗爭議!終因露屁股蛋子被LV家族拋棄

阿訊說天下
2026-06-14 17:01:39
鄢姣,金融監(jiān)管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

鄢姣,金融監(jiān)管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

李昕言溫度空間
2026-06-14 08:27:32
一場1-1絕平,誕生世界杯最大冷門!新死亡之組:4隊同分,全亂了

一場1-1絕平,誕生世界杯最大冷門!新死亡之組:4隊同分,全亂了

侃球熊弟
2026-06-14 06:08:16
軍艦被烏軍擊毀后,普京耿耿于懷,他終于意識到:光靠導彈打不贏

軍艦被烏軍擊毀后,普京耿耿于懷,他終于意識到:光靠導彈打不贏

探史
2026-06-14 06:29:46
可憐的法國,邀請不到中國,連沙特都不給面子了

可憐的法國,邀請不到中國,連沙特都不給面子了

虛聲
2026-06-14 20:13:51
18歲亞馬爾與女友酒店同居 球迷擔心其世界杯狀態(tài)

18歲亞馬爾與女友酒店同居 球迷擔心其世界杯狀態(tài)

TVB的四小花
2026-06-14 17:57:19
2-1絕殺、1-1絕平!亞洲2隊閃耀世界杯,日本隊VS荷蘭隊壓力大了

2-1絕殺、1-1絕平!亞洲2隊閃耀世界杯,日本隊VS荷蘭隊壓力大了

何老師呀
2026-06-14 08:59:58
張雪機車輸了:德比斯第一位發(fā)車,連續(xù)失誤,無緣羅馬涅站雙冠

張雪機車輸了:德比斯第一位發(fā)車,連續(xù)失誤,無緣羅馬涅站雙冠

側身凌空斬
2026-06-14 21:47:38
看完德國7-1庫拉索,球迷認清3個事實,世界杯擴軍后影響比賽質量

看完德國7-1庫拉索,球迷認清3個事實,世界杯擴軍后影響比賽質量

侃球熊弟
2026-06-15 02:59:42
正式官宣!確認是張藝謀

正式官宣!確認是張藝謀

吉刻新聞
2026-06-14 18:04:54
“啥需求都滿足!”找耿同學“私了”的上海大學院長被免職

“啥需求都滿足!”找耿同學“私了”的上海大學院長被免職

大江看潮
2026-06-14 09:12:50
2比1!2比0!亞洲球隊高奏凱歌,日本迎戰(zhàn)荷蘭,森保一有秘密武器

2比1!2比0!亞洲球隊高奏凱歌,日本迎戰(zhàn)荷蘭,森保一有秘密武器

王大發(fā)不懂球
2026-06-14 21:12:03
中國儲能爆發(fā)式增長:2030年前電能有望完全依靠可再生能源

中國儲能爆發(fā)式增長:2030年前電能有望完全依靠可再生能源

知識圈
2026-06-14 15:16:46
群眾搬走店鋪400余把椅子凳子?四川遂寧警方通報

群眾搬走店鋪400余把椅子凳子?四川遂寧警方通報

新京報
2026-06-14 20:26:11
黃仁勛回憶:當年沒錢讀碩士,是AMD資助的!付我薪水,還給我付錢上斯坦福!

黃仁勛回憶:當年沒錢讀碩士,是AMD資助的!付我薪水,還給我付錢上斯坦福!

大白聊IT
2026-06-11 22:20:56
95年因大雪封山,我和通訊女兵困在木屋,晚上她突然說:能抱你么

95年因大雪封山,我和通訊女兵困在木屋,晚上她突然說:能抱你么

千秋文化
2026-06-14 19:10:54
2026-06-15 05:40:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
3159文章數(shù) 10506關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

巴基斯坦總理:美伊已達成和平協(xié)議

頭條要聞

巴基斯坦總理:美伊已達成和平協(xié)議

體育要聞

8年8隊奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

狂歡置換價7.99萬 第三代豪越L歡樂PLUS大7座版上市

態(tài)度原創(chuàng)

藝術
手機
親子
公開課
軍事航空

藝術要聞

218米!建行最大的獨棟辦公樓,和農行長得一模一樣!

手機要聞

iOS 27靈動島Siri AI或許暗示了iPhone 18 Pro的設計變化

親子要聞

寶藍和爸爸用吃完的西瓜,做了一個水晶泥玩具~

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協(xié)議周日簽 還有終極手段

無障礙瀏覽 進入關懷版