網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

匿名模型“大象”攪局OpenRouter：100B參數(shù)沖到熱榜第一，實(shí)測(cè)結(jié)果如何

2026-04-16 19:20:03　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯漠影

智東西4月16日?qǐng)?bào)道，這兩天，一款名為Elephant（大象）的匿名模型，在OpenRouter上悄然亮相。上線(xiàn)不到48小時(shí)，這一模型已經(jīng)沖到OpenRouter熱榜（Trending）第一，目前調(diào)用量超過(guò)1850億個(gè)token。

在調(diào)用量日榜上，Elephant排名全球第八。

根據(jù)OpenRouter對(duì)其介紹，Elephant是一個(gè)100B參數(shù)量的純文本模型，主打高token效率，支持256k上下文和32k輸出，適合的任務(wù)包括代碼補(bǔ)全、調(diào)試、快速文檔處理和輕量級(jí)Agent交互等等。

目前，Elephant在網(wǎng)友反復(fù)的“拷打”下，暫時(shí)還沒(méi)供出自己是哪家的模型。有網(wǎng)友猜測(cè)這可能是國(guó)產(chǎn)最新模型的Flash版本，或海外全新實(shí)驗(yàn)室搗鼓出來(lái)的新品。

有不少開(kāi)發(fā)者已經(jīng)曬出他們對(duì)Elephant的使用體驗(yàn)，Hermes Agent的作者拿它跑了個(gè)基準(zhǔn)測(cè)試，發(fā)現(xiàn)這一模型在大部分工具調(diào)用任務(wù)中表現(xiàn)還行，不過(guò)偶爾會(huì)出現(xiàn)幻覺(jué)和對(duì)環(huán)境的錯(cuò)誤理解，這對(duì)一個(gè)100B的模型來(lái)說(shuō)其實(shí)也正常。

輸出速度是這一模型的一大亮點(diǎn)，其在OpenRouter上的平均速度就達(dá)到了67 token/s，首token延遲為0.89秒，在即時(shí)交互場(chǎng)景展現(xiàn)出了潛力。有網(wǎng)友感嘆，雖然質(zhì)量還不確定，但這是他用過(guò)最快的模型，讓他想起了Grok Fast 1的體驗(yàn)。

不過(guò)，光看別人的評(píng)價(jià)終究隔了一層。接下來(lái)，我們將親自上手，從編程、文檔處理到Agent交互，逐個(gè)任務(wù)實(shí)測(cè)一遍。

一、編程、長(zhǎng)文本、Agent實(shí)測(cè)：前端編程響應(yīng)快，支持多輪工具調(diào)用

在OpenRouter上，Elephant的編程能力排名在同尺寸模型中靠前，于是我們先嘗試了幾個(gè)編程的小項(xiàng)目，看看它能否快速完成。

首先是一個(gè)網(wǎng)站，這主要考察模型的前端能力。拿到開(kāi)發(fā)任務(wù)后，Elephant對(duì)網(wǎng)站的幾個(gè)核心組件進(jìn)行了規(guī)劃，并主動(dòng)為這一網(wǎng)站加入了明暗模式切換、移動(dòng)端響應(yīng)式設(shè)計(jì)等我們并未要求的功能，最終耗時(shí)1分鐘左右完成開(kāi)發(fā)。

當(dāng)我們要求它將網(wǎng)站的主色調(diào)改成綠色后，Elephant用不到10秒鐘就完成了修改。相信使用過(guò)其他模型的用戶(hù)都知道，大部分模型在處理修改任務(wù)時(shí)往往需要通讀上下文，逐一修改，一些細(xì)枝末節(jié)的修改可能要花上幾分鐘。

而Elephant基本做到了指哪兒打哪兒，這對(duì)于一些快速、高頻的網(wǎng)站調(diào)試需求是很實(shí)用的。

我們也試了試Elephant有沒(méi)有打造項(xiàng)目級(jí)任務(wù)的能力，讓它根據(jù)自己的內(nèi)部知識(shí)，復(fù)刻一個(gè)支付軟件。我們是在Kilo Code插件中體驗(yàn)的模型編程，由Elephant驅(qū)動(dòng)的多個(gè)子Agent并行工作，進(jìn)一步放大了它的輸出速度優(yōu)勢(shì)，但是其最終打造的結(jié)果僅能算是一個(gè)原型。這種表現(xiàn)可能與其較小的參數(shù)量有關(guān)。

再來(lái)看看Elephant在長(zhǎng)文本場(chǎng)景的表現(xiàn)。我們向模型發(fā)送了一份幾百頁(yè)的招股書(shū)，并給出十分詳細(xì)的IPO解讀要求，讓Elephant輸出對(duì)這家公司基本面的總結(jié)。這種復(fù)雜的提示詞，對(duì)模型的指令遵循能力是一種挑戰(zhàn)。

在執(zhí)行過(guò)程中，Elephant可以快速調(diào)用多個(gè)文件讀取工具，以極快的速度輸出解讀。它用12萬(wàn)token完成了對(duì)這份復(fù)雜文件的梳理，耗時(shí)卻僅有幾十秒。

細(xì)讀它的解讀可以發(fā)現(xiàn)，模型完全按照我們的要求梳理出了核心信息，沒(méi)有遺漏，數(shù)據(jù)、結(jié)論都基本準(zhǔn)確。

我們還嘗試了讓Elephant完成Agent類(lèi)型的任務(wù)：將其接入一個(gè)OpenClaw類(lèi)的產(chǎn)品，并要求它規(guī)劃一次去泰國(guó)的7日游，搜索景點(diǎn)注意事項(xiàng)、定位等關(guān)鍵信息，最終打造一個(gè)攻略網(wǎng)站。

Elephant可以充分利用Agent框架為其提供的工具，調(diào)用搜索等工具，獲取和泰國(guó)旅行相關(guān)的信息。

最終，Elephant在這種開(kāi)放式Agent任務(wù)上做得不錯(cuò)，旅程規(guī)劃合理，覆蓋了重要的景點(diǎn)。它還在高德上為我們查找了對(duì)應(yīng)地點(diǎn)的定位，點(diǎn)擊后即可跳轉(zhuǎn)到相應(yīng)界面。

幾個(gè)任務(wù)跑下來(lái)，我們發(fā)現(xiàn)Elephant在執(zhí)行任務(wù)中展現(xiàn)了優(yōu)秀的速度與指令響應(yīng)能力，前端原型開(kāi)發(fā)和長(zhǎng)文件處理效率不錯(cuò)，但在打造完整項(xiàng)目級(jí)應(yīng)用時(shí)仍然有些力不從心。其Agent規(guī)劃與工具調(diào)用能力可圈可點(diǎn)，能自主完成旅行攻略到網(wǎng)站落地。總體而言，這是一款在輕量級(jí)、高頻任務(wù)中具有優(yōu)勢(shì)的高效模型。

二、第三方評(píng)估：指令遵循滿(mǎn)分，token效率比肩GPT-5.4 Mini

Elephant在更全面的第三方基準(zhǔn)測(cè)試上的表現(xiàn)如何？AI Benchy上對(duì)這一模型的評(píng)估值得參考。

AI Benchy是一個(gè)“擠水分”的民間AI測(cè)謊儀。如果你是一名開(kāi)發(fā)者，或者你需要用 AI 來(lái)做自動(dòng)化工作流，相比于各家大廠(chǎng)的官方跑分，AI Benchy提供的“指令遵循度”和“真實(shí)性?xún)r(jià)比”數(shù)據(jù)往往具有更高的參考價(jià)值。

從絕對(duì)實(shí)力來(lái)看，Elephant在AI Benchy上并未進(jìn)入第一梯隊(duì)，但這可能本來(lái)就不是它的目標(biāo)。在同參數(shù)量級(jí)的模型中，Elephant真正主打的是高效率與高性?xún)r(jià)比。

在token消耗維度，同樣的邏輯推理或代碼審計(jì)任務(wù)交給Elephant，其token用量要遠(yuǎn)少于其他廠(chǎng)商的模型，基本和GPT-5.4 Mini處在同一水平線(xiàn)上。這種高token效率，尤其適合大規(guī)模的to-C場(chǎng)景或是重復(fù)性的日常任務(wù)。

這種高效率在Agent場(chǎng)景尤為重要。因?yàn)锳gent工作流本質(zhì)上是多輪串行或并行的循環(huán)過(guò)程，模型需要反復(fù)規(guī)劃、調(diào)用工具、觀(guān)察結(jié)果、再規(guī)劃，每一輪都會(huì)消耗token并引入延遲。高token效率意味著模型在有限的上下文窗口和預(yù)算內(nèi)可以執(zhí)行更多輪操作，能用更少的計(jì)算資源跑完更長(zhǎng)的Agent鏈路。

而在響應(yīng)時(shí)間方面，Elephant能做到基本在1秒左右給出回答，提供幾乎無(wú)延遲感的交互體驗(yàn)，這一定程度上緩解了用戶(hù)在等待生成結(jié)果時(shí)的焦躁感，提升用戶(hù)體驗(yàn)。

這種低時(shí)延效果是不少?gòu)S商追逐的重點(diǎn)。前段時(shí)間，谷歌CEO Sundar Pichai就分享了一個(gè)觀(guān)點(diǎn)：“延遲是優(yōu)秀產(chǎn)品的核心特征之一，低延遲往往意味著產(chǎn)品的底層技術(shù)架構(gòu)足夠優(yōu)秀，…，這也是我們打造Gemini的核心思路，即在前沿性能與速度之間找到平衡。”

換句話(huà)說(shuō)，低延遲不只是“快”這么簡(jiǎn)單，它背后往往代表著一套更扎實(shí)、更成熟的技術(shù)體系和更好的用戶(hù)體驗(yàn)，最終會(huì)轉(zhuǎn)化為真實(shí)的商業(yè)價(jià)值。

最后，在指令遵循方面，Elephant拿到了一致性的滿(mǎn)分成績(jī)和100%的通過(guò)率，也就是說(shuō)這個(gè)模型比較“聽(tīng)話(huà)”。這能夠降低任務(wù)執(zhí)行過(guò)程中與模型反復(fù)交互、理清需求帶來(lái)的時(shí)間和算力浪費(fèi)。

結(jié)語(yǔ)：不拿大炮打蚊子，輕量模型也有價(jià)值

其實(shí)，在最初測(cè)試Elephant模型時(shí)，我們并未被它的基礎(chǔ)能力驚艷，甚至一度有所懷疑。但隨著深入真實(shí)任務(wù)場(chǎng)景，它的實(shí)用價(jià)值才真正顯現(xiàn)出來(lái)。

當(dāng)前，前沿模型的規(guī)模正不斷擴(kuò)大，生成的答案也越來(lái)越長(zhǎng)。然而在真實(shí)的業(yè)務(wù)流水線(xiàn)中，用萬(wàn)億參數(shù)模型去處理基礎(chǔ)文本分類(lèi)或信息抽取，無(wú)異于“大炮打蚊子”：既浪費(fèi)算力，又導(dǎo)致token無(wú)意義消耗和時(shí)延飆升。

正因如此，剝離對(duì)龐大體量的迷信，根據(jù)任務(wù)復(fù)雜度精準(zhǔn)匹配模型尺寸，讓每一個(gè)token都用在刀刃上，已經(jīng)成為大模型規(guī)模化落地過(guò)程中，開(kāi)發(fā)者和企業(yè)的共識(shí)。

在能反映真實(shí)調(diào)用量的OpenRouter平臺(tái)上，曾由超大規(guī)模模型壟斷的榜單，正被一批講究“token效率”的精銳小模型打破。這并非是對(duì)旗艦?zāi)Ｐ湍芰Φ姆穸ǎ枪こ汤硇曰貧w的信號(hào)。相較于那些參數(shù)量最大、最“智能”的模型，那些能以最低成本、最快響應(yīng)速度完成任務(wù)的模型，正展現(xiàn)出成為Agent操作系統(tǒng)的成長(zhǎng)潛力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.