无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

對話清程極智核心團隊:不是所有Token都是好Token

0
分享至



智東西

作者 | 陳駿達

編輯 | 李水青

智東西5月26日報道,今天,北京AI Infra創企清程極智舉辦了一場小范圍媒體溝通會,系統性地梳理了其成立以來的技術脈絡與產品版圖。

清程極智成立于2023年底,核心團隊來自清華大學計算機系高性能所,在高性能計算等領域有豐富經驗。截至2026年3月,清程已完成3輪融資,投資方包括北京市人工智能產業基金、聯想、中科創星等知名產業基金。

目前,清程極智已經推出了智能計算軟件棧八卦爐(Bagualu)、大模型推理引擎赤兔(Chitu)、大模型服務評測與API調用平臺AI Ping等多款產品,覆蓋AI訓練、推理與應用服務的完整體系。

清程極智重點展示了AI Ping在Token服務環節的能力,包括通過7×24小時持續評測、異地分布式測試以及智能路由,對不同Token服務商的延遲、吞吐和穩定性進行動態觀測與調度。

在推理層面,清程極智分享了赤兔推理引擎的技術路徑,包括底層自研架構、國產芯片適配,到支持FP8/FP4等量化技術的實現思路,以及其在昇騰、沐曦、海光、摩爾線程等國產算力生態中的實踐進展。

清程極智核心團隊還向智東西等媒體分享了不少行業一線觀察,話題涵蓋Token服務成本、國產算力適配和模型技術路線等。

清程極智首席科學家翟季冬提出了Token有好壞之分的觀點,即便是同一個模型、同樣數量的Token,不同服務商在首Token延遲、吞吐量、支持的上下文長度這些指標上,表現可能相差四五倍。

清程極智聯合創始人、產品副總裁師天麾則進一步揭示了Token服務中的亂象,比如有些廠商Token單價看似不高,但緩存命中率低,反而拉高總體使用成本。

一、Token經濟爆火,如何少花“冤枉錢”

2026年,Token經濟成為新的熱詞。清程極智首席科學家翟季冬拋出了一組數據:從全球范圍看,Token每日調用量從2024年初的約0.5萬億,攀升至今年3月的300至600萬億,增長近300倍;而中國的增速更為驚人,同期從0.1萬億增長至140萬億,增幅高達1400倍。



是什么在驅動這種增長?翟季冬說道:“現在Top 10的AI應用中,Agent能占到80%以上。Agent和單輪對話不一樣,它需要多步執行,每一步都可能調用大模型,Token消耗量是普通對話的好幾倍。另外像AI編程這類工具,Token調用量也非常大,未來可能真的會取代相當一部分普通程序員的日常工作。”

中國具備獨特的Token經濟發展土壤。翟季冬稱,在供給側,政府在大力建智算中心、數算中心、超算中心,算力基礎設施在持續增長。

模型層面,DeepSeek、GLM、Kimi等優秀模型在不斷開源,云廠商部署很方便,連電信、移動這樣的運營商都在朝著Token服務方向走。

需求側,中國的企業級用戶、開發者、科研人員、普通消費者,都對Token有著真實的需求。



然而,市場爆發并不等于用戶獲得了良好體驗。如今,業界常常將Token比喻為“水電煤”,但翟季冬認為,Token與電力還有些細微的區別:當我們使用電力的時候,并不關心是風電、水電、火電,但Token本身,是有好有壞的。



國內目前已經涌現出數十家Token供應商,但服務質量參差不齊,流通環節問題凸顯。用戶面對眾多模型和供應商,往往難以判斷Token的好壞與差異,選擇變得異常困難。

清程極智團隊在日常業務中,接觸了大量“花冤枉錢”的案例。清程極智聯合創始人、產品副總裁師天麾說道:“買Token里頭有很多的坑?!?/p>

第一個坑是不同服務商模型效果不一致。以DeepSeek模型為例,即便是同一個版本、同樣的機器、同樣的價格,不同服務商提供的模型效果也是不一樣的。

第二個坑是不同服務商Token服務的實際成本不一致。有些情況下,就算標價相同、生成Token數相同,但不同服務商最終成本可能差好幾倍。

這與緩存命中率有關。有的服務商緩存機制做得好,實際重復的請求不用重新計算,成本就低;有的服務商技術不行,每次都要重新跑,用戶花同樣的錢,買到的有效計算可能少很多。

第三個坑是服務質量。迅速興起的Token廠商服務質量參差不齊,有的順暢,有的卡頓,甚至會出現服務變笨的情況。清程極智觀察到,目前“慢響應”的問題愈發突出,拿到請求后Token服務廠商原本應該3-5秒返回結果,但實際情況是,30秒、50秒甚至300秒都可能出現。

從用戶實際體驗的角度來說,這種相應速度已經基本不可用,然而在廠商的服務質量保證中,只要返回了結果就算可用。

翟季冬說道:“不同服務商在首Token延遲、吞吐量、支持的上下文長度這些指標上,表現可能相差四五倍。”

二、給大模型API做個“大眾點評”,7×24小時持續評測、智能調度模型

今年一月,清程極智推出了AI Ping,就是為了解決上述問題。開發者將AI Ping形象地稱為“大模型API服務的大眾點評”。

AI Ping面向開發者的兩大核心需求提供支持:一是通過7×24小時的持續評測,呈現全面、客觀、真實的大模型服務性能指標,提供客觀、可驗證的性能榜單;二是借助統一API接口、智能路由調度等功能,幫助需通過云端調用大模型的開發者縮短決策周期、提升開發效率、降低接入成本。

師天麾詳細介紹了AI Ping背后的關鍵技術。

在測評方面,AI Ping主打的是從真實用戶的視角出發,做端到端的匿名評測。為確保公平性,他們會使用同樣的模型、同樣的輸入、在同一個時間段進行測試,并通過動態輸入機制改變評測內容,避免服務商針對評測進行“作弊”。

同時,這一評測不是一次性的,而是24小時不間斷的進行,還會同時在北京、深圳、上海、成都等地進行分布式的異地評測。

師天麾稱,他們將部分評測結果與國內云廠商的性能監測進行過交叉驗證,誤差基本控制在1%以內。AI Ping目前可以將Token服務的成本降低超37%,吞吐提升超90%,延遲降低超20%,可用率達到99.99%以上,對標服務質量最高的云大廠。



這些評測成為AI Ping提供智能路由服務的基礎。清程極智觀察到,同一家服務商的延遲、吞吐在一天內大幅度波動是十分正常的現象,對于用戶而言,如果選擇單一的服務商,資深的服務穩定性就會受到影響。

AI Ping的智能路由就像是一套導航系統,針對模型調用過程中的卡頓、成本失控等問題,智能調用最優鏈路,實時規劃高效調用路徑。

同時,有些模型適合處理快速問答、有些模型適合復雜推理,AI Ping智能路由還可以實現不同模型的搭配。

用戶還可在AI Ping上根據自己的需求選擇模型策略,比如默認模式、成本優先、性能優先等等。

師天麾認為,AI Ping提供的服務隊中小企業而言尤其具有價值。對大廠而言,采購幾十個服務商提供的Token服務,然后進行評測并不是件難事,但中小企業因為成本、技術等原因很難做到這點。

三、自研國產大模型推理引擎,不簡單挪用現成技術

清程極智的另一大關鍵產品,是其生產級大模型推理引擎“赤兔”。清程極智聯合創始人唐適之詳細介紹了推理引擎的技術原理和赤兔的技術特點。

推理引擎是運行在AI算力上的計算機程序,它接收用戶輸入,依據大模型定義進行計算并產生輸出,其輸入輸出以Token為單位進行計量。之所以需要專門開發推理引擎,是因為開源模型本身只是數學表示,要實現接收輸入并產生回答的完整過程,就必須設計相應的推理引擎程序。



一個高效的推理引擎需要滿足多方面的要求:其精度要能如實反映模型的回答能力;吞吐量要大,每秒鐘處理的請求和Token數量要足夠多;延遲要低,每個請求的處理時間要盡可能短;同時還要占用盡可能少的硬件資源,并且運行穩定,避免因頻繁報錯導致服務中斷。

赤兔推理引擎正是為應對這些挑戰而自主研發的。赤兔由清程極智聯合清華大學團隊推出并開源,同時也提供商用版本。開源版服務國產算力生態并持續迭代,企業版則服務企業級高端需求。

赤兔推理引擎從第一行代碼就均為自研,面向國產芯片開發,既能在昇騰、沐曦、海光、摩爾線程等廠商的國產芯片上運行,也能在進口芯片上運行,具備較強的兼容性,為行業節約了大量重復工作的成本。



在適應國產算力方面,赤兔引擎沒有像很多現有方案那樣簡單挪用vLLM、SGLang等現成技術,而是真正考慮國產芯片與英偉達芯片在計算能力、數據表達能力、硬件調度和通信方式等方面的差異,在技術上做了針對性突破。

例如,他們通過軟件實現對FP8/FP4等浮點數量化類型的支持,在有硬件支持的GPU上可以節省顯卡并提升速度,在沒有硬件支持的國產卡上則可以有效降低成本并達到可用的使用價值。

總體而言,赤兔這樣的國產推理引擎在國產算力和國產模型之間搭建起重要的橋梁,完善了整個生態,助力國產AI推理鏈條實現自主可控。



四、談模型架構演進與國產算力生態

會后,翟季冬、師天麾、唐適之與智東西等媒體進行了深入溝通。

唐適之向我們介紹了赤兔推理引擎的技術積累。大模型興起之前,流體力學模擬、藥物設計相關的計算需求也很高,如今AI Infra層的許多技術都源自于高性能計算。清程極智核心團隊所來自的清華大學計算機系高性能所,已經在這方面有幾十年的技術積累。

談及國產算力生態的建設,唐適之回憶起了英偉達的往事。唐適之稱,之前他還在清華學習時,英偉達會主動向他們贈送免費GPU,為的就是打造生態,如今英偉達的生態已經較為成熟,其芯片也成為緊俏的商品。

目前,各大國產芯片廠商都在自建生態,但這些生態都相對獨立。不同國產廠商的所需要的技術很多都是共通的,清程極智想做的就是站在更宏觀的視角,服務整個國產算力的發展。

智東西向唐適之詢問了國產芯片適配過程中的具體細節。唐適之解釋稱,芯片能力的發揮不僅依賴硬件本身,更依賴系統軟件的深度優化。當前國產算力適配涉及算子庫、編譯器、并行方案等多個技術層面,它們解決的是同一問題:如何讓芯片將更多時間投入真實有效計算,而不是消耗在無效的數據搬運和通信開銷上。

他舉例稱,算子庫更偏向手工優化,能夠精細調用芯片計算單元;編譯器則偏向自動優化,但自動生成的效果未必始終最優。因此,在實際部署中,需要綜合不同技術手段,根據芯片架構特點選擇最適合的方案,有時甚至需要多種方式協同使用。

對于市場關注的“Token越來越便宜”趨勢,師天麾則從供需關系與調度效率角度給出了觀察。他認為,大模型推理成本下降并不意味著Token不再緊缺。當前國內推理需求仍在快速增長,尤其長上下文、多輪交互等應用興起后,Token消耗速度遠超以往,而算力供給卻難以同步擴張。

師天麾透露,清程極智正在嘗試通過評測和智能調度提升算力利用率?!叭袊倳幸恍┓辗泵?,也會有一些服務空閑,但過去業界并不知道誰繁忙誰空閑?!庇辛薃I Ping之后,清程極智可以用更便宜的價格獲得Token、并以更便宜的價格對外提供服務,提高算力的利用率,然后同時也給用戶來降低成本。

翟季冬則分享了他對大模型技術路線演進的看法。他認為:“如果朝著AGI方向看,上層模型其實遠遠沒有收斂,還有很多探索空間。”

未來模型架構并不一定局限于傳統自回歸(Auto-regressive)路線。例如,去年螞蟻曾探索基于擴散機制的語言模型方向,其技術路徑與傳統自回歸架構有所不同,目前包括螞蟻在內的一些企業仍在持續推進類似嘗試,谷歌此前也進行過相關探索。

與此同時,多模態統一模型也成為行業關注的重要方向。目前文本問答、圖片生成、視頻生成等能力大多仍由不同模型分別承擔,但越來越多企業正在嘗試將文本、圖片和視頻整合到統一模型之中,實現多模態能力的一體化。

盡管翟季冬并非直接從事大模型研究,但結合與相關企業的交流和觀察,他感受到,整個行業仍在積極探索模型架構,未來仍有望出現新的模型架構與技術路線。

結語:AI Infra效率成競爭焦點

隨著大模型逐漸普及,模型背后的基礎設施效率愈發成為AI行業的競爭焦點。誰能更低成本、更穩定、更高質量地提供Token服務,誰就更有機會占據下一階段優勢。

與此同時,國產算力生態也在加速發展,行業對于新型架構、互聯效率和系統級優化的探索明顯加速,轉向“芯片+軟件棧+推理引擎+應用生態”的整體協同。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣州一批買房人,天塌了……

廣州一批買房人,天塌了……

鳴金網
2026-05-26 16:42:05
穆里尼奧人還沒到,就先為皇馬鎖定一位超級飛翼,或成今夏第一簽

穆里尼奧人還沒到,就先為皇馬鎖定一位超級飛翼,或成今夏第一簽

零度眼看球
2026-05-26 14:48:52
保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

歷史點行
2026-03-29 13:38:28
曼聯、利物浦和阿森納現在可以完成的7筆簽約:降級帶來2.38億英鎊優勢

曼聯、利物浦和阿森納現在可以完成的7筆簽約:降級帶來2.38億英鎊優勢

綠茵情報局
2026-05-26 14:48:53
礦難賠償真相:2026年這個新標準,每個礦工家庭都該知道

礦難賠償真相:2026年這個新標準,每個礦工家庭都該知道

黑翼天使
2026-05-26 16:48:55
竇驍缺席何超蓮家族活動,轉頭同框劉浩存,豪門婚姻再次引發猜測

竇驍缺席何超蓮家族活動,轉頭同框劉浩存,豪門婚姻再次引發猜測

小兔子的快樂
2026-05-26 14:57:14
萊斯特城消亡史:從藍狐神話到三級聯賽,短短十年滿目瘡痍

萊斯特城消亡史:從藍狐神話到三級聯賽,短短十年滿目瘡痍

夜白侃球
2026-04-22 10:55:15
竇唯女兒命運天壤之別:星二代與打工妹的差距

竇唯女兒命運天壤之別:星二代與打工妹的差距

蹲坑看世界
2026-05-25 20:53:59
新加坡賽首日:國羽3勝4負!石宇奇橫掃日本二單,鳳凰組合一輪游

新加坡賽首日:國羽3勝4負!石宇奇橫掃日本二單,鳳凰組合一輪游

釘釘陌上花開
2026-05-26 19:38:05
電影“阿嬤”中國爆火,新加坡媒體立馬抹黑,反遭網友集體扒祖墳

電影“阿嬤”中國爆火,新加坡媒體立馬抹黑,反遭網友集體扒祖墳

譚談社會
2026-05-24 17:28:42
最愛孩子的一代人 養出了最不愛父母的一代!網友:說出了養娃心聲

最愛孩子的一代人 養出了最不愛父母的一代!網友:說出了養娃心聲

夜深愛雜談
2026-05-26 21:49:31
63歲喬丹罕見發聲 錄視頻致敬瓜帥 后者秒變迷弟:你竟然認識我啊

63歲喬丹罕見發聲 錄視頻致敬瓜帥 后者秒變迷弟:你竟然認識我啊

風過鄉
2026-05-26 08:18:40
財務造假!股價大跌70%,A股又一公司被重罰,超2萬股民受波及

財務造假!股價大跌70%,A股又一公司被重罰,超2萬股民受波及

21世紀經濟報道
2026-05-26 16:30:04
突發!以色列發動精準打擊,馬盧身亡

突發!以色列發動精準打擊,馬盧身亡

每日經濟新聞
2026-05-26 14:50:53
夏天吃餃子,韭菜芹菜靠邊站,多吃這個“高鉀餡”,營養又解饞!

夏天吃餃子,韭菜芹菜靠邊站,多吃這個“高鉀餡”,營養又解饞!

秀廚娘
2026-05-22 20:32:06
居然跟錢過不去尼克斯有多傻?4比0橫掃騎士,少收入1700萬美金

居然跟錢過不去尼克斯有多傻?4比0橫掃騎士,少收入1700萬美金

姜大叔侃球
2026-05-26 11:54:49
曼聯盯上7000萬解約金后衛,切爾西加入爭奪戰

曼聯盯上7000萬解約金后衛,切爾西加入爭奪戰

綠茵狂熱者
2026-05-27 00:11:14
5月27日精選熱點:光纖史詩級采集來了,這些龍頭要大漲

5月27日精選熱點:光纖史詩級采集來了,這些龍頭要大漲

元芳說投資
2026-05-26 21:19:16
恭喜!香港知名星二代宣布結婚,半個香港娛樂圈都到了

恭喜!香港知名星二代宣布結婚,半個香港娛樂圈都到了

觀察鑒娛
2026-05-25 14:04:54
安徽一男子吐槽“最離譜的婚禮”,開車80公里空腹去餓肚子回

安徽一男子吐槽“最離譜的婚禮”,開車80公里空腹去餓肚子回

九方魚論
2026-05-26 12:27:53
2026-05-27 00:32:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11900文章數 117085關注度
往期回顧 全部

科技要聞

中國AI要向外卷,而不只是做第二個OpenAI

頭條要聞

留神峪逃生礦工在宿舍不肯離開:拿到被拖欠的工資再走

頭條要聞

留神峪逃生礦工在宿舍不肯離開:拿到被拖欠的工資再走

體育要聞

上賽季差點降入英甲,下賽季要踢英超了

娛樂要聞

臺媒貼臉!S媽被問大S嗑藥當場沉默

財經要聞

中國鋁行業爆單 下一個“煤炭”大周期?

汽車要聞

涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

態度原創

家居
數碼
藝術
教育
公開課

家居要聞

生與命相依 舊公寓改造

數碼要聞

小米Poco Pad C1海外發布,入門平板也卷高刷?

藝術要聞

中國之美,美到極致!

教育要聞

你的分數能報哪些好學校?教育部直屬院校美術類招生專業匯總!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版