![]()
這項由匿名研究團隊完成的論文發表于2026年4月,以arXiv預印本形式公開,編號為arXiv:2602.06057v3,屬于分布式計算領域(cs.DC)。有興趣深入了解的讀者可通過該編號查詢完整論文。
**每一瓦特都在燃燒金錢與時間**
手機、筆記本電腦、智能音箱——這些裝在我們口袋里或擺在桌上的設備,正在被越來越多的人要求"本地運行AI"。所謂本地運行,就是不依賴遠在數據中心的服務器,直接在你手邊的硬件上跑出答案。這聽起來很棒:隱私更好、延遲更低、斷網也能用。但現實很骨感——這些設備的電池容量有限,散熱條件糟糕,處理器性能也遠不如機房里那些耗電幾百瓦的巨型顯卡。
現在把時鐘撥快一點,AI模型的體積正在急劇膨脹。幾年前的聊天機器人可能只有幾億個參數,而今天的主流大語言模型動輒幾十億、幾百億參數。要把這樣的龐然大物塞進一臺邊緣設備,同時還要保證它回答得又快又準、耗電又少,這件事的難度,大概相當于讓一輛重型卡車在山地賽道上既跑得過跑車,又不燒油。
這篇論文就在嘗試解決這個問題。研究團隊提出了一個名為QEIL v2(可以理解為"邊緣智能量化框架第二版")的系統,核心思路是:與其盲目地把所有計算任務都堆給性能最強的那塊芯片,不如根據每個任務的實際特性,精準地把它分配給最適合它的硬件單元,從而在保證質量的前提下大幅降低能耗。
這個框架的實驗結果相當驚人:在標準測試中,系統功耗從181.5瓦降到了63.8瓦,降幅超過64%;同時答題準確率從59.8%提升到75.7%;一個叫做"每瓦特智能量"的綜合指標(簡稱IPW,即用準確率除以功耗,反映每消耗一瓦特能獲得多少智能輸出)提升了2.86倍。更值得一提的是,當系統被應用于一個經過壓縮的更大模型時,IPW首次突破了1.0這個行業參考基準線——這是邊緣推理領域此前從未達到過的里程碑。
**一、從"一視同仁"到"因材施教":舊系統的三個致命缺陷**
要理解QEIL v2為什么能做到這些,先要弄清楚它的前身QEIL v1哪里出了問題。研究團隊在論文中坦誠地剖析了v1的三個根本性缺陷,這種自我批評的誠意本身就值得關注。
QEIL v1的第一個問題,用一個廚房比喻來說,就像是一個餐廳的調度員,把所有的菜肴不分難易地分配給廚師時,只記住了每個廚師的"總體效率系數"——A廚師打0.5分,B廚師打0.7分——卻完全不考慮"這道菜適不適合這個廚師做"。具體到AI計算,v1對每種硬件只有一個固定的效率數字:NPU(神經網絡處理單元)是0.3,英偉達GPU是0.5,英特爾集成顯卡是0.7,CPU是1.0。這個數字完全不隨任務類型變化。但實際上,同樣一塊GPU,在處理"預填充"階段(類似于廚師一次性備好所有食材)時效率極高,而在處理"逐字生成"階段(類似于廚師一個一個地擺盤)時,99.5%的計算單元其實是閑置的、白白耗電的。這種忽視任務特性的靜態評分,會導致能耗估算誤差高達15%到40%。
第二個問題是優化策略的短視。v1使用的是一種"貪心算法"——每次都把當前這層任務分配給當下看起來成本最低的設備。這就好比一個登山者每一步都只選擇腳下最平坦的那條路,結果走進了一條最終無路可走的山谷。在多臺設備協同工作的系統里,早期的分配決策會限制后續的選擇空間,把整個系統鎖死在一個局部最優解里。更麻煩的是,當不同設備之間存在不連續的性能跳變時,那種把多個目標(節能和低延遲)硬壓縮成一個加權分數的做法,在數學上被證明是找不到最優解的。
第三個問題是"候選答案選不好"。v1會讓模型反復生成多個答案,然后用很粗糙的標準來挑——比如看哪個答案最長,或者哪個答案里字母和數字占比最高。這就像在一堆應聘簡歷里,專門挑字數最多的,而不是看內容質量。大量潛在的高質量答案就這樣被扔掉了。
**二、三把"物理學尺子":用半導體原理給每塊芯片量體裁衣**
QEIL v2的第一個核心創新是用三個來自物理學和工程學基本原理的指標,徹底替換掉那些靜態的效率系數。這三把尺子,每一把都有實實在在的物理依據,沒有任何憑感覺拍出來的魔法數字。
第一把尺子叫DASI,全名是"動態算術飽和度指數",它回答的問題是:對于某個具體任務,這塊芯片的計算單元有多少比例真正在干活?理解這個概念需要先明白一個叫"屋頂線模型"的基本框架。任何計算任務都有兩個關鍵數字:它需要做多少次數學運算(計算量),以及它需要從內存里讀取多少數據(數據量)。兩者之比叫做"算術強度"。每塊芯片也有兩個上限:最快能做多少計算,以及最快能搬多少數據。當一個任務的算術強度很高(每搬一字節數據就要做很多運算),芯片的計算能力是瓶頸,芯片處于"計算受限"狀態,效率很高。當算術強度很低(搬了很多數據但運算很少),數據搬運是瓶頸,大量計算單元就只能干坐著等數據,白白消耗電力。
把這個道理應用到大語言模型,結論非常震撼。在"預填充"階段(模型一次性處理你輸入的全部提示詞),算術強度大約是每字節1024次運算——遠高于任何芯片的瓶頸點,GPU滿負荷運轉,DASI=1.0。但到了"逐字生成"階段(模型每次只生成下一個詞),算術強度驟降到每字節約1次運算,而英偉達高端GPU的瓶頸點是218,這意味著GPU在生成階段的DASI值只有0.005——99.5%的算力在空轉。相比之下,CPU的瓶頸點只有8,它的DASI在生成階段是0.125,雖然CPU的絕對性能遠不如GPU,但它浪費的比例小得多,每瓦特的實際產出反而更高。這正是為什么把生成任務交給低功耗設備往往比堆在高性能GPU上更合算。
第二把尺子叫CPQ,即"容量壓力商",它衡量的是一臺設備的內存被塞得多滿,以及內存壓力如何推高能耗。從內存分配理論出發,當設備內存使用率超過70%時,系統開始出現內存碎片(就像行李箱里零散地塞滿了小物件,再也放不進一個整齊的大箱子)、頻繁的垃圾回收(系統不斷整理內存,消耗額外能量)和頁面置換(把內存里的數據臨時挪到更慢的存儲里,然后再讀回來)。這些現象會造成額外的能耗。研究團隊用一個三次方程來描述這個懲罰:當內存使用率在70%以下時幾乎沒有額外開銷;超過70%之后懲罰開始快速累積;到達95%時大約增加9.4%的額外能耗;逼近滿載時懲罰更是急劇飆升。選用三次方程而非線性或二次方程,是因為三次方能最準確地描述這種"前期平緩、后期陡增"的物理現象。
第三把尺子叫Φ,即"熱感知能量產出率",來自CMOS晶體管的漏電流物理學。芯片越熱,晶體管的漏電流越大,每完成同樣多的有用計算就要消耗更多的總能量。漏電流大約每升溫10攝氏度就翻一倍,這是基本的半導體物理規律。Φ的值在芯片溫度較低時為1.0(完全高效),隨著溫度升高逐漸下降。當芯片處于65%的額定最高溫度時,Φ還是1.0;到達80%時Φ降到0.714,意味著每完成一單位有效工作需要消耗40%的額外能量;到達最高結溫時Φ跌到0.159,額外能量開銷高達529%。這個公式并非人為調出來的,它的每個系數都直接追溯到半導體物理中的指數漏電方程和熱電壓公式。
把這三把尺子整合成一個統一的能耗方程,就得到了QEIL v2評估每一個"把哪層模型放到哪臺設備上"方案的核心工具。方程的形式是:把設備的額定熱設計功耗乘以一個隨計算利用率(DASI)線性變化的系數,再除以熱效率(Φ),再乘以內存壓力懲罰(CPQ)。這個方程里的每一項都有具體的物理含義,沒有任何憑空捏造的參數。研究團隊還專門做了敏感性測試:把每個參數在默認值的±50%范圍內變化,最終的IPW指標變化幅度不超過2.1%。這說明驅動系統效果的是這些物理公式的結構形態,而不是某幾個精確數字,系統的魯棒性很強。
**三、帕累托引導的模擬退火:讓AI調度員學會下圍棋而非下象棋**
有了精準的能耗評估工具,下一步是怎樣把數百層模型分配給幾臺設備,讓總體效果最優。這就是QEIL v2第二個核心創新登場的地方——一個叫做PGSAM的優化算法,全名是"帶動量的帕累托引導模擬退火"。
先解釋什么是"多目標優化"。如果你只想省電,答案很簡單:全部扔給功耗最低的設備。但你同時還想快(延遲低),還想不讓某臺設備閑置太多(避免浪費)。這三個目標有時會相互矛盾。貪心算法的問題在于,它每次只盯著當前這一步的最優解,就像下象棋只看一步棋,結果常常走進死局。真正高明的下法更像圍棋,每一步都要考慮全局布局。
PGSAM的核心概念是"帕累托支配"。如果方案A在能耗、延遲、設備利用率這三個維度上,至少有一個比方案B好,其余不差,那么A"帕累托支配"B,意味著沒有理由選B而不選A。通過不斷迭代,算法會積累出一個"帕累托檔案"——一組互不支配的方案,每個方案都在不同維度上有各自的優勢,構成一條"權衡曲線"。這條曲線就是數學意義上的最優解集合前沿。
模擬退火是一種來自冶金學的優化思路:鋼鐵在高溫下原子可以自由流動找到低能態,而在低溫下就固化成型。算法在"溫度"高的早期階段,允許接受一些看起來變差的方案(以便跳出局部最優),隨著"溫度"逐漸降低,接受劣解的概率也降低,最終收斂到好的解。
PGSAM在這個基礎上加入了"動量"機制,靈感來自梯度下降優化器中的動量概念。當算法連續找到更好的方案時,動量變量v就積累起來,使有效溫度升高,讓算法能更大膽地探索能量山脊另一側的新區域——因為已經在穩定前進,值得冒險跨越一個暫時更差的狀態去尋找更好的彼岸。當進展停滯時,動量歸零,算法變得保守。這種設計讓優化器在路途順暢時勇敢探索,在迷失時謹慎收斂。
實際操作中,算法把模型層的分配方式表示為幾個"分界點"——比如前12層給設備A,13到24層給設備B,剩余給設備C。這樣的連續分配方式自動避免了層與層之間在不同設備上來回跳的情況,從而減少了數據在設備間傳輸的開銷。算法定義了三種鄰域變換:小幅移動一個分界點(精細調整)、移動兩層(中等擾動)和重置到中間點(大跳躍逃出深谷)。經過500次迭代后,算法從帕累托檔案中用加權切比雪夫公式選出最終方案,默認權重是能耗50%、延遲30%、設備利用率20%,用戶也可以根據自己的需求調整這個比例。
對比實驗顯示:PGSAM比簡單貪心算法準確率高5.2個百分點、能耗低7.2%;與同樣使用多目標遺傳算法的NSGA-II相比,解的質量相當,但運行速度快3倍,完成一次優化只需42毫秒——這對于需要在設備過熱時快速重新調度的邊緣系統來說非常關鍵。
**四、三段式"答案質檢流水線":讓重復抽樣真正物有所值**
QEIL v2的第三個主要創新是推理時的候選答案選取機制,叫做EAC/ARDE級聯,配合CSVET早停策略。
這里先解釋一個背景概念:重復采樣。大語言模型生成答案時有一定隨機性,就像同一個問題問十次,可能得到十種表達不同但意思相近(或部分正確)的答案。如果能從這十個答案里挑出最好的那個,整體準確率就會比只生成一次高很多。研究表明,隨著采樣次數增加,"至少有一個正確答案"的概率按照對數線性規律上升,樣本量翻倍大約能帶來固定比例的準確率提升。QEIL v2在這個基礎上加了精挑細選的機制,讓每一次額外采樣的邊際收益最大化。
候選答案首先經過結構預篩選:長度要超過20個字符,空格要超過3個,字母數字占比要超過50%。這一步排除掉明顯的廢答案(空白、亂碼、無限重復的詞)。通過預篩選后,答案進入三階段漸進式驗證級聯。
第一階段叫熵過濾。這里的"熵"來自信息論,衡量的是模型生成每個詞時有多不確定。熵低說明模型非常確信自己在說什么,像一個胸有成竹的專家;熵高說明模型在亂猜,像一個隨便蒙答案的學生。系統保留熵值最低的70%候選者,淘汰那些模型自己都不確信的答案。70%這個閾值不是隨意定的,而是通過分析500個提示詞的候選池,找到保留與淘汰兩組之間熵差最大的切分點來確定的。
第二階段叫自我驗證。系統讓模型再過一遍每個候選答案,計算模型"讀自己寫的內容時"的平均下一詞預測概率。這個數值高,說明模型覺得這段話是連貫自洽的;數值低,說明這段話在模型看來有些奇怪。保留這一指標最高的60%。這個機制不需要外部評判者,只靠模型自身作為質量裁判。
第三階段叫跨樣本共識。把通過前兩關的候選答案兩兩比較詞匯重疊度(用Jaccard相似度衡量),一個答案與其他高質量答案越像,說明它代表的是"多數觀點"而非偶然異常值,給予更高評分。最終,ARDE(準確率排名決策引擎)在高置信度的候選答案中,優先按質量排名,次按置信度,最后才考慮能耗作為平局決勝條件。這樣的設計把基礎設施的優化和輸出質量的選取解耦開來——一個生成時消耗了更多計算的答案,不會因為"貴"而被降低優先級。
CSVET早停機制則是整個流程的節能閥門。每次生成最少若干個候選(至少6個或總樣本量的35%)之后,系統開始檢查:當前最好的候選答案置信度是否已經超過了一個自適應閾值?這個閾值會隨著已消耗的能量預算比例而微調——能量用得越多,閾值稍微放寬,避免在邊際收益極低的情況下繼續采樣。在實驗中,CSVET平均只生成了25個計劃樣本中的10到15個就停止了,為簡單問題節省了40%到60%的能量,同時對難問題保持完整的采樣深度。
**五、安全是效率的盟友,而非對手**
QEIL v2的另一個值得關注的設計哲學是:安全保障和效率優化不是相互對立的,而是同一枚硬幣的兩面。這體現在熱保護機制的設計上。
v1的熱保護是一個硬閾值:溫度超過85%的額定最高溫,觸發警報,強制限頻。這就像一輛汽車只有在發動機快爆炸時才亮紅燈,而在那之前完全沒有預警。v2把熱效率指標Φ直接嵌入能耗方程,形成了一個連續的溫度敏感信號:芯片越熱,PGSAM在計算各種分配方案的能耗時就越傾向于避開這臺設備,自然而然地把負載引導到更涼快的設備上,而不是等到臨界點才緊急處理。
實驗數據佐證了這一設計的價值。在30分鐘持續推理測試中,沒有Φ保護時,英偉達GPU溫度爬到89攝氏度,超過85攝氏度的節流閾值,觸發47次降頻事件,平均每次推理延遲從正常水平飆升,標準差高達0.84毫秒——意味著響應時間極不穩定。啟用Φ之后,GPU峰值溫度保持在68攝氏度,零節流事件,平均延遲降低同時標準差只有0.06毫秒,總吞吐量反而提升了14.9%。一個"安全保護"機制,反而讓系統跑得更快、更穩——這正是因為節流事件本身就是一種劇烈的性能擾動,提前預防比事后救火代價小得多。
故障容錯方面,實驗模擬了四種設備失效場景:NPU單獨失效、GPU單獨失效、兩塊GPU都失效、NPU加一塊GPU同時失效。所有場景下,系統都在200毫秒內完成重新調度,零查詢丟失。恢復時間隨故障嚴重程度可預測地增加:NPU失效78毫秒,單GPU失效124毫秒,最嚴重的同時失效也只需156毫秒。吞吐量因設備減少而下降,但沒有任何請求中斷。
**六、跨七個模型、三個基準的全面驗證**
研究團隊在一臺配置了英特爾酷睿Ultra 9 285HX處理器(含英特爾AI Boost NPU和英特爾集成顯卡)與英偉達RTX PRO 5000 Blackwell獨立顯卡的異構邊緣平臺上,測試了七個不同規模的語言模型,橫跨三個標準基準數據集。
在WikiText-103(文本續寫任務)上,七個模型在v2下的IPW均達到0.891以上,而標準推理的IPW普遍低于0.45。小模型GPT-2(1.25億參數)在v2下的準確率從59.8%提升到75.7%,功耗從181.5瓦降至63.8瓦,IPW達到0.975。Granite-350M的功耗降幅最大,從460.4瓦降至71.8瓦,因為它的標準配置需要把整個模型塞進高功耗GPU,而DASI分析正確識別出這對內存密集的生成階段來說極度浪費。
在GSM8K(小學數學推理題)上,這個基準對能效系統更具挑戰性,因為正確答案需要多步驟推理,生成的詞數是文本續寫的3到5倍,能耗放大效應更顯著。v2在七個模型上平均比標準推理高出12.2個百分點的準確率,平均節能51.7%。LFM2-2.6B和Llama-3.1-8B這兩個大模型在v2下分別達到了71.6%和67.2%的準確率——這意味著QEIL v2可以讓原本因功耗限制只能在邊緣設備上運行小模型的用戶,實際上用上了更大、更強的模型。
在ARC-Challenge(高中科學多項選擇題)上,輸出序列很短,v2的節能效果沒有因此減弱——平均節能52.8%,甚至略高于WikiText的52.2%。這證明DASI引導的路由不是只在長序列生成時才有效,而是一個對任務類型普遍有效的基礎性優化。
最引人注目的是第七個模型:Llama3-8B-RAMP-4bit。這是一個由外部工具(RAMP框架)對Llama-3.1-8B進行4位量化壓縮得到的模型,每個參數平均只占3.65位,比標準16位浮點數小了4倍多。研究團隊明確說明,RAMP量化不是他們的工作,這個模型被當成一個"現成的外部模型"來測試QEIL v2是否能適應不同的模型特性。結果是:由于每個參數占用字節數減少,生成階段的算術強度相對提高,DASI值上升,PGSAM能夠找到功耗更低的分配方案,最終在WikiText-103上實現IPW=1.024、功耗54.8瓦——這是邊緣推理系統首次在報告的基準上突破IPW=1.0這一行業參考基準線。
研究團隊特別強調,IPW=1.0并非理論上界,它只是一個"此前所有邊緣系統都沒能達到的經驗基準點",具體含義是每消耗一瓦特電力產生1%的基準準確率。從數學上講,IPW是無上界的,只要準確率足夠高或功耗足夠低都可以無限接近100。團隊選擇用它作為對比標桿,是因為它直觀、可復現,而且提供了跨硬件代際的可比參照。
三個基準上的能耗降幅標準差只有0.55%,準確率改善的標準差只有0.45個百分點——這種高度一致性說明QEIL v2的物理能耗模型捕捉到的是硬件的基本行為規律,而不是某個特定任務或數據集的偶發特性。
**七、消融實驗:每個設計決策都經得起推敲**
研究團隊進行了大量消融實驗,對每一個設計選擇都做了拆解驗證,這是本文在方法論嚴謹性上的重要體現。
在組件貢獻分析中,從純GPU基線(59.8%準確率,181.5瓦)開始,每次只加一個新特性。加入DASI能耗模型后,功耗從181.5瓦驟降到112.3瓦,這是單項貢獻中最大的能耗削減,降幅達38.1%。再加CPQ內存壓力后降到104.8瓦,加Φ熱效率后降到98.2瓦。這三個物理模型合力把功耗從GPU基線壓低了約46%,但準確率只從59.8%小幅提升到64.0%——說明這部分增益主要來自路由改善,而非答案質量提升。加入PGSAM替代貪心算法后,功耗進一步大跳至72.1瓦,而準確率也同步提升到66.8%——這兩個方向的同步改善說明多目標優化確實找到了帕累托前沿上的更好點。之后加輔助層低功耗路由、EAC/ARDE級聯和CSVET早停,功耗繼續小幅下降,準確率大幅提升到75.7%。
在PGSAM動量系數的消融中,μ=0(無動量,退化為標準模擬退火)時,帕累托檔案只有182個解,IPW為0.938;μ=0.3時檔案最大(218個解),IPW最高(0.975);μ增大到0.5以上時檔案開始收縮,IPW下降——過大的動量導致過度探索,接受了太多劣解。這驗證了0.3作為默認值的合理性。
在EAC/ARDE閾值敏感性測試中,把三個關鍵過濾比例(熵過濾70%、自驗證60%、置信度邊界1.2奈特)在±10到20%范圍內上下調整,IPW的變化幅度不超過2.6%。這說明級聯架構本身而非某幾個精確閾值是質量提升的來源,系統有很好的穩健性。
關于覆蓋率隨采樣數的變化,在采樣數少于10個時,v2的準確率就已經超過了v1在使用全部樣本時的準確率(70.5%)。到采樣數20個時,v2達到75.7%。這條更陡的曲線反映了EAC/ARDE級聯的作用:每一個新樣本帶來的邊際準確率提升,在有質量篩選機制時明顯高于無篩選時。
在與其他優化器的對比中,PGSAM(42毫秒,IPW=0.975)優于隨機搜索(42毫秒,IPW=0.851)、加權和模擬退火(45毫秒,IPW=0.892)和NSGA-II(128毫秒,IPW=0.921)。NSGA-II的解質量接近PGSAM但慢了3倍,在需要快速響應熱事件重新調度的邊緣場景里是不可接受的。
**八、實驗平臺的真實硬件截圖:理論與現實的吻合**
論文中有一處細節特別有說服力——一張在實際運行QEIL v2時截取的Windows任務管理器截圖。截圖顯示:CPU使用率7%(負責協調調度),英特爾AI Boost NPU使用率41%(承擔內存密集的生成任務),英特爾集成顯卡使用率97%(處理計算密集的預填充),英偉達RTX PRO 5000使用率僅7%,溫度62攝氏度(遠低于85攝氏度的節流閾值)。內存占用30/128GB,使用率23%,遠低于CPQ警戒線。
這張截圖讓所有的公式和指標從抽象變得具體。高性能顯卡只負責"溢出"處理,保持低溫待命;集成顯卡和NPU各司其職;CPU只做輕量級的調度工作。DASI模型的預測與實際運行狀態完全吻合:計算密集的預填充分給了計算能力強的設備,內存密集的生成分給了能效更高的低功耗設備。
說到底,QEIL v2這項研究揭示的核心洞見其實非常直覺:不是每塊芯片都適合每種任務,就像不是每個工人都適合每道工序。長期以來,邊緣AI部署的通用做法是把能用的性能最強的硬件全力驅動,但這對于大量內存密集型操作來說是一種巨大的浪費——高性能芯片的大部分計算單元就那么坐著等數據。QEIL v2通過三個來自物理第一性原理的實時指標,精準地感知每一個計算任務的真實特性,再用多目標帕累托優化找到在節能、速度和均衡利用三者之間的最優權衡,最后用信息論驅動的候選篩選把重復采樣的紅利最大化。
這對普通人的潛在影響并不遙遠。隨著越來越多的AI應用走向邊緣設備——包括手機上的語音助手、工廠里的質檢攝像頭、醫療設備里的輔助診斷系統——如何在有限的電力和散熱條件下榨出最多的智能輸出,將直接決定這些應用的實用性。一個能把功耗壓低64%同時準確率還能提升的框架,意味著同樣一塊電池可以支撐更長的工作時間,同樣一個不帶風扇的封閉外殼不會因為過熱而頻繁死機。
當然,這項研究目前只在一臺特定的異構平臺上驗證過,論文作者也在展望未來工作時提到需要在高通驍龍NPU、英偉達Jetson Orin等其他平臺上進行驗證,以確認框架的跨平臺普適性。此外,如何把這套優化器從離線編譯時運行擴展到實時動態重調度,如何與量化感知訓練和結構化剪枝更深度地結合,如何推廣到非Transformer架構的擴散模型或圖神經網絡,都是后續值得探索的方向。有興趣深入了解的讀者可以通過arXiv編號2602.06057v3查閱完整論文。
Q&A
Q1:QEIL v2中的"每瓦特智能量"(IPW)是怎么計算的,它為什么重要?
A:IPW的計算方法是把模型在基準測試上的通過率(pass@k,百分比數值)除以平均功耗(瓦特)。例如,75.7%的準確率除以63.8瓦得到IPW=0.975。這個指標的意義在于它同時衡量了"做得多好"和"花了多少電",避免了單純比準確率時忽視能耗,或單純比省電時忽視質量的片面性。IPW=1.0被作為行業經驗參考基準線,因為此前沒有邊緣推理系統在報告的基準上達到過這個值,QEIL v2在量化模型上首次突破了這個基準。
Q2:DASI指標和普通的GPU利用率顯示有什么區別?
A:操作系統顯示的GPU利用率只告訴你GPU在某個時間段內"有沒有在工作",但不告訴你它工作得有沒有意義。DASI通過計算某個具體任務的算術強度(運算量除以數據量)與設備瓶頸點之比,直接反映計算單元中有多少比例在做實際有用的運算。大語言模型在逐詞生成階段的算術強度約為每字節1次運算,而高端GPU的瓶頸點是218,所以DASI只有0.005——任務管理器可能顯示GPU"在工作",但QEIL v2的物理模型知道99.5%的算力在空轉,應該把這類任務轉移到瓶頸點更低的NPU或CPU上。
Q3:QEIL v2的PGSAM優化需要多長時間完成,會影響推理速度嗎?
A:PGSAM的完整500次迭代在任意一臺CPU上平均只需要42毫秒,整個過程不需要運行模型本身,只是在做數學計算。這個時間在模型整體編譯和加載時間面前可以忽略不計,屬于一次性的部署前優化開銷。在邊緣設備遭遇過熱需要緊急重新調度時,42毫秒也足夠快,不會造成推理中斷。相比之下,性能相近的NSGA-II算法需要128毫秒,在對響應速度敏感的場景里差距明顯。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.