網易首頁 > 網易號 > 正文 申請入駐

這家中國公司,讓GPU利用率飆升!全球AI圈熱議

0
分享至

最近,我遇到一個十分頭疼的問題,K哥團隊有一組集群機器,配了4張GPU顯卡,平時主要用來測評大模型、開發AI應用。本來應該是夠用了,但是在使用GPU的時候經常是獨占式的,一個任務占了整張卡,利用率卻只有30%,別的任務就要排隊。

一邊是GPU大把閑置,一邊是開發人員排隊等資源。就像餐廳里明明有空位,但因為每桌只坐了一個人,后面的客人還得等位。造成了算力資源的浪費,很多企業應該都面臨類似的困境。

01

GPU資源管理困局

關于GPU資源管理的問題,其實遠不止利用率不高這一點,在使用過程中普遍會遇到以下四個問題:

1、資源顆粒度太粗。如前面說的場景,一張16GB的T4卡,只能整卡分配,利用率只有30%,白白浪費11G多。

2、調度機制不夠智能。K8s原生調度只知道“有卡”或“沒卡”,不知道卡上還剩多少顯存、算力,就好比一個停車場雖然車位滿了,但是還能夠塞進很多輛摩托車。

3、資源隔離難。開發、測試、生產環境混在一起,沒法給不同團隊單獨的工作區間,避免相互干擾。

4、管理成本高。傳統的資源申請要走人工審批,出了問題也要排查很久,導致管理成本很高。

如何才能更高效地管理GPU資源,難道以上問題就沒有更好的解決方案嗎?

02

OrionX社區版,初體驗

一次偶然的機會,我了解到OrionX社區版。這是由趨動科技開發的,OrionX的輕量級部署版本,幫助用戶構建數據中心級AI算力資源池、降本增效。它的核心理念是:用軟件定義AI算力,讓GPU資源像云計算一樣靈活。

原理也不復雜,就是把顯卡、算力按很小的粒度進行切分,然后根據用戶實際需要進行組合。傳統的GPU管理就像飯店的包間,你一個人也得開一間,而OrionX社區版把包間改成拼桌,來幾個人就坐幾個位子,靈活調整,絕不浪費。

OrionX社區版究竟能不能解決GPU管理的困境呢?我上手做了個測評,下面跟隨我一起來體驗吧。

首先,從官網上提交申請,掃碼填寫信息:

審核通過后,會收到一封確認郵件,獲取授權碼、下載地址。



下載安裝文件,上傳到服務器,準備開始安裝。



安裝的過程很簡單,主要是基于K8S環境進行部署。開始部署前需要對安裝環境做基礎檢查,包括:

GPU驅動檢查:nvidia-smi

Kubernetes環境檢查:get node -owide

Nvidia Container Toolkit檢查:

docker info | grep 'Default Runtime'







狀態正常,就可以開始部署了。

1)部署文件上傳

上傳OrionX部署文件yaml.tar.gz至K8S管理節點任意位置,并解壓.



2)K8S節點標記

編輯部署文件tools/label.sh腳本,按資源規劃修改如下內容,然后對執行K8S集群節點進行標記:



3)創建命名空間和配置信息對象

執行如下操作,創建名為orionx的命名空間,創建OrionX配置信息ConfigMap對象,命令如下:

kubectl apply -f base/

4)部署orionx-ocenter-all-in-one組件

執行如下操作,部署orionx-ocenter-all-in-one組件,命令如下:

kubectl apply -f deploy/orionx-ocenter-all-in-one.yaml

5)導入License

通過瀏覽器訪問http://,打開OrionX GUI管理頁面,通過激活頁面,添加激活文件按鈕導入License,導入后會顯示證書信息,如下圖所示:

:30125



6)部署orionx-k8s-scheduler組件

執行如下操作,部署orionx-k8s-scheduler組件,命令如下:

kubectl apply -f deploy/orionx-k8s-scheduler-extender.yaml

7)部署orionx-server組件

部署orionx-server組件,修改配置文件如下,并執行命令:

kubectl apply -f deploy/orionx-gpu-server.yaml



8)部署orionx-k8s-device-plugin組件

執行如下操作,部署orionx-k8s-device-plugin組件,命令行:

kubectl apply -f deploy/orionx-k8s-device-plugin.yaml

9)部署orionx-gpu-exporter組件

執行如下操作,部署orionx-gpu-exporter組件,會部署于所有OrionX GPU計算節點:

kubectl apply -f deploy/orionx-gpu-exporter.yam

10)部署orionx-k8s-admission-webhooks組件

執行如下命令,部署orionx-k8s-admission-webhooks組件:

kubectl apply -f deploy/orionx-k8s-admission-webhooks.yaml

11)部署orionx-container-runtime組件

執行如下操作,部署orionx-container-runtime組件:

kubectl apply -f deploy/orionx-container-runtime.yaml

現在就可以開始使用Orion社區版了,整體安裝過程很絲滑,下面就可以到后臺去操作了。瀏覽器訪問http://地址,打開OrionX GUI,進行登錄,初始用戶名密碼見安裝手冊。

:30125

進入節點詳情頁面可以查看該節點GPU資源使用率監控統計圖。



還可以進行節點管理。在OrionX GUI左側導航欄選擇“節點”,在節點信息頁面可以禁用或啟用節點。



整個安裝過程很順滑,只要具備基本的Linux使用能力,就可以輕松完成。

03

輕松管理你的GPU資源池

下面談談我對OrionX社區版的總體使用感受,主要有四點體會:

1、資源分配靈活,告別“大鍋飯”。更細粒度地分配GPU資源,提高資源利用率,這就解決了我們團隊遇到的GPU獨占的問題,而且申請資源無須再等待,提升了日常管理效率。

2、智能調度,讓資源分配更合理。GPU的調度是智能化的,可以做到節點均勻,設備緊湊,節點優先,這就解決了一些節點負載高、一些負載低的問題,并且策略是可配置的。

3、超分,榨干GPU每一滴性能。很多任務不是一直滿負荷用GPU,推理任務經常是突發式的,通過統一內存管理和算力復用,可以分配出更多vGPU,合理使用超分功能可以進一步提升GPU效能。

4、可視化管理,一目了然。Orion社區版的GUI界面做得很不錯,資源監控很直觀,點進某個節點,可以看到詳細的監控曲線、GPU利用率曲線(最近24小時)、顯存使用趨勢。

04

立刻開啟GPU資源池化時代

OrionX社區版通過構建算力資源池,將粗放的管理轉變為精細化運營,這是中國科技企業在AI基礎設施領域的突破。正如凱文·凱利在《必然》中所說:“技術的真正力量,不在于它能做什么,而在于它讓更多人能做什么。”AI算力池化技術的價值,恰恰在于讓研發團隊也能用得起、用得好AI算力,打破算力壟斷的壁壘。

如果你的團隊也面臨GPU資源管理困境,立即掃碼申請使用OrionX社區版。



有興趣的朋友提交上面表單信息后,也可以添加下方小助手微信進行交流。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2000美元買特斯拉底盤:78個故障碼能開212公里

2000美元買特斯拉底盤:78個故障碼能開212公里

野生運營
2026-04-24 10:18:19
江西省衛生健康委員會原主任龔建平被"雙開"

江西省衛生健康委員會原主任龔建平被"雙開"

界面新聞
2026-04-24 10:32:14
奪冠后第三年,掘金開始像勇士一樣,走上了緩慢崩潰的道路

奪冠后第三年,掘金開始像勇士一樣,走上了緩慢崩潰的道路

兵哥籃球故事
2026-04-24 12:48:08
10億飲料翻車:一瓶糖水怎么敢賣7塊

10億飲料翻車:一瓶糖水怎么敢賣7塊

Ping值焦慮
2026-04-23 15:16:16
小米新車突然發布,這配置也太夸張了!

小米新車突然發布,這配置也太夸張了!

XCiOS俱樂部
2026-04-24 10:46:06
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

阿訊說天下
2026-04-18 11:52:55
南京12歲足球小將全網刷屏了

南京12歲足球小將全網刷屏了

環球網資訊
2026-04-24 14:56:07
成都警方通報“小區天降菜刀”:扔菜刀的嫌疑人梁某已被刑拘

成都警方通報“小區天降菜刀”:扔菜刀的嫌疑人梁某已被刑拘

大象新聞
2026-04-24 18:49:02
死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

風干迷茫人
2026-04-24 16:01:23
遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

極目新聞
2026-04-23 10:00:21
知青為了娶陜北姑娘,和父親決裂,18年后帶著4個孩子回北京。

知青為了娶陜北姑娘,和父親決裂,18年后帶著4個孩子回北京。

周哥一影視
2026-04-24 12:58:25
東南亞三國罕見聯手!新加坡外長撂下狠話:誰也別想封馬六甲海峽

東南亞三國罕見聯手!新加坡外長撂下狠話:誰也別想封馬六甲海峽

安逸安逸
2026-04-24 17:45:07
真主黨最后的榮耀:指揮官陣亡,800死士被鐵桶合圍死戰不退

真主黨最后的榮耀:指揮官陣亡,800死士被鐵桶合圍死戰不退

民間胡扯老哥
2026-04-22 13:40:23
兒童喝牛奶,身高到底能竄多少? 20年追蹤數據

兒童喝牛奶,身高到底能竄多少? 20年追蹤數據

新浪財經
2026-04-20 01:43:28
中國制裁有沒有用?看看今天的美國洛馬就知道了,什么叫釜底抽薪

中國制裁有沒有用?看看今天的美國洛馬就知道了,什么叫釜底抽薪

觸摸史跡
2026-04-24 04:58:08
他與部隊失散,娶了個美貌妻子,12年后立下大功,活捉一國軍軍長

他與部隊失散,娶了個美貌妻子,12年后立下大功,活捉一國軍軍長

興趣知識
2026-04-24 14:42:49
宋承炫宣布當爸!為愛隱退后定居美國,與圈外妻子迎來愛情結晶

宋承炫宣布當爸!為愛隱退后定居美國,與圈外妻子迎來愛情結晶

奇怪的鯊魚們
2026-04-22 12:50:18
明明只是戲子,卻把自己當大腕,論“耍大牌”,這5位明星夠丟人

明明只是戲子,卻把自己當大腕,論“耍大牌”,這5位明星夠丟人

青橘罐頭
2026-04-22 09:59:06
全世界都被騙了:亞馬遜產全球20%氧氣?人類幾乎一口都分不到!

全世界都被騙了:亞馬遜產全球20%氧氣?人類幾乎一口都分不到!

半解智士
2026-04-22 14:26:26
中東局勢劍拔弩張!特朗普又“變臉”:美國人“短時間內”需忍受高油價

中東局勢劍拔弩張!特朗普又“變臉”:美國人“短時間內”需忍受高油價

財聯社
2026-04-24 08:10:05
2026-04-24 19:31:00
技術領導力 incentive-icons
技術領導力
Mr.K,出過書,做過CTO
91文章數 594關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

31人搶的小鵬事故車被36800元拍下 車主在車禍中身亡

頭條要聞

31人搶的小鵬事故車被36800元拍下 車主在車禍中身亡

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

本地
藝術
房產
親子
教育

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

藝術要聞

紐約又一“牙簽樓”!高262米,僅住26戶,有錢人真會玩

房產要聞

三亞安居房,突然官宣!

親子要聞

寶藍和朋友搶一條公主群,誰也不讓誰,爸爸又準備了一條公主裙

教育要聞

同一所學校,QS排名194,FT專業排名全球第36——差距怎么解釋?

無障礙瀏覽 進入關懷版