无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

一文看懂AI大模型的并行訓練方式(DP、PP、TP、EP)

0
分享至

大家都知道,AI計算(尤其是模型訓練和推理),主要以并行計算為主。

AI計算中涉及到的很多具體算法(例如矩陣相乘、卷積、循環層、梯度運算等),都需要基于成千上萬的GPU,以并行任務的方式去完成。這樣才能有效縮短計算時間。

搭建并行計算框架,一般會用到以下幾種常見的并行方式:

Data Parallelism,數據并行

Pipeline Parallelism,流水線并行

Tensor Parallelism,張量并行

Expert Parallelism, 專家并行

接下來,我們逐一看看,這些并行計算方式的工作原理。

▉ DP(數據并行)

首先看看DP,數據并行(Data Parallelism)。

AI訓練使用的并行,總的來說,分為數據并行和模型并行兩類。剛才說的PP(流水線并行)、TP(張量并行)和EP(專家并行),都屬于模型并行,待會再介紹。

這里,我們需要先大概了解一下神經網絡的訓練過程。簡單來說,包括以下主要步驟:

1、前向傳播:輸入一批訓練數據,計算得到預測結果。

2、計算損失:通過損失函數比較預測結果與真實標簽的差距。

3、反向傳播:將損失值反向傳播,計算網絡中每個參數的梯度。

4、梯度更新:優化器使用這些梯度來更新所有的權重和偏置(更新參數)。

以上過程循環往復,直到模型的性能達到令人滿意的水平。訓練就完成了。

我們回到數據并行。

數據并行是大模型訓練中最為常見的一種并行方式(當然,也適用于推理過程)。

它的核心思想很簡單,就是每個GPU都擁有完整的模型副本,然后,將訓練數據劃分成多個小批次(mini-batch),每個批次分配給不同的GPU進行處理。

數據并行的情況下,大模型訓練的過程是這樣的:

1、對數據進行均勻切割,發給不同的、并行工作的GPU(Worker);

2、各GPU都擁有一樣的模型以及模型參數,它們各自獨立進行前向傳播、反向傳播,計算得到各自的梯度;

3、各GPU通過卡間通信,以All-Reduce的通信方式,將梯度推給一個類似管理者的GPU(Server);

4、Server GPU對所有梯度進行求和或者平均,得到全局梯度;

5、Server GPU將全局梯度回傳(broadcast廣播)到每個Worker GPU,進行參數更新(更新本地模型權重)。更新后,所有worker GPU模型參數保持一致。

然后,再繼續重復這樣的過程,直至完成所有的訓練。

再來一張圖,幫助理解:

從下往上看

這里提到的All-Reduce,也是一個AI領域的常見概念,字面意思是“全(All)-規約(Reduce)”,即:對所有節點的數據進行聚合(如求和、求最大值),并將最終結果分發到所有節點。(參考:)

數據并行的優點,在于實現過程比較簡單,能夠顯著加速大規模數據的訓練過程,尤其適用于數據量遠大于模型參數的場景。

數據并行的缺點,在于顯存的限制。因為每個GPU上都有完整的模型副本,而當模型的規模和參數越大,所需要的顯存就越大,很可能超過單個GPU的顯存大小。

數據并行的通信開銷也比較大。不同GPU之間需要頻繁通信,以同步模型參數或梯度。而且,模型參數規模越大,GPU數量越多,這個通信開銷就越大。例如,對于千億參數模型,單次梯度同步需傳輸約2TB數據(FP16精度下)。

▉ ZeRO

這里要插播介紹一個概念——ZeRO(Zero Redundancy Optimizer,零冗余優化器)。

在數據并行策略中,每個GPU的內存都保存一個完整的模型副本,很占內存空間。那么,能否每個GPU只存放模型副本的一部分呢?

沒錯,這就是ZeRo——通過對模型副本中的優化器狀態、梯度和參數進行切分,來實現減少對內存的占用。

ZeRO有3個階段,分別是:

ZeRO-1:對優化器狀態進行劃分。

ZeRO-2:對優化器狀態和梯度進行劃分

ZeRO-3:對優化器狀態、梯度和參數進行劃分。(最節省顯存)

通過下面的圖和表,可以看得更明白些:

根據實測數據顯示,ZeRO-3在1024塊GPU上訓練萬億參數模型時,顯存占用從7.5TB降至7.3GB/卡。

值得一提的是,DP還有一個DDP(分布式數據并行)。傳統DP一般用于單機多卡場景。而DDP能多機也能單機。這依賴于Ring-AllReduce,它由百度最先提出,可以有效解決數據并行中通信負載不均(Server存在瓶頸)的問題。

▉ PP(流水線并行)

再來看看模型并行。

剛才數據并行,是把數據分為好幾個部分。模型并行,很顯然,就是把模型分為好幾個部分。不同的GPU,運行不同的部分。(注意:業界對模型并行的定義有點混亂。也有的資料會將張量并行等同于模型并行。)

流水線并行,是將模型的不同層(單層,或連續的多層)分配到不同的GPU上,按順序處理數據,實現流水線式的并行計算。

例如,對于一個包含7層的神經網絡,將1~2層放在第一個GPU上,3~5層放在第二個GPU上,6~7層放在第三個GPU上。訓練時,數據按照順序,在不同的GPU上進行處理。

乍一看,流水并行有點像串行。每個GPU需要等待前一個GPU的計算結果,可能會導致大量的GPU資源浪費。

上面這個圖中,黃色部分就是Bubble (氣泡)時間。氣泡越多,代表GPU處于等待狀態(空閑狀態)越長,資源浪費越嚴重。

為了解決上述問題,可以將mini-batch的數據進一步切分成micro-batch數據。當GPU 0處理完一個micro-batch數據后,緊接著開始處理下一個micro-batch數據,以此來減少GPU的空閑時間。如下圖(b)所示:

還有,在一個micro-batch完成前向計算后,提前調度,完成相應的反向計算,這樣就能釋放部分顯存,用以接納新的數據,提升整體訓練性能。如上圖(c)所示。

這些方法,都能夠顯著減少流水線并行的Bubble時間。

對于流水線并行,需要對任務調度和數據傳輸進行精確管理,否則可能導致流水線阻塞,以及產生更多的Bubble時間。

▉ TP(張量并行)

模型并行的另外一種,是張量并行。

如果說流水線并行是將一個模型按層「垂直」分割,那么,張量并行則是在一個層內「橫向」分割某些操作。

具體來說,張量并行是將模型的張量(如權重矩陣)按維度切分到不同的GPU上運行的并行方式。

張量切分方式分為按行進行切分和按列進行切分,分別對應行并行(Row Parallelism)(權重矩陣按行分割)與列并行(Column Parallelism)(權重矩陣按列分割)。

每個節點處理切分后的子張量。最后,通過集合通信操作(如All-Gather或All-Reduce)來合并結果。

張量并行的優點,是適合單個張量過大的情況,可以顯著減少單個節點的內存占用。

張量并行的缺點,是當切分維度較多的時候,通信開銷比較大。而且,張量并行的實現過程較為復雜,需要仔細設計切分方式和通信策略。

放一張數據并行、流水線并行、張量并行的簡單對比:

▉ 專家并行

2025年初DeepSeek爆紅的時候,有一個詞也跟著火了,那就是MoE(Mixture of Experts,混合專家模型)。

MoE模型的核心是“多個專家層+路由網絡(門控網絡)”。

專家層的每個專家負責處理特定類型的token(如語法、語義相關)。路由網絡根據輸入token的特征,選擇少數專家處理這個token,其他專家不激活。

MoE實現了任務分工、按需分配算力,因此大幅提升了模型效率。

專家并行(Expert Parallelism),是MoE(混合專家模型)中的一種并行計算策略。它通過將專家(子模型)分配到不同的GPU上,實現計算負載的分布式處理,提高計算效率。

專家并行與之前所有的并行相比,最大的不同在于,輸入數據需要通過一個動態的路由選擇機制分發給相應專家,此處會涉及到一個所有節點上的數據重分配的動作。

然后,在所有專家處理完成后,又需要將分散在不同節點上的數據按原來的次序整合起來。

這樣的跨片通信模式,稱為All-to-All。(再次參考:)

專家并行可能存在負載不均衡的問題。某個專家所接收到的輸入數據大于了其所能接收的范圍,就可能導致Tokens不被處理或不能被按時處理,成為瓶頸。

所以,設計合理的門控機制和專家選擇策略,是部署專家并行的關鍵。

▉ 混合并行

在實際應用中,尤其是訓練萬億參數級別的超大模型時,幾乎不會只使用單一的并行策略,而是采用多維度的混合并行(結合使用多種并行策略)。

例如:

數據并行+張量并行:數據并行處理批量樣本,張量并行處理單樣本的大矩陣計算。

流水線并行+專家并行:流水線并行劃分模型層,專家并行劃分層內專家模塊。

更高級的,是3D并行,通過“數據并行+張量并行+流水線并行”,實現三重拆分,是超大模型訓練的主流方案。

3D并行

▉ 最后的話

好啦,以上就是關于DP、PP、TP、EP等并行訓練方式的介紹。大家都看懂了沒?

并行計算方式其實非常復雜,剛才我們只是做了最簡單的介紹。但在真實工作中,開發者無需了解具體的實現細節,因為業界提供了例如DeepSpeed(微軟開源,支持3D并行+ZeRO內存優化)、Megatron-LM(NVIDIA開源,3D并行的標桿)、FSDP等開源軟件,能夠讓開發者直接進行大語言模型訓練。

小棗君之所以要專門介紹并行訓練方式,其實更多是為了幫助大家深入地理解算力集群架構和網絡的設計。

大家可以看到,不同的并行訓練方式,有著不同的通信流量特點。算力集群整體架構和網絡設計,需要盡量去適配這些并行計算方式的流量特點,才能滿足模型訓推任務的要求,實現更高的工作效率。

比如說,數據并行,由于需要頻繁同步梯度信息,對網絡帶寬要求較高,需要確保網絡帶寬能夠滿足大量梯度數據快速傳輸的需求,避免因帶寬不足導致通信延遲,影響訓練效率。

流水線并行,大模型的每一段,在不同的服務器上以流水線的方式逐步計算,涉及到多個服務器“串起來”,就建議部署在比較靠近的服務器上(盡量部署在葉脊網絡的同一個leaf葉下)。

張量并行,通信數據量大,就建議部署在一臺服務器的多個GPU上進行計算。

專家并行中,不同專家分配在不同GPU上,GPU間需要交換中間計算結果等信息,其通信流量特點取決于專家的數量以及數據交互的頻率等,也需要合理規劃GPU間的連接方式和通信路徑。

總之,在GPU算卡性能越來越難以提升的背景下,深入研究并行計算的設計,從架構和網絡上挖掘潛力,是業界的必然選擇。

隨著AI浪潮的繼續發展,以后是否還會出現其它的并行訓練方式呢?讓我們拭目以待吧!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
油價大跌超8毛/升,“創2個多月新低”的油價,6月18日或再大跌

油價大跌超8毛/升,“創2個多月新低”的油價,6月18日或再大跌

油價早知道
2026-06-14 01:49:21
宏遠速遞!朱芳雨報價李炎哲,徐杰新身份曝光,杜鋒深夜發聲

宏遠速遞!朱芳雨報價李炎哲,徐杰新身份曝光,杜鋒深夜發聲

多特體育說
2026-06-14 11:52:04
日元血崩,日本女性悲劇再次上演!

日元血崩,日本女性悲劇再次上演!

董董歷史燴
2026-06-14 10:55:25
離婚15年后再看謝暉,他的選擇有多正確

離婚15年后再看謝暉,他的選擇有多正確

小柨拍客在北漂
2026-06-09 12:55:49
1958年,八一廠同時選中兩個帥小伙當主角,后來兩個人結局卻不同

1958年,八一廠同時選中兩個帥小伙當主角,后來兩個人結局卻不同

銅臭的歷史味
2026-06-14 00:09:21
好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

林林先生
2026-06-13 10:25:06
巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

阿傖說事
2026-06-13 14:00:30
烏”亞速營”俘虜招供:烏軍女兵不是戰斗英雄,而是”后方妻子”

烏”亞速營”俘虜招供:烏軍女兵不是戰斗英雄,而是”后方妻子”

掉了顆大白兔糖
2026-06-13 09:32:48
新生兒銳減:2035年中國人口或減6000萬

新生兒銳減:2035年中國人口或減6000萬

清衣渡a
2026-06-14 06:51:06
楊晨6月份社媒官宣將亮相新崗位!已在大合同簽字,引發熱議

楊晨6月份社媒官宣將亮相新崗位!已在大合同簽字,引發熱議

梅亭談
2026-06-14 11:48:01
美國隊長又帥回來了,一次失敗的植發,毀了他兩年形象

美國隊長又帥回來了,一次失敗的植發,毀了他兩年形象

替補席懂王
2026-06-14 11:43:01
陳凱歌曾評價周迅:如果身高再多上10厘米,那么整個世界就是她的

陳凱歌曾評價周迅:如果身高再多上10厘米,那么整個世界就是她的

寒士之言本尊
2026-05-29 13:04:53
14日凌晨WTT挑戰賽:決賽出現美和失局,朱雨玲翻盤,中日爭奪冠軍!

14日凌晨WTT挑戰賽:決賽出現美和失局,朱雨玲翻盤,中日爭奪冠軍!

等等talk
2026-06-14 01:27:13
老了才發現,很多子女瞧不起自己的父親!原來是這3方面出了問題

老了才發現,很多子女瞧不起自己的父親!原來是這3方面出了問題

風起見你
2026-06-09 00:18:19
終于看懂英皇為何集體缺席了!半個港圈給94歲修哥捧場

終于看懂英皇為何集體缺席了!半個港圈給94歲修哥捧場

南萬說娛26
2026-06-13 09:09:00
央企“最牛女副處長”落馬:兩年與上司開房410次,細節曝光

央企“最牛女副處長”落馬:兩年與上司開房410次,細節曝光

西門老爹
2025-12-16 15:35:31
瑞典理發師:哲凱的發型是現在瑞典年輕人里最流行的;他本人很隨和

瑞典理發師:哲凱的發型是現在瑞典年輕人里最流行的;他本人很隨和

懂球帝
2026-06-14 00:20:05
和蒙古國談妥了

和蒙古國談妥了

阿振觀點
2026-06-14 10:05:30
再見了,NBA!詹姆斯+濃眉,勇士全都要...

再見了,NBA!詹姆斯+濃眉,勇士全都要...

詹姆斯吧
2026-06-14 13:08:25
楊絳:人的一生,要闖三關,第一關,送父母終老;第二關,把孩子撫育成人;第三關,守好自己的命,這三道關卡,關關難過,但也得關關過

楊絳:人的一生,要闖三關,第一關,送父母終老;第二關,把孩子撫育成人;第三關,守好自己的命,這三道關卡,關關難過,但也得關關過

犀利強哥
2026-06-13 06:58:30
2026-06-14 13:31:00
鮮棗課堂 incentive-icons
鮮棗課堂
ICT知識科普。
1046文章數 1259關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

媒體:美伊突然"握手"協議將敲定 但真正的炸彈在后頭

頭條要聞

媒體:美伊突然"握手"協議將敲定 但真正的炸彈在后頭

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

時尚
數碼
藝術
手機
軍事航空

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調查組》......

數碼要聞

貝爾金推出45W自帶線充電頭:提供USB-C線/充電接口,199元

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

手機要聞

iPhone Ultra取消Face ID:改用側邊指紋 博主感嘆像是在做夢

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版