網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

六維相空間重構(gòu)的兩階段卷積神經(jīng)網(wǎng)絡(luò)

2026-04-14 10:01:18　來(lái)源: CreateAMind

上海舉報(bào)

分享至

六維相空間重構(gòu)的兩階段卷積神經(jīng)網(wǎng)絡(luò)

Two-stage Convolutional Neural Network for six-dimensional phase space reconstruction

https://arxiv.org/pdf/2603.02733

在粒子加速器中，全面掌握六維（6D）束流相空間信息至關(guān)重要，但利用傳統(tǒng)束流診斷手段難以實(shí)現(xiàn)。我們開(kāi)發(fā)了一種兩階段卷積神經(jīng)網(wǎng)絡(luò)（CNN），僅需在具有色散的位置、通過(guò)不同相空間旋轉(zhuǎn)角度獲取的十六幅橫向 x?y 屏圖像，即可重建六維相空間。該模型使用基于 ASTRA 程序模擬的 KEK 加速器測(cè)試設(shè)施（ATF）注入器數(shù)據(jù)進(jìn)行訓(xùn)練。在 KEK-ATF 注入器的彎折軌道（chicane orbit）處，通過(guò)調(diào)節(jié)射頻電子槍的射頻相位和螺線管磁場(chǎng)，采集了真實(shí)空間圖像。基于這些數(shù)據(jù)，我們重建了陰極表面的六維相空間分布，并將其可視化為涵蓋所有坐標(biāo)兩兩組合的 15 幅二維圖像。電子束在陰極處的時(shí)間寬度與空間展寬所得數(shù)值與 KEK-ATF 的實(shí)測(cè)結(jié)果一致。與現(xiàn)有的六維束流成像測(cè)量技術(shù)（如層析成像法）相比，該方法顯著縮短了測(cè)量時(shí)間并降低了所需計(jì)算資源，從而提供了一種更具實(shí)用性的六維相空間測(cè)量方案。

1 引言

束流質(zhì)量通常由其橫向和縱向發(fā)射度來(lái)量化，在加速器中起著關(guān)鍵作用。在線性對(duì)撞機(jī)中，需要在相互作用點(diǎn)實(shí)現(xiàn)超低橫向發(fā)射度，以形成極其扁平的納米級(jí)束流，從而達(dá)到設(shè)計(jì)亮度[1]。同步輻射光源得益于發(fā)射度被推至衍射極限以下，這提高了空間相干性并顯著增強(qiáng)了光子束的光譜亮度[2]。對(duì)于自由電子激光（FEL），較大的發(fā)射度會(huì)導(dǎo)致束流發(fā)散角增大以及在波蕩器中的有效能散增加，從而降低FEL增益[3]。在醫(yī)療加速器設(shè)施中，例如用于質(zhì)子治療腫瘤的回旋加速器，良好控制的束流形狀對(duì)于傳輸和聚焦70?250 MeV質(zhì)子束至關(guān)重要[4]。

為滿足現(xiàn)代加速器設(shè)施（如上述所列）日益嚴(yán)苛的運(yùn)行條件，需要具備評(píng)估和針對(duì)運(yùn)行時(shí)束流條件調(diào)整光學(xué)參數(shù)的能力。因此，沿束流線重建束流相空間對(duì)于診斷束流質(zhì)量具有極高價(jià)值。一般而言，僅依賴發(fā)射度是不夠的，因?yàn)樗鼰o(wú)法捕捉完整六維相空間分布中的復(fù)雜特征，如多峰結(jié)構(gòu)、自由度之間的關(guān)聯(lián)等。獲取六維相空間分布能夠更全面地評(píng)估束流性能，并有助于深入理解導(dǎo)致束流質(zhì)量退化的機(jī)制。然而，加速器內(nèi)傳統(tǒng)的重建方法往往困難且耗時(shí)，需要進(jìn)行破壞性測(cè)量、計(jì)算密集型的反投影，且通常僅能獲取有限數(shù)量的相空間維度信息。

為推斷橫向相空間，已開(kāi)發(fā)出多種傳統(tǒng)束流診斷技術(shù)。這些技術(shù)包括胡椒瓶式或多狹縫發(fā)射度監(jiān)測(cè)器[5, 6]、納米加工線掃描器[7]以及激光線掃描器[8]等。在標(biāo)準(zhǔn)實(shí)現(xiàn)中，此類診斷可重建投影的二維橫向相空間 ( x , x ′ ) 和 ( y , y ′ ) ，且在良好控制條件下，還可推斷耦合的四維橫向束流矩陣。然而，它們主要探測(cè)橫向動(dòng)力學(xué)，無(wú)法直接獲取完整的六維相空間分布。因此，橫向與縱向自由度之間的關(guān)聯(lián)以及其他高維結(jié)構(gòu)無(wú)法被唯一地捕捉。

在層析成像技術(shù)[9–17]中，相空間分布是在改變束流光學(xué)參數(shù)后進(jìn)行推斷的。在此情況下，投影在不同旋轉(zhuǎn)角度下獲取，底層分布可通過(guò)反投影方法重建。然而，該方法需要對(duì)應(yīng)大量投影角度的精確磁鐵設(shè)置，使得在缺乏專用層析成像裝置的機(jī)器上難以實(shí)施。這些方法可實(shí)現(xiàn)高達(dá)四維相空間的分析。

盡管傳統(tǒng)技術(shù)或?qū)游鲋亟ㄔ谙嗫臻g評(píng)估中是有用的工具，但由于高維情況下復(fù)雜度顯著增加，關(guān)于完整六維相空間重建的研究?jī)H有少數(shù)幾項(xiàng)。2018年在散裂中子源（SNS）束流測(cè)試設(shè)施（BTF）進(jìn)行了一項(xiàng)實(shí)驗(yàn)測(cè)量[18]。該實(shí)驗(yàn)采用專用裝置，包含六個(gè)可移動(dòng)狹縫，用于收集六維相空間中部分區(qū)域內(nèi)粒子的信息。該測(cè)量極其耗時(shí)，需要32小時(shí)的穩(wěn)定束流。研究結(jié)果表明，六維相空間中橫向與縱向自由度之間存在由庫(kù)侖力驅(qū)動(dòng)的關(guān)聯(lián)。

近年來(lái)，機(jī)器學(xué)習(xí)在圖像分類、語(yǔ)音識(shí)別、數(shù)據(jù)挖掘等多個(gè)領(lǐng)域的重要性日益提升[19–23]。一些研究已采用這些神經(jīng)網(wǎng)絡(luò)算法進(jìn)行相空間重建[24–27]。其中，一項(xiàng)非常近期的研究[24]展示了使用生成式相空間重建（GPSR）技術(shù)實(shí)現(xiàn)六維相空間的完整重建，該技術(shù)采用后向可微分模擬并優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)以生成六維分布。在該框架中，后向可微分性使得初始猜測(cè)的六維束流分布能夠被迭代優(yōu)化，以使其與實(shí)驗(yàn)測(cè)量結(jié)果一致。該方法采用基于六維束流發(fā)射度負(fù)對(duì)數(shù)的損失函數(shù)，該值與分布的熵成正比。遵循最大熵層析成像（MENT）原理[28]，當(dāng)重建分布的熵最大化時(shí)，其似然性也達(dá)到最大。該方法給出了符合預(yù)期的結(jié)果，并能夠重建六維相空間中許多復(fù)雜的平面。但該研究最大的局限性在于其完全依賴于后向可微分的粒子追蹤，而標(biāo)準(zhǔn)模擬軟件包中并不具備此功能，使用者必須修改現(xiàn)有軟件。此外，該方法需要利用可用的實(shí)驗(yàn)圖像來(lái)計(jì)算多種最大化熵的解，并需要A100 NVIDIA GPU的高強(qiáng)度計(jì)算才能獲得六維分布。

我們的研究旨在為典型注入器束流線開(kāi)發(fā)一種基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）[29–32]的AI模型，以解決從測(cè)量的二維實(shí)空間束流圖像生成完整六維相空間這一逆問(wèn)題。通過(guò)連續(xù)的卷積運(yùn)算，CNN作為輸入束流圖像的特征提取器，捕捉束流尺寸、整體形狀以及強(qiáng)度在圖像中分布方式等信息。該方法在實(shí)用意義上具有層析成像特性，因?yàn)樗褂糜邢薜臋C(jī)器掃描集合，此處通過(guò)調(diào)節(jié)射頻槍相位和螺線管磁場(chǎng)來(lái)實(shí)現(xiàn)，以提供多個(gè)具有信息的視角。然而，它不需要像傳統(tǒng)反投影層析成像那樣密集的0°–360°角度覆蓋或大量光學(xué)參數(shù)設(shè)置。此外，與GPSR類方法不同，CNN方法可使用現(xiàn)成的前向模擬代碼進(jìn)行訓(xùn)練以生成所需數(shù)據(jù)集。盡管訓(xùn)練需要相當(dāng)大的數(shù)據(jù)集（約幅圖像），但可在中等配置的GPU上完成。一旦模型訓(xùn)練完成，重建過(guò)程可在不到一分鐘內(nèi)完成。如此短的重建時(shí)間使得該模型對(duì)加速器設(shè)施極具吸引力，可在實(shí)驗(yàn)束流時(shí)間內(nèi)作為在線束流診斷工具使用。為克服機(jī)器學(xué)習(xí)模型訓(xùn)練集有限的常見(jiàn)問(wèn)題，我們采用傅里葉級(jí)數(shù)函數(shù)，以覆蓋大多數(shù)可能的束流分布。通過(guò)在訓(xùn)練中提供多種多樣的束流形狀，我們提升了模型在訓(xùn)練集之外進(jìn)行外推的能力。此外，如有需要，可輸入高階傅里葉級(jí)數(shù)分布以進(jìn)一步提升質(zhì)量。我們證明，在訓(xùn)練中包含多種束流形狀的情況下，該模型能夠?qū)W習(xí)束流的復(fù)雜性以重建六維相空間。

在本文中，我們提出了一種新開(kāi)發(fā)的基于CNN的AI模型，并在合成束流和KEK-ATF實(shí)驗(yàn)數(shù)據(jù)上評(píng)估其性能。第2節(jié)描述了層析成像所需的相空間旋轉(zhuǎn)原理，第3節(jié)詳細(xì)介紹了CNN模型，包括網(wǎng)絡(luò)架構(gòu)和訓(xùn)練過(guò)程。第4節(jié)展示了該模型在合成束流分布上的性能。第5節(jié)展示了該技術(shù)在KEK-ATF注入器束流線上的實(shí)驗(yàn)驗(yàn)證。最后，第6節(jié)和第7節(jié)總結(jié)了本研究，并討論了其對(duì)加速器領(lǐng)域的發(fā)展前景。

2 束流重建的相空間旋轉(zhuǎn)與測(cè)量原理

傳輸中束流的完整六維相空間重建，可通過(guò)觀測(cè)其相空間旋轉(zhuǎn)所引發(fā)的變化來(lái)實(shí)現(xiàn)。通常，重建工作主要集中于橫向維度，這是由于測(cè)量縱向維度的變化相對(duì)困難，且復(fù)雜非線性效應(yīng)的存在可能使計(jì)算變得繁瑣甚至無(wú)法進(jìn)行。本文證明，只要能在具有可觀測(cè)色散的區(qū)域測(cè)量束流的橫向（x?y）分布，僅利用常規(guī)束流線光學(xué)元件與射頻相位調(diào)制進(jìn)行少量相空間旋轉(zhuǎn)，即可為本研究所采用的基于CNN的算法提供實(shí)現(xiàn)完整相空間重建所需的相空間旋轉(zhuǎn)。由射頻相位差異所引發(fā)的變化在色散區(qū)域是可觀測(cè)的，在本文的實(shí)驗(yàn)設(shè)置中，該區(qū)域選定為彎折段（chicane）的中心位置。彎折段二極磁鐵使束流在x方向發(fā)生偏轉(zhuǎn)，從而產(chǎn)生一種非對(duì)稱效應(yīng)：束流能散在x方向上表現(xiàn)為束流展寬，而邊緣聚焦效應(yīng)則會(huì)在y方向上引起粒子軌跡的變化[33]。我們利用這些效應(yīng)，來(lái)分別觀測(cè)通過(guò)掃描螺線管磁場(chǎng)與射頻相位所引入的橫向和縱向維度的變化。測(cè)量通過(guò)將熒光屏插入彎折段區(qū)域來(lái)進(jìn)行，從而獲取關(guān)于束流形狀與強(qiáng)度的數(shù)據(jù)。為獲得驗(yàn)證本技術(shù)所需的相空間旋轉(zhuǎn)，我們采用了螺線管磁場(chǎng)的變化以及相對(duì)于激光脈沖時(shí)序的射頻相位偏移，分別對(duì)橫向和縱向維度進(jìn)行旋轉(zhuǎn)。下文將對(duì)這些旋轉(zhuǎn)進(jìn)行簡(jiǎn)要說(shuō)明。

2.1 橫向相空間旋轉(zhuǎn)

螺線管磁場(chǎng)會(huì)在橫向方向產(chǎn)生旋轉(zhuǎn)，同時(shí)伴隨著聚焦作用以及對(duì)空間電荷效應(yīng)的部分補(bǔ)償。由于螺線管同時(shí)在兩個(gè)橫向方向上進(jìn)行聚焦，因此單一磁場(chǎng)足以在 x ? x ′ 和 y ? y ′平面內(nèi)引起變化。由螺線管磁場(chǎng)變化引起的橫向相空間變化如圖 1 和圖 2 所示。僅由螺線管產(chǎn)生的聚焦在 x 和 y 維度上是對(duì)稱的，但在測(cè)量點(diǎn)處，由于 y 方向的邊緣聚焦效應(yīng)以及 x 方向因偏轉(zhuǎn)引起的束流展寬，引入了不對(duì)稱性。圖 1 和圖 2 反映了在彎折段（chicane）測(cè)量區(qū)域內(nèi)觀測(cè)到的相空間旋轉(zhuǎn)。

2.2 縱向相空間旋轉(zhuǎn)

縱向（t ? pz）相空間平面的旋轉(zhuǎn)是通過(guò)改變陰極處的射頻相位偏移來(lái)實(shí)現(xiàn)的。因此，處于不同射頻相位的束團(tuán)會(huì)在射頻波的不同位置被加速，從而影響整體的束流能散。圖3展示了由射頻相位變化引起的 t ? pz 平面旋轉(zhuǎn)的示例。

3 用于六維相空間重建的CNN算法

我們采用一種新的CNN算法，利用第2節(jié)所述的原理來(lái)重建陰極處束流的六維相空間。CNN是一種專為處理和分析視覺(jué)數(shù)據(jù)而設(shè)計(jì)的深度學(xué)習(xí)模型[29, 34]。CNN保留了圖像的空間結(jié)構(gòu)，使其能夠高效地捕捉局部模式和視覺(jué)特征。CNN的核心組件是卷積層，它在輸入圖像上應(yīng)用小型濾波器（也稱為卷積核）。這些濾波器在圖像上滑動(dòng)并執(zhí)行數(shù)學(xué)運(yùn)算，以檢測(cè)邊緣、角點(diǎn)、紋理和形狀等特征。隨著數(shù)據(jù)通過(guò)更深層的網(wǎng)絡(luò)，網(wǎng)絡(luò)會(huì)學(xué)習(xí)更復(fù)雜和抽象的表示，使其能夠識(shí)別物體、人臉或場(chǎng)景。該算法還包含池化層，用于減小圖像的空間尺寸，這有助于降低計(jì)算成本并提高對(duì)輸入中微小平移或畸變的魯棒性。最后，全連接層解釋提取的特征并產(chǎn)生分類或預(yù)測(cè)結(jié)果。我們的算法使用CNN處理束流圖像，但它不是提取特征，而是生成多幅圖像。通過(guò)束流測(cè)量獲得的實(shí)空間圖像，我們重建六維相空間中任意兩個(gè)變量的二維圖像。

我們使用常規(guī)的前向ASTRA[35]模擬來(lái)訓(xùn)練網(wǎng)絡(luò)，無(wú)需后向可微分性或代碼修改。該模型在推理時(shí)也不求解最大熵優(yōu)化問(wèn)題；一旦訓(xùn)練完成，它可在相對(duì)適中且負(fù)擔(dān)得起的GPU上，在遠(yuǎn)少于一分鐘的時(shí)間內(nèi)將測(cè)量到的彎折段x?y圖像映射到陰極六維相空間。該卷積架構(gòu)提取彎折段測(cè)量點(diǎn)處的圖像特征，并學(xué)習(xí)它們與光陰極處上游六維相空間坐標(biāo)之間的非線性關(guān)系，為高維束流重建提供了一條更具實(shí)用性的途徑。

先前關(guān)于相空間層析成像的研究[9–17]涉及將低維投影反投影到相空間分布。然而，在此類技術(shù)中，重建高度依賴于能夠覆蓋0°至360°角度范圍以描述相空間分布的投影數(shù)量。此外，這些基于傅里葉切片定理[36]和MENT原理的方法使用一維投影，這也減少了相空間的高維信息。相比之下，我們的CNN模型使用完整的二維束流圖像作為投影，保留了更豐富的相空間特征，且不需要覆蓋完整的角度范圍。

正如引言中所述，近期的GPSR研究[24]表明，基于機(jī)器學(xué)習(xí)的生成模型原則上可以從二維束流圖像重建完整的六維相空間，而無(wú)需對(duì)投影角度施加嚴(yán)格約束。然而，該方法存在兩個(gè)實(shí)際缺點(diǎn)。首先，它依賴于完全后向可微分的粒子追蹤，而標(biāo)準(zhǔn)加速器模擬軟件包中并不具備此功能，需要對(duì)現(xiàn)有代碼進(jìn)行大量修改。其次，該優(yōu)化計(jì)算密集：在六維分布上最大化基于MENT的目標(biāo)函數(shù)需要在專用的A100 NVIDIA GPU上長(zhǎng)時(shí)間運(yùn)行，而這種硬件價(jià)格昂貴且不易獲取。

我們基于CNN的方法克服了這些局限性。下文將詳細(xì)描述該算法的細(xì)節(jié)、其訓(xùn)練過(guò)程、模擬測(cè)試數(shù)據(jù)的重建以及KEK-ATF實(shí)驗(yàn)數(shù)據(jù)的重建。

3.1 模型架構(gòu)

我們的網(wǎng)絡(luò)包含三個(gè)主要部分：編碼器、Transformer（變換器）和解碼器，采用如圖4所示的兩個(gè)階段進(jìn)行訓(xùn)練。對(duì)于給定的射頻相位和螺線管磁場(chǎng)，編碼器[37]接收彎折段測(cè)量點(diǎn)處x?y圖像的單通道64×64直方圖，并使其通過(guò)三個(gè)帶有池化操作的卷積層[34]，逐步將圖像壓縮為具有128個(gè)通道的4×4特征圖。該特征圖可被視為一個(gè)小型網(wǎng)格，其中每個(gè)單元格包含128個(gè)學(xué)習(xí)得到的數(shù)值，用于概括圖像中的局部模式，如束流尺寸、位置和形狀。整體而言，該特征圖是對(duì)原始64×64圖像的緊湊表示。隨后，該特征圖被展平并通過(guò)兩個(gè)全連接層，這些層混合這些特征并將它們壓縮為一個(gè)150維的圖像隱向量，用于概括束流圖像。

并行地，用于生成彎折段圖像的射頻相位和螺線管磁場(chǎng)（即控制旋鈕）被視為一個(gè)二維輸入向量，并通過(guò)四個(gè)全連接層，生成一個(gè)150維的旋鈕隱向量。該旋鈕隱向量與圖像隱向量拼接，并通過(guò)兩個(gè)全連接層進(jìn)行處理，中間使用ReLU[38]非線性激活函數(shù)，生成一個(gè)單一的150維“投影嵌入”。該嵌入是射頻-螺線管設(shè)置與彎折段處測(cè)量的x?y圖像的聯(lián)合表示。

對(duì)于數(shù)據(jù)集中的每個(gè)樣本，我們擁有：(i) 陰極處的分布，它定義了六維相空間的15個(gè)二維投影；(ii) 16組不同的射頻-螺線管參數(shù)對(duì)；以及 (iii) 彎折段處對(duì)應(yīng)的16幅實(shí)空間束流圖像。使用上述編碼器-旋鈕融合方法，16幅彎折段圖像中的每一幅都被映射為一個(gè)150維的投影嵌入。隨后，這16個(gè)嵌入被輸入到Transformer中，該Transformer應(yīng)用了三個(gè)具有六個(gè)頭的自注意力層。每個(gè)注意力頭學(xué)習(xí)如何在所有16個(gè)視角之間對(duì)信息進(jìn)行加權(quán)和組合，最終的Transformer輸出被合并為一個(gè)維度為1280的單一“束流表示”向量。

在第一階段，我們每次使用單個(gè)彎折段x?y圖像以及固定的射頻和螺線管磁場(chǎng)來(lái)訓(xùn)練模型。編碼器將每幅圖像和射頻-螺線管設(shè)置組合成一個(gè)特征向量，解碼器則利用Transformer[39]從中預(yù)測(cè)15個(gè)陰極相空間直方圖。此階段的目標(biāo)是教會(huì)網(wǎng)絡(luò)基本的逆映射：當(dāng)束流線配置固定時(shí)，陰極分布的變化如何在彎折段圖像中顯現(xiàn)。為了與第二階段保持一致，我們通過(guò)復(fù)制相同的單視角特征（附帶位置編碼）向Transformer輸入一個(gè)長(zhǎng)度為16的序列，但輸入仍然僅代表一個(gè)測(cè)量視角。這種單視角預(yù)訓(xùn)練為第二階段學(xué)習(xí)組合所有16個(gè)視角的信息之前提供了穩(wěn)定的初始化。

在第二階段，我們切換到完整的多視角設(shè)置。對(duì)于每個(gè)樣本，Transformer接收全部16幅彎折段x?y圖像及其對(duì)應(yīng)的射頻相位和螺線管磁場(chǎng)值，并被訓(xùn)練以重建一個(gè)一致的陰極六維相空間分布（15個(gè)輸出直方圖）。其核心思想是：相同的陰極分布在射頻-螺線管設(shè)置改變時(shí)會(huì)產(chǎn)生不同的彎折段圖像。通過(guò)學(xué)習(xí)這16個(gè)視角如何與同一個(gè)底層束流相關(guān)聯(lián)，網(wǎng)絡(luò)可以組合它們的互補(bǔ)約束，減少單圖像反演的模糊性，從而實(shí)現(xiàn)更可靠的陰極分布恢復(fù)。

在Transformer之后，解碼器[37]將1280維的束流表示映射回物理空間。它首先將該向量擴(kuò)展為一個(gè)粗糙的特征圖，然后應(yīng)用三個(gè)上采樣卷積層來(lái)重建64×64圖像。最終層產(chǎn)生15個(gè)輸出通道，每個(gè)通道對(duì)應(yīng)陰極處六維相空間分布的15個(gè)二維投影之一。這15個(gè)預(yù)測(cè)的直方圖使用結(jié)合泊松損失、平均絕對(duì)誤差和余弦相似度的復(fù)合損失函數(shù)與相應(yīng)的模擬真實(shí)直方圖進(jìn)行比較。

為了穩(wěn)定性，Transformer模塊在第一階段被凍結(jié)，以便編碼器和解碼器首先學(xué)習(xí)一致的映射，而無(wú)需額外的非線性在每一步都發(fā)生變化。僅憑單幅x?y圖像，僅靠編碼器-解碼器無(wú)法合理地重建完整的六維相空間；在第一階段，Transformer通過(guò)其注意力層重新處理相同的編碼圖像，增加缺失的復(fù)雜度，并生成更豐富的特征表示，使得六維近似變得可學(xué)習(xí)。在第二階段，我們隨后解凍Transformer，并將其與編碼器和解碼器一起訓(xùn)練，因?yàn)樵诖穗A段它必須學(xué)習(xí)如何將真正不同的x?y圖像（來(lái)自不同的射頻-螺線管設(shè)置）組合成單一一致的六維解。

3.2 損失函數(shù)

3.3 訓(xùn)練過(guò)程

為了優(yōu)化模型，我們?cè)谝欢〝?shù)量的訓(xùn)練周期（epochs）內(nèi)檢查最低的驗(yàn)證損失。模型將來(lái)自整個(gè)數(shù)據(jù)集的樣本分成稱為小批量（mini-batches）[44] 的小組，在一個(gè)更新步驟中處理它們，并使用 Adam 優(yōu)化器 [45]，該優(yōu)化器在訓(xùn)練期間提供學(xué)習(xí)率 [46]。小批量大小和學(xué)習(xí)率的選擇至關(guān)重要，因?yàn)樗鼧O大地影響模型的整體性能，即模型是否能從訓(xùn)練樣本中正確學(xué)習(xí)以及能否在訓(xùn)練集之外的數(shù)據(jù)集上表現(xiàn)良好。

圖 8 展示了第二階段（Stage 2）每個(gè)訓(xùn)練輪次（epoch）損失函數(shù)的變化過(guò)程，其中藍(lán)色、橙色、綠色和紅色分別代表批量大小（batch size）為 8、16、24 和 32。在此階段，與第一階段相比，數(shù)據(jù)集數(shù)量較少，因此我們檢查了較低批量大小下的性能。對(duì)于像 8 或 16 這樣較小的批量，存在梯度噪聲且收斂緩慢，而在較大的批量（如 24 和 32）上波動(dòng)減小。最終選擇了 32 的批量大小。第 5 輪之后出現(xiàn)的突增將在后文討論第二階段學(xué)習(xí)率的段落中解釋。需要注意的是，我們是在優(yōu)化了第一階段的批量大小和學(xué)習(xí)率之后，才進(jìn)行第二階段的優(yōu)化。一旦確定了批量大小，我們就開(kāi)始調(diào)整學(xué)習(xí)率。在第一階段，學(xué)習(xí)過(guò)程由編碼器和解碼器模塊完成，而如前所述，Transformer 保持凍結(jié)狀態(tài)。

3.4 交叉驗(yàn)證性能

交叉驗(yàn)證[47, 48]是一種用于準(zhǔn)確評(píng)估和預(yù)測(cè)機(jī)器學(xué)習(xí)模型性能并穩(wěn)定模型泛化能力的技術(shù)。它涉及將有限的可用數(shù)據(jù)反復(fù)劃分為"訓(xùn)練集"和"測(cè)試集"并重復(fù)使用。這可以防止過(guò)擬合，并有助于創(chuàng)建不受數(shù)據(jù)偏差影響的可靠模型。在此，我們采用五折交叉驗(yàn)證，即將數(shù)據(jù)分為五部分，在每次運(yùn)行中，使用其中四折進(jìn)行訓(xùn)練，剩余一折用于驗(yàn)證；最終性能則取五次運(yùn)行的平均值。在進(jìn)行交叉驗(yàn)證之前，我們首先運(yùn)行了一次單獨(dú)的訓(xùn)練，以確定每個(gè)階段的最優(yōu)批量大小和學(xué)習(xí)率。隨后，我們使用各自的數(shù)據(jù)集（其規(guī)模不同）分別對(duì)第一階段和第二階段進(jìn)行交叉驗(yàn)證，同時(shí)保持各階段特定的最優(yōu)超參數(shù)固定不變。

圖 11 展示了第一階段（Stage-1）訓(xùn)練中 5 折交叉驗(yàn)證的損失函數(shù)演變過(guò)程。實(shí)線表示訓(xùn)練損失，虛線表示驗(yàn)證損失，每一折的訓(xùn)練-驗(yàn)證對(duì)采用相同的顏色繪制：藍(lán)色、橙色、綠色、紅色和紫色分別代表第 1 折、第 2 折、第 3 折、第 4 折和第 5 折。各折之間觀察到一些差異，這源于每一折的數(shù)據(jù)子集不同，從而導(dǎo)致模型性能有所變化。圖 12 以同樣的方式總結(jié)了第二階段的 5 折性能。在此，第 2 折和第 3 折顯示出的訓(xùn)練損失和驗(yàn)證損失差異較其他折更大，而第 5 折顯示的差異最小。然而，這些差異均保持在較小的損失值范圍內(nèi)。為了從我們的兩階段模型中獲得一致的結(jié)果，我們對(duì)所有折的性能進(jìn)行了平均。

4 基于合成分布的性能評(píng)估

為評(píng)估我們構(gòu)建的CNN模型的性能，我們采用兩種方法進(jìn)行了測(cè)試。一種方法使用模擬數(shù)據(jù)，另一種方法則采用來(lái)自KEK-ATF的實(shí)驗(yàn)數(shù)據(jù)。

在基于模擬的測(cè)試中，我們將源自陰極處模擬束流分布、并通過(guò)不同射頻-螺線管設(shè)置獲得的16幅實(shí)空間分布輸入CNN。隨后，我們將重建得到的陰極處分布與提供給模擬的原始分布進(jìn)行比較。

在實(shí)驗(yàn)數(shù)據(jù)測(cè)試中，雖然陰極上的完整相空間分布是未知的，但可以根據(jù)照射光陰極的激光的形狀和時(shí)間分布，推斷出所產(chǎn)生的束流的 x ? y 分布和隨時(shí)間變化的分布。將這些推斷出的分布與重建的相空間分布進(jìn)行了比較。此外，由于動(dòng)量空間分布是由陰極的熱分布決定的，因此對(duì)其有效性進(jìn)行了評(píng)估。

4.1 基于模擬測(cè)試集的驗(yàn)證

需要注意的是，訓(xùn)練僅使用傅里葉圖像進(jìn)行，且“彗星”分布被排除在訓(xùn)練數(shù)據(jù)之外。因此，模型對(duì)這些形狀沒(méi)有先驗(yàn)知識(shí)，成功的重建表明其能夠外推到訓(xùn)練所提供的分布之外。

5 實(shí)驗(yàn)驗(yàn)證

在模型經(jīng)過(guò)充分的合成束流分布訓(xùn)練后，我們接下來(lái)將其應(yīng)用于實(shí)際加速器，以展示其在真實(shí)束流數(shù)據(jù)上的性能。作為一個(gè)合適的測(cè)試案例，我們選擇了位于筑波（Tsukuba）校區(qū)的 KEK-ATF 注入器。與該算法的需求一致，ATF 注入器在彎折段（chicane）內(nèi)包含一個(gè)熒光屏，從而允許通過(guò)改變射頻（RF）和螺線管參數(shù)來(lái)觀察束流展寬的變化，進(jìn)而觀察縱向相空間分布所 induced 的變化。憑借相對(duì)簡(jiǎn)單的裝置，我們能夠在實(shí)驗(yàn)上證明 CNN 技術(shù)的可行性和有效性。

5.1 KEK-ATF 注入器

與本研究相關(guān)的ATF束流線部分如圖17的示意圖所示。其始于一臺(tái)配備3.6單元常溫腔的2856 MHz S波段射頻電子槍，該電子槍通過(guò)紫外激光照射光陰極產(chǎn)生電子束。射頻電子槍的峰值加速梯度約為65 MV/m，在其出口處產(chǎn)生能量約為6 MeV的電子束團(tuán)。激光脈沖波長(zhǎng)為266 nm，重復(fù)頻率為3.125 Hz [52]。電子束離開(kāi)射頻槍后，立即通過(guò)一個(gè)螺線管、一段漂移空間，最后進(jìn)入由四個(gè)二極磁鐵組成的彎折段（chicane）區(qū)域，每個(gè)二極磁鐵在水平面內(nèi)使束流偏轉(zhuǎn)22.7°，從而在x方向產(chǎn)生約80 mm的凈軌道偏移。

在KEK-ATF設(shè)施的彎折段區(qū)域，通過(guò)改變射頻電子槍相位和螺線管磁場(chǎng)，測(cè)量了三組各16幅的x?y束流圖像。在KEK-ATF，激光光斑尺寸通過(guò)一個(gè)由兩個(gè)凸透鏡組成的望遠(yuǎn)鏡式光束擴(kuò)束系統(tǒng)進(jìn)行調(diào)節(jié)，其中輸入激光光斑尺寸會(huì)根據(jù)系統(tǒng)焦距的變化而擴(kuò)大或縮小。焦距的改變通過(guò)移動(dòng)下游的凸透鏡（稱為變焦透鏡）來(lái)實(shí)現(xiàn)，同時(shí)保持上游透鏡固定。在我們的實(shí)驗(yàn)過(guò)程中，我們通過(guò)調(diào)整變焦透鏡位置至三個(gè)設(shè)置：?1000 μm、?1300 μm和?1150 μm，來(lái)改變光學(xué)系統(tǒng)，從而在陰極表面產(chǎn)生三種不同的激光光斑尺寸。隨后，使用CCD相機(jī)測(cè)量激光光斑尺寸，并使用位于彎折段中心的熒光屏監(jiān)測(cè)器測(cè)量所得圖像。

射頻相位的調(diào)制會(huì)改變束流發(fā)射過(guò)程中陰極表面的電場(chǎng)。受肖特基效應(yīng)（即電場(chǎng)增強(qiáng)時(shí)會(huì)降低有效陰極功函數(shù)）影響，改變射頻相位會(huì)導(dǎo)致發(fā)射電流（束團(tuán)電荷量）發(fā)生變化。因此，在不同射頻相位值下采集的束流圖像所測(cè)得的束流電流會(huì)有所不同。

5.2 實(shí)驗(yàn)結(jié)果

6 六維相空間重建總結(jié)

我們展示了一種利用兩階段CNN模型進(jìn)行完整六維相空間重建的新穎方法。該方法僅需屏幕上十六幅實(shí)空間束流圖像，這些圖像可以很容易地從加速器設(shè)施中獲得。在我們的案例中，在KEK-ATF進(jìn)行測(cè)量這些束流圖像的實(shí)驗(yàn)僅耗時(shí)五分鐘。因此，未來(lái)將模型與束流監(jiān)測(cè)器連接起來(lái)，將使其能夠自動(dòng)采集圖像并實(shí)時(shí)重建六維相空間。通常，該模型旨在分兩步解決束流動(dòng)力學(xué)問(wèn)題：第一步，在給定束流線配置（螺線管和射頻相位保持恒定）的情況下，學(xué)習(xí)上游六維束流的變化及其對(duì)測(cè)量點(diǎn)處投影二維束流的影響；第二步，理解恒定的六維束流在不同射頻-螺線管配置下如何演化為不同的二維投影圖像。

采用這種兩步策略為模型求解六維相空間分布提供了必要的復(fù)雜性。我們已經(jīng)看到，簡(jiǎn)單地使用單一階段并增加神經(jīng)網(wǎng)絡(luò)層數(shù)或神經(jīng)元數(shù)量是不夠的，因?yàn)槊總€(gè)階段的機(jī)制是不同的。盡管第二階段用于組合實(shí)空間圖像以獲取相空間，但如果在沒(méi)有第一階段的情況下使用它，CNN通常會(huì)通過(guò)組合所有圖像產(chǎn)生一個(gè)平均估計(jì)。因此，第一階段的訓(xùn)練使模型克服了這種跳過(guò)束流分布中重要細(xì)節(jié)的傾向。因此，需要這兩個(gè)階段才能使CNN具備處理復(fù)雜束流結(jié)構(gòu)的能力。

CNN的使用幫助我們作為特征圖從束流圖像中提取信息，如束流形狀、尺寸、位置等。當(dāng)我們將圖像隱變量與射頻和螺線管設(shè)置的隱變量相結(jié)合時(shí)，我們給予后者兩倍的權(quán)重。這反映了射頻-螺線管主要負(fù)責(zé)在橫向和縱向方向上旋轉(zhuǎn)相空間這一事實(shí)。因此，在其他加速器設(shè)施中，如果調(diào)節(jié)參數(shù)不同，例如四極磁鐵或橫向偏轉(zhuǎn)腔，它們可以遵循相同的規(guī)則來(lái)強(qiáng)化這些負(fù)責(zé)旋轉(zhuǎn)相空間的組件的效應(yīng)。在本工作中，我們是在由傅里葉級(jí)數(shù)形狀構(gòu)建的合成陰極分布上進(jìn)行訓(xùn)練的，但在其他設(shè)施中，相同的框架可以改為在沿束流線其他位置的模擬圖像上進(jìn)行訓(xùn)練。

然而，上述樣本中的其他變量顯示出更好的一致性，其值分別為 0.88–1.10。鑒于目前處于開(kāi)發(fā)的早期階段，該模型在重建束流形狀方面總體上表現(xiàn)出一致的性能。本研究的一個(gè)重要方面是我們不需要可微分模擬，因此該方法可以直接與標(biāo)準(zhǔn)加速器代碼一起使用。本研究的所有訓(xùn)練均在單塊 NVIDIA RTX A400 GPU 上進(jìn)行，該 GPU 易于獲取且價(jià)格適中。

作為一種數(shù)據(jù)驅(qū)動(dòng)的方法，該模型存在一些局限性，也有幾種提高其能力和準(zhǔn)確性的途徑。CNN 僅能在訓(xùn)練數(shù)據(jù)中所代表的束流條件、機(jī)器設(shè)置和傅里葉級(jí)數(shù)階數(shù)范圍內(nèi)可靠地執(zhí)行，因此其預(yù)測(cè)在這些范圍之外可能會(huì)下降。此外，盡管訓(xùn)練和驗(yàn)證損失參數(shù)表明不存在過(guò)擬合，但該模型仍然容易受到待重建相空間參數(shù)覆蓋不完整的影響，并且可能會(huì)陷入一組“偏好”值。此外，此處展示的超參數(shù)掃描僅限于狹窄的范圍，通過(guò)更廣泛的掃描可能會(huì)實(shí)現(xiàn)進(jìn)一步的改進(jìn)。然而，該模型展示了其在訓(xùn)練之外的測(cè)試束流形狀上進(jìn)行外推的能力。因此，如果我們?cè)诟道锶~模式中納入更高階的頻率并在超參數(shù)上增加更多變化，可以預(yù)期未來(lái)的重建性能會(huì)有所提高。

7 結(jié)論

原文鏈接：https://arxiv.org/pdf/2603.02733

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.