網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

貝葉斯神經(jīng)網(wǎng)絡(luò)的極小極大性與容許性

2026-04-20 15:07:57　來源: CreateAMind

上海舉報(bào)

分享至

Minimaxity and Admissibility of Bayesian Neural Networks

貝葉斯神經(jīng)網(wǎng)絡(luò)的極小極大性與容許性

https://arxiv.org/pdf/2604.04673

摘要

貝葉斯神經(jīng)網(wǎng)絡(luò)（BNNs）為深度學(xué)習(xí)模型中的推斷提供了一種自然的概率表述。盡管它們廣受歡迎，但從統(tǒng)計(jì)決策理論的視角來看，其最優(yōu)性所受到的關(guān)注卻十分有限。在本文中，我們研究了在二次損失下，由深度全連接前饋ReLU貝葉斯神經(jīng)網(wǎng)絡(luò)在正態(tài)位置模型中誘導(dǎo)出的決策規(guī)則。我們證明，對(duì)于固定的先驗(yàn)尺度，所誘導(dǎo)的貝葉斯決策規(guī)則并非極小極大最優(yōu)的。隨后，我們?cè)贐NN先驗(yàn)的有效輸出方差上提出了一種超先驗(yàn)，該超先驗(yàn)?zāi)墚a(chǎn)生超調(diào)和的平方根邊際密度，從而證明所得的決策規(guī)則同時(shí)具備容許性與極小極大性。我們進(jìn)一步將這些結(jié)果從二次損失設(shè)定擴(kuò)展到具有庫(kù)爾貝克-萊布勒（KL）損失的預(yù)測(cè)密度估計(jì)問題。最后，我們通過數(shù)值模擬驗(yàn)證了我們的理論發(fā)現(xiàn)。

關(guān)鍵詞： 貝葉斯神經(jīng)網(wǎng)絡(luò)；貝葉斯估計(jì)；極小極大性；多元正態(tài)均值；恰當(dāng)貝葉斯；二次損失。

1 引言

在過去幾年中，神經(jīng)網(wǎng)絡(luò)迅速普及，并在圖像分類、時(shí)間序列預(yù)測(cè)和語(yǔ)言建模等廣泛任務(wù)中展現(xiàn)出卓越的性能。它們的成功在很大程度上歸功于其建模靈活性，以及提高了其可操作性的計(jì)算硬件進(jìn)步，例如圖形處理單元（GPU）的廣泛應(yīng)用。貝葉斯神經(jīng)網(wǎng)絡(luò)（BNNs）通過在權(quán)重上設(shè)置先驗(yàn)分布來擴(kuò)展標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)，從而能夠?qū)崿F(xiàn)概率建模和不確定性量化，例如通過可信區(qū)間[2, 22]。憑借其靈活性和表示不確定性的能力，BNNs被廣泛應(yīng)用于醫(yī)學(xué)、金融和天氣預(yù)報(bào)等對(duì)不確定性至關(guān)重要的領(lǐng)域。例如，[16]使用BNN對(duì)乳腺癌術(shù)后患者的預(yù)后進(jìn)行分析。類似地，[7]使用BNNs預(yù)測(cè)新冠疫情爆發(fā)前及期間的股票價(jià)格。在[17]中，開發(fā)了兩種BNNs：一種用于預(yù)測(cè)嚴(yán)重冰雹的尺寸，另一種用于對(duì)冰雹尺寸進(jìn)行分類。

大量文獻(xiàn)考察了BNNs的理論性質(zhì)。例如，[21]表明，在極限情況下，具有無(wú)限多隱藏單元的BNNs會(huì)收斂于高斯過程。隨后的研究（包括[19]）更深入地探討了這種高斯過程行為。[12]表明，在訓(xùn)練和推理過程中應(yīng)用Dropout近似對(duì)應(yīng)于深度高斯過程中的貝葉斯推斷。其他研究方向建立了后驗(yàn)集中結(jié)果。例如，[23]針對(duì)尖峰-平板先驗(yàn)證明了此類結(jié)果。類似地，[8]建立了具有重尾先驗(yàn)分布的BNNs的后驗(yàn)收縮結(jié)果，并將這些結(jié)果擴(kuò)展到變分貝葉斯的類比形式。然而，許多理論研究依賴于高度技術(shù)化且不現(xiàn)實(shí)的假設(shè)，這限制了它們的適用性。例如，與許多理論貝葉斯深度學(xué)習(xí)文獻(xiàn)不同，我們的分析不需要任何深度或?qū)挾入S樣本量增長(zhǎng)的網(wǎng)絡(luò)架構(gòu)縮放設(shè)定。該結(jié)果適用于任意固定的有限架構(gòu)，這使其與實(shí)際應(yīng)用中使用的設(shè)置直接相關(guān)。

盡管關(guān)于BNNs的理論研究十分豐富，但從統(tǒng)計(jì)決策理論視角出發(fā)的研究卻寥寥無(wú)幾。統(tǒng)計(jì)決策理論為在不確定性下選擇估計(jì)量提供了一個(gè)原則性框架。這一視角有助于解釋BNNs在各任務(wù)中強(qiáng)大的實(shí)證表現(xiàn)，并為架構(gòu)選擇（如先驗(yàn)分布和網(wǎng)絡(luò)深度）提供指導(dǎo)。在本工作中，我們從決策理論的視角研究BNNs的性能。

具體而言，我們研究了它們?cè)诙螕p失下的正態(tài)位置模型中的風(fēng)險(xiǎn)。盡管正態(tài)位置問題相對(duì)簡(jiǎn)單，但它已足以讓我們識(shí)別出哪些BNN建模選擇能在極小極大意義上產(chǎn)生性能良好的估計(jì)量。關(guān)于正態(tài)位置問題中估計(jì)量的極小極大最優(yōu)性已有豐富的文獻(xiàn)，涵蓋了多種極小極大標(biāo)準(zhǔn)和證明技術(shù)，這些內(nèi)容凸顯了先驗(yàn)分布、誘導(dǎo)的后驗(yàn)分布以及所得決策規(guī)則的影響。因此，正態(tài)位置問題提供了一個(gè)放大鏡，突顯了BNNs的哪些方面表現(xiàn)良好，以及標(biāo)準(zhǔn)BNN先驗(yàn)在何處可以改進(jìn)，例如通過引入收縮先驗(yàn)。

BNNs面臨的一個(gè)核心挑戰(zhàn)是在網(wǎng)絡(luò)權(quán)重上構(gòu)建信息豐富的恰當(dāng)先驗(yàn)，這些先驗(yàn)既要在計(jì)算上易于處理，又要傾向于產(chǎn)生具有理想頻率學(xué)派性質(zhì)的解。事實(shí)上，[22]將先驗(yàn)設(shè)定視為貝葉斯深度學(xué)習(xí)中最突出的未解決問題之一，并強(qiáng)調(diào)網(wǎng)絡(luò)參數(shù)上的先驗(yàn)會(huì)誘導(dǎo)出函數(shù)空間行為，而該行為最終主導(dǎo)了泛化能力。在此背景下，我們的貢獻(xiàn)是在一個(gè)典型設(shè)定中，為這一問題提供清晰的決策理論解釋。具體而言，我們證明了標(biāo)準(zhǔn)BNNs所誘導(dǎo)的貝葉斯規(guī)則在二次損失下的正態(tài)位置問題中并非極小極大最優(yōu)的，這表明廣泛使用的貝葉斯設(shè)定可能無(wú)法滿足這一基本的最優(yōu)性標(biāo)準(zhǔn)。關(guān)鍵在于，這一缺陷并非貝葉斯神經(jīng)建模本身所固有的，而是源于超先驗(yàn)的選擇：在適當(dāng)?shù)某闰?yàn)下，所誘導(dǎo)的貝葉斯規(guī)則同時(shí)具備極小極大性和容許性。通過將這些結(jié)果擴(kuò)展到預(yù)測(cè)密度估計(jì)，我們進(jìn)一步表明，先驗(yàn)設(shè)計(jì)的影響不僅限于點(diǎn)估計(jì)，還會(huì)直接影響預(yù)測(cè)性能。更廣泛地說，這些發(fā)現(xiàn)表明，貝葉斯深度學(xué)習(xí)的未來不僅取決于使神經(jīng)貝葉斯過程更具表達(dá)力，還取決于確保其所采用的先驗(yàn)?zāi)軌蛘T導(dǎo)出決策理論上嚴(yán)謹(jǐn)?shù)囊?guī)則。通過這種方式，本文解決了當(dāng)代貝葉斯深度學(xué)習(xí)中的一個(gè)核心關(guān)切：用理論證明的標(biāo)準(zhǔn)取代啟發(fā)式的先驗(yàn)選擇，以判定神經(jīng)過程何時(shí)符合、何時(shí)不符合決策理論的合理性。

鑒于[20]提出的先驗(yàn)-數(shù)據(jù)擬合網(wǎng)絡(luò)（PFNs）的興起，這一視角尤為及時(shí)。PFNs通過訓(xùn)練Transformer來近似對(duì)從先驗(yàn)中采樣的任務(wù)進(jìn)行貝葉斯預(yù)測(cè)。諸如TabPFN [15]等方法表明，該范式在實(shí)踐中具有極強(qiáng)的威力，基于Transformer的PFN在小型表格預(yù)測(cè)問題上達(dá)到了最先進(jìn)的性能。正因?yàn)镻FNs學(xué)習(xí)近似由所選先驗(yàn)誘導(dǎo)的預(yù)測(cè)分布，我們的結(jié)果表明，先驗(yàn)設(shè)定不僅僅是一種建模上的便利，而是決定所學(xué)預(yù)測(cè)器是否具備堅(jiān)實(shí)決策理論基礎(chǔ)的核心因素。從這個(gè)意義上講，PFNs的興起使得本分析尤為重要：隨著PFN類方法日益突出，理解底層先驗(yàn)何時(shí)能產(chǎn)生極小極大且容許的規(guī)則變得至關(guān)重要。

本文的結(jié)構(gòu)安排如下。在第1節(jié)中，我們介紹符號(hào)記號(hào)，回顧貫穿全文所使用的正態(tài)位置模型的統(tǒng)計(jì)決策理論結(jié)果，描述由固定尺度ReLU BNN所誘導(dǎo)的先驗(yàn)密度的一般形式，并推導(dǎo)出該先驗(yàn)的一種更為便捷的正態(tài)分布尺度混合表示形式。在第2節(jié)中，我們證明由固定尺度ReLU BNN先驗(yàn)所誘導(dǎo)的邊際密度的平方根并非超調(diào)和的。隨后，我們推導(dǎo)相應(yīng)的決策規(guī)則，并證明其并非極小極大最優(yōu)的。在第3節(jié)中，我們?cè)贐NN先驗(yàn)的尺度上引入超先驗(yàn)，并證明所得先驗(yàn)會(huì)誘導(dǎo)出一個(gè)極小極大決策規(guī)則。在第4節(jié)中，我們將上述結(jié)果擴(kuò)展至庫(kù)爾貝克-萊布勒（KL）損失下的預(yù)測(cè)密度估計(jì)問題，表明所提出的超先驗(yàn)在該設(shè)定下同樣能誘導(dǎo)出一個(gè)極小極大規(guī)則。最后，在第5節(jié)中，我們通過模擬實(shí)驗(yàn)闡明我們的理論結(jié)果，將固定尺度BNN先驗(yàn)與所提出的層次BNN先驗(yàn)，同由其他流行先驗(yàn)（包括采用Dropout的BNN以及馬蹄先驗(yàn)）所誘導(dǎo)的決策規(guī)則進(jìn)行比較。證明概要列于正文，完整證明則置于補(bǔ)充材料中。

2 固定尺度的深度貝葉斯 ReLU 網(wǎng)絡(luò)不是極小極大的

歐幾里得空間上的徑向函數(shù)是指其在任一點(diǎn)處的值僅取決于該點(diǎn)到某一固定中心的距離的函數(shù)。眾所周知，徑向函數(shù)滿足以下微分方程。

極小極大性提供了最壞情況風(fēng)險(xiǎn)的一致界，而超調(diào)和性是邊緣密度平方根的一個(gè)逐點(diǎn)準(zhǔn)則。當(dāng)超調(diào)和性不成立時(shí)，它僅表明進(jìn)入密度的局部量在樣本空間的某些區(qū)域變得不利，這往往會(huì)導(dǎo)致該區(qū)域的風(fēng)險(xiǎn)膨脹。然而，由于風(fēng)險(xiǎn)是對(duì)所有數(shù)據(jù)值的平均，違反該準(zhǔn)則的區(qū)域可能攜帶可忽略的概率質(zhì)量，因此其本身未必排除極小極大性。盡管如此，超調(diào)和性的失敗是一個(gè)警示信號(hào)，需要單獨(dú)的論證來得出誘導(dǎo)決策規(guī)則不是極小極大的結(jié)論。

從這個(gè)表達(dá)式來看，該估計(jì)量具有自然的收縮形式，因?yàn)樗?0 收縮。然而，極小極大性取決于在 ∣ ∣ Y ∣ ∣上的一致性收縮輪廓。正如我們?cè)谧C明中所示，當(dāng) ∣ ∣ θ ∣ ∣ ∣ 很大時(shí)，風(fēng)險(xiǎn)超過了極小極大水平。這是因?yàn)楣潭ǔ叨日T導(dǎo)出的先驗(yàn)預(yù)測(cè)密度尾部過輕，導(dǎo)致對(duì)于大信號(hào)的收縮適應(yīng)性不足。這意味著固定尺度的 BNN 先驗(yàn)可能會(huì)導(dǎo)致過程在最壞情況下的表現(xiàn)次優(yōu)，盡管它們?cè)诘湫蛿?shù)據(jù)集上表現(xiàn)良好。因此，在第 3 節(jié)中，我們引入尺度混合以恢復(fù)極小極大保證，并針對(duì)所有 ∣ ∣ θ ∣ ∣ > 0達(dá)到極小極大風(fēng)險(xiǎn)（或更低）。我們?cè)谘a(bǔ)充材料中提供了定理 2.6 的完整證明。我們首先將固定尺度 BNN 的貝葉斯規(guī)則重寫為 Barancik 形式：

3 誘導(dǎo)極小極大貝葉斯決策規(guī)則的尺度超先驗(yàn)示例

從第 2 節(jié)可知，由固定尺度貝葉斯神經(jīng)網(wǎng)絡(luò)（BNN）先驗(yàn)所誘導(dǎo)的邊緣密度不是超調(diào)和的，且其誘導(dǎo)的決策規(guī)則也不是極小極大的。直觀地說，這是由于 BNN 先驗(yàn)密度的尾部過輕所致。因此，我們?cè)诔叨壬显O(shè)置一個(gè)超先驗(yàn)以誘導(dǎo)足夠重的尾部，從而得到一種極小極大決策規(guī)則：當(dāng) ∣ ∣ y ∣ ∣ 很大時(shí)，該決策規(guī)則趨向于 y 。我們選擇 BetaPrime
先驗(yàn)，因?yàn)樗哂兄匚蔡匦裕试S通過增加方差來解釋大信號(hào)，而不是對(duì)其進(jìn)行強(qiáng)制收縮。由此得出以下定理。

值得注意的是，盡管重尾分布在本文中有理論動(dòng)機(jī)，但在貝葉斯深度學(xué)習(xí)中也觀察到它們?cè)趯?shí)踐中出現(xiàn)。特別是，眾所周知，在使用隨機(jī)梯度下降訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)期間，權(quán)重變得越來越重尾。因此，增加深度，更重要的是，引入適當(dāng)?shù)姆讲畛闰?yàn)可能有助于減輕可能錯(cuò)誤設(shè)定的先驗(yàn)（例如權(quán)重的標(biāo)準(zhǔn)高斯先驗(yàn)）的影響，正如第 1.4 節(jié)所討論的那樣。關(guān)于這種行為及其與冷后驗(yàn)效應(yīng)（cold posterior effect）的關(guān)系的更多信息，請(qǐng)參見 [9]。

鑒于混合密度的形式，我們還可以推導(dǎo)出誘導(dǎo)的貝葉斯決策規(guī)則的容許性。

Strawderman 先驗(yàn) [26] 在正態(tài)均值問題的收縮因子上放置了一個(gè) Beta 超先驗(yàn)，誘導(dǎo)出了一個(gè)既是極小極大又是容許的正常貝葉斯估計(jì)量。其關(guān)鍵機(jī)制在于誘導(dǎo)出的邊緣密度具有足夠重的尾部——具體而言，其平方根是超調(diào)和的（superharmonic）——這正是保證極小極大性的條件。在 BNN 設(shè)定中，對(duì)輸出方差采用 Beta-Prime 超先驗(yàn)同樣產(chǎn)生了一個(gè)超調(diào)和的平方根邊緣密度，從而導(dǎo)出了一個(gè)極小極大容許貝葉斯規(guī)則。因此，Beta-Prime 構(gòu)造是 Strawderman 先驗(yàn)的自然類比，并已針對(duì)網(wǎng)絡(luò)架構(gòu)產(chǎn)生的參數(shù)化進(jìn)行了適配。

4 預(yù)測(cè)密度問題中的極小極大性和容許性

在本節(jié)中，我們考慮 [5] 和 [14] 中討論的估計(jì)預(yù)測(cè)密度的問題。特別是，我們可以將正態(tài)位置模型在二次損失下的容許貝葉斯決策規(guī)則擴(kuò)展到預(yù)測(cè)密度估計(jì)設(shè)定中。

4.1 決策問題

4.2 極小極大性與容許性

在本節(jié)中，我們證明：由在有效輸出方差上具有 BetaPrime 超先驗(yàn)的深度 ReLU BNN 所產(chǎn)生的先驗(yàn)分布所誘導(dǎo)的貝葉斯預(yù)測(cè)密度是極小極大的（minimax）且是容許的（admissible）。

我們已經(jīng)證明，由帶有 BetaPrime 超先驗(yàn)的深度 ReLU 貝葉斯神經(jīng)網(wǎng)絡(luò)所產(chǎn)生的先驗(yàn)，誘導(dǎo)出了一個(gè)極小極大決策規(guī)則，該規(guī)則既適用于在二次風(fēng)險(xiǎn)下估計(jì)正態(tài)位置模型的均值，也適用于在 Kullback-Leibler 風(fēng)險(xiǎn)下的正態(tài)位置模型設(shè)定中估計(jì)預(yù)測(cè)密度。我們的結(jié)果表明，極小極大性在方差重縮放下是穩(wěn)定的。也就是說，預(yù)測(cè)改進(jìn)并不綁定于特定的噪聲水平，并且避免了我們需要針對(duì)每種預(yù)測(cè)方差組合重新檢查超調(diào)和性條件。特別是，鑒于 [14] 中的引理 2，該先驗(yàn)分布在這兩個(gè)問題中通過收縮默認(rèn)估計(jì)量，誘導(dǎo)出了類似的收縮行為。在二次風(fēng)險(xiǎn)設(shè)定中，這是最大似然估計(jì)量 Y ，而在 Kullback-Leibler 風(fēng)險(xiǎn)設(shè)定中，這是在均勻先驗(yàn)下的貝葉斯預(yù)測(cè)密度。我們還證明了誘導(dǎo)出的貝葉斯預(yù)測(cè)密度是容許的。

5 模擬示例

5.1 徑向決策規(guī)則模擬

回顧第 2 節(jié)，由固定尺度貝葉斯神經(jīng)網(wǎng)絡(luò)（BNN）誘導(dǎo)的決策規(guī)則是

5.2 依賴于稀疏性的模擬

6 結(jié)論

我們已經(jīng)證明，在二次損失下，由深度、固定尺度的 ReLU BNN 誘導(dǎo)的決策規(guī)則在正態(tài)位置模型中不是極小極大的（minimax），因?yàn)橄闰?yàn)預(yù)測(cè)密度具有拉伸指數(shù)尾部，這對(duì)大信號(hào)施加了過度保守的收縮。隨后，我們?cè)诰W(wǎng)絡(luò)先驗(yàn)的有效輸出方差上提出了一個(gè) BetaPrime 超先驗(yàn)，它通過誘導(dǎo)足夠重的尾部來恢復(fù)極小極大性：它對(duì)弱信號(hào)向原點(diǎn)強(qiáng)烈收縮，并對(duì)大信號(hào)足夠快地減少收縮。我們進(jìn)一步確立了誘導(dǎo)貝葉斯規(guī)則的容許性（admissibility），并將極小極大性和容許性結(jié)果都擴(kuò)展到了 Kullback–Leibler 損失下的預(yù)測(cè)密度估計(jì)。這些理論性質(zhì)在二次損失下的數(shù)值模擬研究中得到了驗(yàn)證。未來工作的一個(gè)有趣方向是刻畫那些誘導(dǎo)極小極大決策規(guī)則的更廣泛的超先驗(yàn)族；一條自然的途徑是利用 Fox-H 函數(shù) [18]，它包含了許多超先驗(yàn)族，包括此處提出的 BetaPrime 超先驗(yàn)。

原文鏈接：https://arxiv.org/pdf/2604.04673

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.