Minimaxity and Admissibility of Bayesian Neural Networks
貝葉斯神經(jīng)網(wǎng)絡(luò)的極小極大性與容許性
https://arxiv.org/pdf/2604.04673
![]()
![]()
摘要
貝葉斯神經(jīng)網(wǎng)絡(luò)(BNNs)為深度學(xué)習(xí)模型中的推斷提供了一種自然的概率表述。盡管它們廣受歡迎,但從統(tǒng)計(jì)決策理論的視角來看,其最優(yōu)性所受到的關(guān)注卻十分有限。在本文中,我們研究了在二次損失下,由深度全連接前饋ReLU貝葉斯神經(jīng)網(wǎng)絡(luò)在正態(tài)位置模型中誘導(dǎo)出的決策規(guī)則。我們證明,對(duì)于固定的先驗(yàn)尺度,所誘導(dǎo)的貝葉斯決策規(guī)則并非極小極大最優(yōu)的。隨后,我們?cè)贐NN先驗(yàn)的有效輸出方差上提出了一種超先驗(yàn),該超先驗(yàn)?zāi)墚a(chǎn)生超調(diào)和的平方根邊際密度,從而證明所得的決策規(guī)則同時(shí)具備容許性與極小極大性。我們進(jìn)一步將這些結(jié)果從二次損失設(shè)定擴(kuò)展到具有庫(kù)爾貝克-萊布勒(KL)損失的預(yù)測(cè)密度估計(jì)問題。最后,我們通過數(shù)值模擬驗(yàn)證了我們的理論發(fā)現(xiàn)。
關(guān)鍵詞: 貝葉斯神經(jīng)網(wǎng)絡(luò);貝葉斯估計(jì);極小極大性;多元正態(tài)均值;恰當(dāng)貝葉斯;二次損失。
1 引言
在過去幾年中,神經(jīng)網(wǎng)絡(luò)迅速普及,并在圖像分類、時(shí)間序列預(yù)測(cè)和語(yǔ)言建模等廣泛任務(wù)中展現(xiàn)出卓越的性能。它們的成功在很大程度上歸功于其建模靈活性,以及提高了其可操作性的計(jì)算硬件進(jìn)步,例如圖形處理單元(GPU)的廣泛應(yīng)用。貝葉斯神經(jīng)網(wǎng)絡(luò)(BNNs)通過在權(quán)重上設(shè)置先驗(yàn)分布來擴(kuò)展標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò),從而能夠?qū)崿F(xiàn)概率建模和不確定性量化,例如通過可信區(qū)間[2, 22]。憑借其靈活性和表示不確定性的能力,BNNs被廣泛應(yīng)用于醫(yī)學(xué)、金融和天氣預(yù)報(bào)等對(duì)不確定性至關(guān)重要的領(lǐng)域。例如,[16]使用BNN對(duì)乳腺癌術(shù)后患者的預(yù)后進(jìn)行分析。類似地,[7]使用BNNs預(yù)測(cè)新冠疫情爆發(fā)前及期間的股票價(jià)格。在[17]中,開發(fā)了兩種BNNs:一種用于預(yù)測(cè)嚴(yán)重冰雹的尺寸,另一種用于對(duì)冰雹尺寸進(jìn)行分類。
大量文獻(xiàn)考察了BNNs的理論性質(zhì)。例如,[21]表明,在極限情況下,具有無(wú)限多隱藏單元的BNNs會(huì)收斂于高斯過程。隨后的研究(包括[19])更深入地探討了這種高斯過程行為。[12]表明,在訓(xùn)練和推理過程中應(yīng)用Dropout近似對(duì)應(yīng)于深度高斯過程中的貝葉斯推斷。其他研究方向建立了后驗(yàn)集中結(jié)果。例如,[23]針對(duì)尖峰-平板先驗(yàn)證明了此類結(jié)果。類似地,[8]建立了具有重尾先驗(yàn)分布的BNNs的后驗(yàn)收縮結(jié)果,并將這些結(jié)果擴(kuò)展到變分貝葉斯的類比形式。然而,許多理論研究依賴于高度技術(shù)化且不現(xiàn)實(shí)的假設(shè),這限制了它們的適用性。例如,與許多理論貝葉斯深度學(xué)習(xí)文獻(xiàn)不同,我們的分析不需要任何深度或?qū)挾入S樣本量增長(zhǎng)的網(wǎng)絡(luò)架構(gòu)縮放設(shè)定。該結(jié)果適用于任意固定的有限架構(gòu),這使其與實(shí)際應(yīng)用中使用的設(shè)置直接相關(guān)。
盡管關(guān)于BNNs的理論研究十分豐富,但從統(tǒng)計(jì)決策理論視角出發(fā)的研究卻寥寥無(wú)幾。統(tǒng)計(jì)決策理論為在不確定性下選擇估計(jì)量提供了一個(gè)原則性框架。這一視角有助于解釋BNNs在各任務(wù)中強(qiáng)大的實(shí)證表現(xiàn),并為架構(gòu)選擇(如先驗(yàn)分布和網(wǎng)絡(luò)深度)提供指導(dǎo)。在本工作中,我們從決策理論的視角研究BNNs的性能。
具體而言,我們研究了它們?cè)诙螕p失下的正態(tài)位置模型中的風(fēng)險(xiǎn)。盡管正態(tài)位置問題相對(duì)簡(jiǎn)單,但它已足以讓我們識(shí)別出哪些BNN建模選擇能在極小極大意義上產(chǎn)生性能良好的估計(jì)量。關(guān)于正態(tài)位置問題中估計(jì)量的極小極大最優(yōu)性已有豐富的文獻(xiàn),涵蓋了多種極小極大標(biāo)準(zhǔn)和證明技術(shù),這些內(nèi)容凸顯了先驗(yàn)分布、誘導(dǎo)的后驗(yàn)分布以及所得決策規(guī)則的影響。因此,正態(tài)位置問題提供了一個(gè)放大鏡,突顯了BNNs的哪些方面表現(xiàn)良好,以及標(biāo)準(zhǔn)BNN先驗(yàn)在何處可以改進(jìn),例如通過引入收縮先驗(yàn)。
BNNs面臨的一個(gè)核心挑戰(zhàn)是在網(wǎng)絡(luò)權(quán)重上構(gòu)建信息豐富的恰當(dāng)先驗(yàn),這些先驗(yàn)既要在計(jì)算上易于處理,又要傾向于產(chǎn)生具有理想頻率學(xué)派性質(zhì)的解。事實(shí)上,[22]將先驗(yàn)設(shè)定視為貝葉斯深度學(xué)習(xí)中最突出的未解決問題之一,并強(qiáng)調(diào)網(wǎng)絡(luò)參數(shù)上的先驗(yàn)會(huì)誘導(dǎo)出函數(shù)空間行為,而該行為最終主導(dǎo)了泛化能力。在此背景下,我們的貢獻(xiàn)是在一個(gè)典型設(shè)定中,為這一問題提供清晰的決策理論解釋。具體而言,我們證明了標(biāo)準(zhǔn)BNNs所誘導(dǎo)的貝葉斯規(guī)則在二次損失下的正態(tài)位置問題中并非極小極大最優(yōu)的,這表明廣泛使用的貝葉斯設(shè)定可能無(wú)法滿足這一基本的最優(yōu)性標(biāo)準(zhǔn)。關(guān)鍵在于,這一缺陷并非貝葉斯神經(jīng)建模本身所固有的,而是源于超先驗(yàn)的選擇:在適當(dāng)?shù)某闰?yàn)下,所誘導(dǎo)的貝葉斯規(guī)則同時(shí)具備極小極大性和容許性。通過將這些結(jié)果擴(kuò)展到預(yù)測(cè)密度估計(jì),我們進(jìn)一步表明,先驗(yàn)設(shè)計(jì)的影響不僅限于點(diǎn)估計(jì),還會(huì)直接影響預(yù)測(cè)性能。更廣泛地說,這些發(fā)現(xiàn)表明,貝葉斯深度學(xué)習(xí)的未來不僅取決于使神經(jīng)貝葉斯過程更具表達(dá)力,還取決于確保其所采用的先驗(yàn)?zāi)軌蛘T導(dǎo)出決策理論上嚴(yán)謹(jǐn)?shù)囊?guī)則。通過這種方式,本文解決了當(dāng)代貝葉斯深度學(xué)習(xí)中的一個(gè)核心關(guān)切:用理論證明的標(biāo)準(zhǔn)取代啟發(fā)式的先驗(yàn)選擇,以判定神經(jīng)過程何時(shí)符合、何時(shí)不符合決策理論的合理性。
鑒于[20]提出的先驗(yàn)-數(shù)據(jù)擬合網(wǎng)絡(luò)(PFNs)的興起,這一視角尤為及時(shí)。PFNs通過訓(xùn)練Transformer來近似對(duì)從先驗(yàn)中采樣的任務(wù)進(jìn)行貝葉斯預(yù)測(cè)。諸如TabPFN [15]等方法表明,該范式在實(shí)踐中具有極強(qiáng)的威力,基于Transformer的PFN在小型表格預(yù)測(cè)問題上達(dá)到了最先進(jìn)的性能。正因?yàn)镻FNs學(xué)習(xí)近似由所選先驗(yàn)誘導(dǎo)的預(yù)測(cè)分布,我們的結(jié)果表明,先驗(yàn)設(shè)定不僅僅是一種建模上的便利,而是決定所學(xué)預(yù)測(cè)器是否具備堅(jiān)實(shí)決策理論基礎(chǔ)的核心因素。從這個(gè)意義上講,PFNs的興起使得本分析尤為重要:隨著PFN類方法日益突出,理解底層先驗(yàn)何時(shí)能產(chǎn)生極小極大且容許的規(guī)則變得至關(guān)重要。
本文的結(jié)構(gòu)安排如下。在第1節(jié)中,我們介紹符號(hào)記號(hào),回顧貫穿全文所使用的正態(tài)位置模型的統(tǒng)計(jì)決策理論結(jié)果,描述由固定尺度ReLU BNN所誘導(dǎo)的先驗(yàn)密度的一般形式,并推導(dǎo)出該先驗(yàn)的一種更為便捷的正態(tài)分布尺度混合表示形式。在第2節(jié)中,我們證明由固定尺度ReLU BNN先驗(yàn)所誘導(dǎo)的邊際密度的平方根并非超調(diào)和的。隨后,我們推導(dǎo)相應(yīng)的決策規(guī)則,并證明其并非極小極大最優(yōu)的。在第3節(jié)中,我們?cè)贐NN先驗(yàn)的尺度上引入超先驗(yàn),并證明所得先驗(yàn)會(huì)誘導(dǎo)出一個(gè)極小極大決策規(guī)則。在第4節(jié)中,我們將上述結(jié)果擴(kuò)展至庫(kù)爾貝克-萊布勒(KL)損失下的預(yù)測(cè)密度估計(jì)問題,表明所提出的超先驗(yàn)在該設(shè)定下同樣能誘導(dǎo)出一個(gè)極小極大規(guī)則。最后,在第5節(jié)中,我們通過模擬實(shí)驗(yàn)闡明我們的理論結(jié)果,將固定尺度BNN先驗(yàn)與所提出的層次BNN先驗(yàn),同由其他流行先驗(yàn)(包括采用Dropout的BNN以及馬蹄先驗(yàn))所誘導(dǎo)的決策規(guī)則進(jìn)行比較。證明概要列于正文,完整證明則置于補(bǔ)充材料中。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
2 固定尺度的深度貝葉斯 ReLU 網(wǎng)絡(luò)不是極小極大的
![]()
歐幾里得空間上的徑向函數(shù)是指其在任一點(diǎn)處的值僅取決于該點(diǎn)到某一固定中心的距離的函數(shù)。眾所周知,徑向函數(shù)滿足以下微分方程。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
極小極大性提供了最壞情況風(fēng)險(xiǎn)的一致界,而超調(diào)和性是邊緣密度平方根的一個(gè)逐點(diǎn)準(zhǔn)則。當(dāng)超調(diào)和性不成立時(shí),它僅表明進(jìn)入密度的局部量在樣本空間的某些區(qū)域變得不利,這往往會(huì)導(dǎo)致該區(qū)域的風(fēng)險(xiǎn)膨脹。然而,由于風(fēng)險(xiǎn)是對(duì)所有數(shù)據(jù)值的平均,違反該準(zhǔn)則的區(qū)域可能攜帶可忽略的概率質(zhì)量,因此其本身未必排除極小極大性。盡管如此,超調(diào)和性的失敗是一個(gè)警示信號(hào),需要單獨(dú)的論證來得出誘導(dǎo)決策規(guī)則不是極小極大的結(jié)論。
![]()
從這個(gè)表達(dá)式來看,該估計(jì)量具有自然的收縮形式,因?yàn)樗?0 收縮。然而,極小極大性取決于在 ∣ ∣ Y ∣ ∣上的一致性收縮輪廓。正如我們?cè)谧C明中所示,當(dāng) ∣ ∣ θ ∣ ∣ ∣ 很大時(shí),風(fēng)險(xiǎn)超過了極小極大水平。這是因?yàn)楣潭ǔ叨日T導(dǎo)出的先驗(yàn)預(yù)測(cè)密度尾部過輕,導(dǎo)致對(duì)于大信號(hào)的收縮適應(yīng)性不足。這意味著固定尺度的 BNN 先驗(yàn)可能會(huì)導(dǎo)致過程在最壞情況下的表現(xiàn)次優(yōu),盡管它們?cè)诘湫蛿?shù)據(jù)集上表現(xiàn)良好。因此,在第 3 節(jié)中,我們引入尺度混合以恢復(fù)極小極大保證,并針對(duì)所有 ∣ ∣ θ ∣ ∣ > 0達(dá)到極小極大風(fēng)險(xiǎn)(或更低)。我們?cè)谘a(bǔ)充材料中提供了定理 2.6 的完整證明。我們首先將固定尺度 BNN 的貝葉斯規(guī)則重寫為 Barancik 形式:
![]()
![]()
![]()
![]()
![]()
![]()
3 誘導(dǎo)極小極大貝葉斯決策規(guī)則的尺度超先驗(yàn)示例
從第 2 節(jié)可知,由固定尺度貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)先驗(yàn)所誘導(dǎo)的邊緣密度不是超調(diào)和的,且其誘導(dǎo)的決策規(guī)則也不是極小極大的。直觀地說,這是由于 BNN 先驗(yàn)密度的尾部過輕所致。因此,我們?cè)诔叨壬显O(shè)置一個(gè)超先驗(yàn)以誘導(dǎo)足夠重的尾部,從而得到一種極小極大決策規(guī)則:當(dāng) ∣ ∣ y ∣ ∣ 很大時(shí),該決策規(guī)則趨向于 y 。我們選擇 BetaPrime![]()
先驗(yàn),因?yàn)樗哂兄匚蔡匦裕试S通過增加方差來解釋大信號(hào),而不是對(duì)其進(jìn)行強(qiáng)制收縮。由此得出以下定理。
![]()
![]()
![]()
值得注意的是,盡管重尾分布在本文中有理論動(dòng)機(jī),但在貝葉斯深度學(xué)習(xí)中也觀察到它們?cè)趯?shí)踐中出現(xiàn)。特別是,眾所周知,在使用隨機(jī)梯度下降訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)期間,權(quán)重變得越來越重尾。因此,增加深度,更重要的是,引入適當(dāng)?shù)姆讲畛闰?yàn)可能有助于減輕可能錯(cuò)誤設(shè)定的先驗(yàn)(例如權(quán)重的標(biāo)準(zhǔn)高斯先驗(yàn))的影響,正如第 1.4 節(jié)所討論的那樣。關(guān)于這種行為及其與冷后驗(yàn)效應(yīng)(cold posterior effect)的關(guān)系的更多信息,請(qǐng)參見 [9]。
鑒于混合密度的形式,我們還可以推導(dǎo)出誘導(dǎo)的貝葉斯決策規(guī)則的容許性。
![]()
![]()
Strawderman 先驗(yàn) [26] 在正態(tài)均值問題的收縮因子上放置了一個(gè) Beta 超先驗(yàn),誘導(dǎo)出了一個(gè)既是極小極大又是容許的正常貝葉斯估計(jì)量。其關(guān)鍵機(jī)制在于誘導(dǎo)出的邊緣密度具有足夠重的尾部——具體而言,其平方根是超調(diào)和的(superharmonic)——這正是保證極小極大性的條件。在 BNN 設(shè)定中,對(duì)輸出方差采用 Beta-Prime 超先驗(yàn)同樣產(chǎn)生了一個(gè)超調(diào)和的平方根邊緣密度,從而導(dǎo)出了一個(gè)極小極大容許貝葉斯規(guī)則。因此,Beta-Prime 構(gòu)造是 Strawderman 先驗(yàn)的自然類比,并已針對(duì)網(wǎng)絡(luò)架構(gòu)產(chǎn)生的參數(shù)化進(jìn)行了適配。
4 預(yù)測(cè)密度問題中的極小極大性和容許性
在本節(jié)中,我們考慮 [5] 和 [14] 中討論的估計(jì)預(yù)測(cè)密度的問題。特別是,我們可以將正態(tài)位置模型在二次損失下的容許貝葉斯決策規(guī)則擴(kuò)展到預(yù)測(cè)密度估計(jì)設(shè)定中。
4.1 決策問題
![]()
![]()
4.2 極小極大性與容許性
在本節(jié)中,我們證明:由在有效輸出方差上具有 BetaPrime 超先驗(yàn)的深度 ReLU BNN 所產(chǎn)生的先驗(yàn)分布所誘導(dǎo)的貝葉斯預(yù)測(cè)密度是極小極大的(minimax)且是容許的(admissible)。
![]()
![]()
我們已經(jīng)證明,由帶有 BetaPrime 超先驗(yàn)的深度 ReLU 貝葉斯神經(jīng)網(wǎng)絡(luò)所產(chǎn)生的先驗(yàn),誘導(dǎo)出了一個(gè)極小極大決策規(guī)則,該規(guī)則既適用于在二次風(fēng)險(xiǎn)下估計(jì)正態(tài)位置模型的均值,也適用于在 Kullback-Leibler 風(fēng)險(xiǎn)下的正態(tài)位置模型設(shè)定中估計(jì)預(yù)測(cè)密度。我們的結(jié)果表明,極小極大性在方差重縮放下是穩(wěn)定的。也就是說,預(yù)測(cè)改進(jìn)并不綁定于特定的噪聲水平,并且避免了我們需要針對(duì)每種預(yù)測(cè)方差組合重新檢查超調(diào)和性條件。特別是,鑒于 [14] 中的引理 2,該先驗(yàn)分布在這兩個(gè)問題中通過收縮默認(rèn)估計(jì)量,誘導(dǎo)出了類似的收縮行為。在二次風(fēng)險(xiǎn)設(shè)定中,這是最大似然估計(jì)量 Y ,而在 Kullback-Leibler 風(fēng)險(xiǎn)設(shè)定中,這是在均勻先驗(yàn)下的貝葉斯預(yù)測(cè)密度。我們還證明了誘導(dǎo)出的貝葉斯預(yù)測(cè)密度是容許的。
![]()
5 模擬示例
![]()
5.1 徑向決策規(guī)則模擬
回顧第 2 節(jié),由固定尺度貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)誘導(dǎo)的決策規(guī)則是
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
5.2 依賴于稀疏性的模擬
![]()
![]()
![]()
![]()
![]()
![]()
![]()
6 結(jié)論
我們已經(jīng)證明,在二次損失下,由深度、固定尺度的 ReLU BNN 誘導(dǎo)的決策規(guī)則在正態(tài)位置模型中不是極小極大的(minimax),因?yàn)橄闰?yàn)預(yù)測(cè)密度具有拉伸指數(shù)尾部,這對(duì)大信號(hào)施加了過度保守的收縮。隨后,我們?cè)诰W(wǎng)絡(luò)先驗(yàn)的有效輸出方差上提出了一個(gè) BetaPrime 超先驗(yàn),它通過誘導(dǎo)足夠重的尾部來恢復(fù)極小極大性:它對(duì)弱信號(hào)向原點(diǎn)強(qiáng)烈收縮,并對(duì)大信號(hào)足夠快地減少收縮。我們進(jìn)一步確立了誘導(dǎo)貝葉斯規(guī)則的容許性(admissibility),并將極小極大性和容許性結(jié)果都擴(kuò)展到了 Kullback–Leibler 損失下的預(yù)測(cè)密度估計(jì)。這些理論性質(zhì)在二次損失下的數(shù)值模擬研究中得到了驗(yàn)證。未來工作的一個(gè)有趣方向是刻畫那些誘導(dǎo)極小極大決策規(guī)則的更廣泛的超先驗(yàn)族;一條自然的途徑是利用 Fox-H 函數(shù) [18],它包含了許多超先驗(yàn)族,包括此處提出的 BetaPrime 超先驗(yàn)。
原文鏈接:https://arxiv.org/pdf/2604.04673
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.