歸一化是統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和人工智能中非常常見的一個(gè)術(shù)語。它用來描述一種數(shù)據(jù)處理方法:按照一定規(guī)則,把原本取值范圍不同的數(shù)據(jù)轉(zhuǎn)換到一個(gè)較統(tǒng)一的數(shù)值區(qū)間內(nèi)。
如果說原始數(shù)據(jù)回答的是“這個(gè)值本身有多大”,那么歸一化回答的就是“這個(gè)值在統(tǒng)一尺度下處于什么位置”。因此,歸一化常用于消除不同數(shù)據(jù)尺度帶來的影響,使數(shù)據(jù)更便于比較、計(jì)算和建模。
一、基本概念:什么是歸一化
歸一化(Normalization)是指按照一定規(guī)則,將數(shù)據(jù)映射到一個(gè)統(tǒng)一數(shù)值范圍內(nèi)的過程。
最常見的做法,是把數(shù)據(jù)縮放到 [0, 1] 區(qū)間,有時(shí)也會(huì)縮放到 [-1, 1] 區(qū)間。
例如,在同一份數(shù)據(jù)中:
年齡可能在 18 到 25 之間;
分?jǐn)?shù)可能在 0 到 100 之間;
收入可能在幾千到幾十萬元之間。
如果直接把這些數(shù)據(jù)放在一起計(jì)算,數(shù)值較大的特征往往更容易影響結(jié)果。歸一化的作用,就是先把這些特征調(diào)整到相近的尺度上,使后續(xù)比較與計(jì)算更加合理。
最常見的方法是最小—最大歸一化(Min-Max Normalization),其公式可寫為:
其中:
? x 表示原始值
? x_min 表示該組數(shù)據(jù)中的最小值
? x_max 表示該組數(shù)據(jù)中的最大值
? x′ 表示歸一化后的值
這個(gè)公式的含義可以分成三步理解:
(1)先計(jì)算當(dāng)前數(shù)據(jù)與最小值相差多少;
(2)再計(jì)算整組數(shù)據(jù)的總范圍,也就是最大值與最小值之差;
(3)最后用前者除以后者,得到當(dāng)前數(shù)據(jù)在整體范圍中的相對位置。
也就是說,歸一化本質(zhì)上是在回答:某個(gè)數(shù)據(jù)在這組數(shù)據(jù)的最小值和最大值之間,處于多靠前的位置。
例如,下面這組數(shù)據(jù):
A 組:[50, 60, 80, 100]如果要對其中的 80 做歸一化處理,那么:
最大值是 100代入公式可得:
這說明,80 在這組數(shù)據(jù)整體范圍中的相對位置是 0.6。
從通俗角度看,歸一化可以理解為:把不同大小、不同單位的數(shù)據(jù),換算到同一把“尺子”上。
例如,兩場考試:
甲考試滿分是 100 分;
乙考試滿分是 1000 分。
若一個(gè)人甲考試得了 80 分,另一個(gè)人乙考試得了 800 分,那么這兩個(gè)分?jǐn)?shù)原本不能直接比較;但若換算成統(tǒng)一比例:
800 / 1000 = 0.8這時(shí)就可以看出,兩者在各自體系中的相對表現(xiàn)是相同的。
歸一化所做的事情,本質(zhì)上就是類似的“統(tǒng)一尺度”處理。
二、歸一化的重要性與常見應(yīng)用場景
1、歸一化的重要性
歸一化之所以重要,是因?yàn)楝F(xiàn)實(shí)中的很多數(shù)據(jù)并不處于同一個(gè)數(shù)量級(jí)。如果不先統(tǒng)一尺度,某些數(shù)值較大的特征就可能在計(jì)算中占據(jù)過強(qiáng)影響。
首先,歸一化可以幫助我們減弱不同特征在量綱和數(shù)值尺度上的差異所帶來的影響。
例如,身高的單位可能是厘米,收入的單位可能是元,點(diǎn)擊率則可能是 0 到 1 之間的小數(shù)。它們不僅取值范圍不同,量綱也不同。如果直接放在一起計(jì)算,數(shù)值較大的特征往往更容易影響結(jié)果。歸一化的作用,就是先把這些特征轉(zhuǎn)換到相近的數(shù)值區(qū)間中。
其次,歸一化有助于提高數(shù)值計(jì)算的穩(wěn)定性。
很多模型,尤其是依賴梯度下降(Gradient Descent)等優(yōu)化方法的模型,對輸入數(shù)據(jù)的尺度比較敏感。歸一化后,訓(xùn)練過程往往更平穩(wěn),模型也更容易收斂。
再次,歸一化可以讓不同指標(biāo)更便于比較。
當(dāng)不同數(shù)據(jù)都被映射到類似的區(qū)間后,我們更容易直觀看到它們之間的相對差異,也更方便做綜合評(píng)價(jià)。
2、常見應(yīng)用場景
(1)在機(jī)器學(xué)習(xí)中,歸一化常用于特征預(yù)處理
在機(jī)器學(xué)習(xí)中,多個(gè)特征往往同時(shí)參與建模。若這些特征的取值范圍差異很大,就常常需要先進(jìn)行歸一化處理。
尤其是一些依賴距離或數(shù)值優(yōu)化的模型,對尺度差異較為敏感。
例如,歸一化常見于以下場景:
? K 近鄰(K-Nearest Neighbors,KNN)
? 支持向量機(jī)(Support Vector Machine,SVM)
? 神經(jīng)網(wǎng)絡(luò)(Neural Network)
? 聚類(Clustering)中的部分方法
(2)在圖像處理中,歸一化常用于像素值縮放
圖像本質(zhì)上是由像素值組成的矩陣。以常見圖像為例,像素值通常在 0 到 255 之間。
在深度學(xué)習(xí)中,常常會(huì)先把像素值縮放到 [0, 1] 區(qū)間,例如:
這樣可以減小輸入數(shù)值范圍,使模型訓(xùn)練更穩(wěn)定。
(3)在數(shù)據(jù)可視化和綜合評(píng)價(jià)中,歸一化也很常見
如果多個(gè)指標(biāo)的量級(jí)差異很大,直接繪圖或直接加權(quán)求和都可能不夠合理。
此時(shí)通常會(huì)先進(jìn)行歸一化,再做圖形展示、綜合評(píng)分或排序分析。
(4)推薦系統(tǒng)與業(yè)務(wù)分析中的指標(biāo)統(tǒng)一
在推薦系統(tǒng)、經(jīng)營分析和評(píng)價(jià)模型中,不同指標(biāo)常常單位不同,例如價(jià)格、評(píng)分、點(diǎn)擊率、停留時(shí)長等。
這些指標(biāo)通常不能直接相加,往往需要先歸一化,再進(jìn)行綜合計(jì)算。
可以概括地說:原始數(shù)據(jù)說明“值本身有多大”;歸一化結(jié)果說明“它在統(tǒng)一尺度上處于什么位置”。
三、使用歸一化時(shí)需要注意的問題
歸一化雖然常用,但在理解和使用時(shí)也要注意幾個(gè)問題。
1、歸一化對極端值(Outlier)比較敏感
因?yàn)?strong>最小—最大歸一化直接依賴最大值和最小值,如果數(shù)據(jù)中存在特別大或特別小的異常值,就可能把整體范圍拉得很開。
這樣一來,大多數(shù)正常數(shù)據(jù)可能會(huì)被壓縮到很窄的區(qū)間內(nèi)。
2、歸一化后的結(jié)果依賴于原始數(shù)據(jù)范圍
歸一化并不是脫離背景的絕對變換,而是依賴于當(dāng)前數(shù)據(jù)集的最大值和最小值。
因此,同一個(gè)原始值放在不同數(shù)據(jù)集里,歸一化結(jié)果可能不同。
3、訓(xùn)練集和測試集要使用同一套歸一化規(guī)則
在機(jī)器學(xué)習(xí)中,通常應(yīng)先在訓(xùn)練集上計(jì)算最大值和最小值,再用同樣的參數(shù)去處理測試集。
如果訓(xùn)練集和測試集各自單獨(dú)歸一化,就會(huì)破壞兩者之間的一致性。
4、不是所有模型都同樣依賴歸一化
歸一化很重要,但也不是所有模型都強(qiáng)依賴它。
例如,決策樹(Decision Tree)、隨機(jī)森林(Random Forest)等樹模型,通常不像 KNN、SVM、神經(jīng)網(wǎng)絡(luò)那樣對特征尺度特別敏感。因此,在實(shí)際應(yīng)用中,應(yīng)根據(jù)模型特點(diǎn)決定是否使用歸一化。
四、Python 示例
下面給出兩個(gè)簡單示例,用來說明歸一化的基本計(jì)算過程,以及它如何幫助我們把不同范圍的數(shù)據(jù)轉(zhuǎn)換到統(tǒng)一尺度上。
示例 1:對一組成績做最小—最大歸一化
這個(gè)例子展示了歸一化的基本過程:先找出最小值和最大值,再把每個(gè)數(shù)據(jù)按相對位置縮放到 0 到 1 之間。
示例 2:對圖像像素值做歸一化
這個(gè)例子展示了圖像處理中常見的歸一化方式。像素值原本在 0 到 255 之間,歸一化后會(huì)被縮放到 0 到 1 之間,更適合作為模型輸入。
小結(jié)
歸一化是一種把不同范圍的數(shù)據(jù)轉(zhuǎn)換到統(tǒng)一尺度上的方法。它不是改變數(shù)據(jù)之間的相對關(guān)系,而是讓這些數(shù)據(jù)更便于比較、計(jì)算和建模。在機(jī)器學(xué)習(xí)、圖像處理、數(shù)據(jù)分析和綜合評(píng)價(jià)中,歸一化都非常常見。對初學(xué)者而言,可以把它理解為:原始值告訴我們“它有多大”,歸一化值告訴我們“它在統(tǒng)一尺子上處于什么位置”。
“點(diǎn)贊有美意,贊賞是鼓勵(lì)”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.