從機(jī)器學(xué)習(xí)建模角度看,一個(gè)自監(jiān)督學(xué)習(xí)數(shù)據(jù)集(self-supervised learning dataset)通常只包含原始數(shù)據(jù),而不需要人工標(biāo)注的標(biāo)簽。模型通過(guò)設(shè)計(jì)一種“預(yù)訓(xùn)練任務(wù)”(pretext task),從數(shù)據(jù)自身構(gòu)造學(xué)習(xí)目標(biāo)。
因此,從結(jié)構(gòu)上看,一個(gè)典型的自監(jiān)督學(xué)習(xí)數(shù)據(jù)集通常包括以下幾部分:
? 原始特征數(shù)據(jù)(raw data / feature matrix)
? 自動(dòng)生成的目標(biāo)數(shù)據(jù)(generated targets)
? 特征名稱(feature names,可選)
? 數(shù)據(jù)說(shuō)明(dataset description,可選)
其中,自動(dòng)生成的目標(biāo)數(shù)據(jù)并不是人工標(biāo)注的標(biāo)簽,而是根據(jù)數(shù)據(jù)自身構(gòu)造出來(lái)的預(yù)測(cè)目標(biāo)。
下面分別介紹這些概念,并使用 Scikit-Learn 的數(shù)字手寫體數(shù)據(jù)集(Digits dataset)進(jìn)行說(shuō)明。
一、原始特征數(shù)據(jù)
1、基本概念
在自監(jiān)督學(xué)習(xí)中,數(shù)據(jù)通常以特征矩陣(feature matrix)的形式提供。
如果一個(gè)數(shù)據(jù)集中有 n 個(gè)樣本,每個(gè)樣本包含 m 個(gè)特征,這些特征就會(huì)組成一個(gè)二維矩陣:
]其中:
? 每一行表示一個(gè)樣本
? 每一列表示一個(gè)特征
矩陣維度為:
(n_samples, n_features)即:
(樣本數(shù), 特征數(shù))特征矩陣通常記為 X。
在實(shí)際應(yīng)用中,原始特征數(shù)據(jù)通常來(lái)自:
? 圖像數(shù)據(jù)
? 文本數(shù)據(jù)
? 語(yǔ)音信號(hào)
? 傳感器數(shù)據(jù)
? 各類結(jié)構(gòu)化數(shù)據(jù)
與監(jiān)督學(xué)習(xí)不同,自監(jiān)督學(xué)習(xí)的數(shù)據(jù)集中通常沒(méi)有人工標(biāo)注的標(biāo)簽。
2、Digits 數(shù)據(jù)集示例
Scikit-Learn 提供了數(shù)字手寫體數(shù)據(jù)集(Digits dataset),每個(gè)樣本是一個(gè) 8×8 的灰度圖像。
查看特征矩陣:
print(digits.data[:3]) # 前三個(gè)樣本示例輸出:
[ 0. 0. 0. ...]]digits.data 就是特征矩陣(二維 ndarray 數(shù)組),矩陣形狀 (1797, 64) 表示有 1797 個(gè)樣本數(shù),每個(gè)樣本有 64 個(gè)特征數(shù)(8×8 圖像展開)。
在自監(jiān)督學(xué)習(xí)任務(wù)中,模型通常直接使用:
X = digits.data作為訓(xùn)練輸入。
二、自動(dòng)生成的目標(biāo)數(shù)據(jù)
1、基本概念
自監(jiān)督學(xué)習(xí)的關(guān)鍵思想是:從數(shù)據(jù)本身構(gòu)造預(yù)測(cè)目標(biāo)。
也就是說(shuō),訓(xùn)練任務(wù)中的“標(biāo)簽”并不是人工標(biāo)注的,而是由數(shù)據(jù)自動(dòng)生成。
例如:
? 預(yù)測(cè)被遮擋的部分
? 判斷兩個(gè)樣本是否相似
? 重建原始輸入數(shù)據(jù)
? 預(yù)測(cè)序列中的下一元素
因此,自監(jiān)督學(xué)習(xí)任務(wù)通常構(gòu)造一種新的目標(biāo)數(shù)據(jù):y_generated。
這些目標(biāo)數(shù)據(jù)由某種規(guī)則自動(dòng)生成,而不是由人工提供。
2、Digits 數(shù)據(jù)集示例
以一種簡(jiǎn)單的自監(jiān)督任務(wù)為例:圖像重建(reconstruction)。
在這種任務(wù)中,可以人為地破壞輸入數(shù)據(jù),然后要求模型恢復(fù)原始數(shù)據(jù)。
例如:
y_generated = X # 將原始未遮擋的數(shù)據(jù)作為訓(xùn)練目標(biāo),讓模型學(xué)習(xí)從 X_masked 重建 X訓(xùn)練過(guò)程:
與 X 比較誤差讓模型學(xué)習(xí) X_masked → X 的方法,就是把原始數(shù)據(jù) X 當(dāng)作訓(xùn)練目標(biāo),用回歸模型或自編碼器去學(xué)習(xí)從“被破壞的數(shù)據(jù)”恢復(fù)原始數(shù)據(jù)的映射關(guān)系。
需要注意的是,這些目標(biāo)數(shù)據(jù)并不是數(shù)據(jù)集原本提供的標(biāo)簽,而是由數(shù)據(jù)本身生成的訓(xùn)練目標(biāo)。
三、特征名稱
1、基本概念
特征矩陣中的每一列通常表示一個(gè)特征。
為了說(shuō)明這些特征的含義,數(shù)據(jù)集有時(shí)會(huì)提供特征名稱(feature names)。其結(jié)構(gòu)通常是一個(gè)字符串列表:
['feature1', 'feature2', ...]特征名稱可以幫助理解每一列數(shù)據(jù)所表示的實(shí)際意義。
2、Digits 數(shù)據(jù)集示例
Digits 數(shù)據(jù)集并沒(méi)有提供 feature_names,因?yàn)槠涮卣髦皇窍袼刂怠?/p>
每一列表示圖像中的一個(gè)像素位置。
例如:
? data[:,0] → 第一個(gè)像素
? data[:,1] → 第二個(gè)像素
在許多自監(jiān)督學(xué)習(xí)任務(wù)中,特征往往來(lái)自:
? 圖像像素
? 文本 token
? 音頻信號(hào)
因此并不一定需要特征名稱。
四、數(shù)據(jù)說(shuō)明
1、基本概念
很多機(jī)器學(xué)習(xí)數(shù)據(jù)集還會(huì)提供背景說(shuō)明信息,例如:
? 數(shù)據(jù)來(lái)源
? 數(shù)據(jù)采集方式
? 樣本數(shù)量
? 特征解釋
這些信息通常用于幫助理解數(shù)據(jù)背景。
2、Digits 數(shù)據(jù)集示例
查看數(shù)據(jù)說(shuō)明:
print(digits.DESCR[:200])digits.DESCR 是數(shù)據(jù)集說(shuō)明文本(字符串),內(nèi)容通常較長(zhǎng),因此這里只顯示前 200 個(gè)字符。其中通常包括:
? 數(shù)據(jù)集來(lái)源
? 數(shù)據(jù)規(guī)模
? 數(shù)據(jù)結(jié)構(gòu)說(shuō)明
五、自監(jiān)督學(xué)習(xí)數(shù)據(jù)集結(jié)構(gòu)關(guān)系
一個(gè)典型的自監(jiān)督學(xué)習(xí)數(shù)據(jù)集通常可以表示為:
└── 數(shù)據(jù)說(shuō)明在 Scikit-Learn 數(shù)據(jù)集中,這些信息通常來(lái)源于:
數(shù)據(jù)說(shuō)明 → DESCR而自監(jiān)督任務(wù)所需的訓(xùn)練目標(biāo)通常由程序根據(jù)數(shù)據(jù)生成。
小結(jié)
自監(jiān)督學(xué)習(xí)數(shù)據(jù)集通常只包含原始數(shù)據(jù),而不需要人工標(biāo)注的標(biāo)簽。模型通過(guò)設(shè)計(jì)預(yù)訓(xùn)練任務(wù),從數(shù)據(jù)自身構(gòu)造學(xué)習(xí)目標(biāo),例如重建輸入數(shù)據(jù)或預(yù)測(cè)被遮擋的信息。因此,自監(jiān)督學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)通常由原始特征矩陣以及自動(dòng)生成的目標(biāo)數(shù)據(jù)組成。在 Scikit-Learn 數(shù)據(jù)集中,原始數(shù)據(jù)通常來(lái)自 data 字段,而訓(xùn)練目標(biāo)則通過(guò)算法或數(shù)據(jù)處理過(guò)程生成。
![]()
“點(diǎn)贊有美意,贊賞是鼓勵(lì)”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.