无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ML:自監(jiān)督學(xué)習(xí)數(shù)據(jù)集的基本結(jié)構(gòu)

0
分享至

從機(jī)器學(xué)習(xí)建模角度看,一個(gè)自監(jiān)督學(xué)習(xí)數(shù)據(jù)集(self-supervised learning dataset)通常只包含原始數(shù)據(jù),而不需要人工標(biāo)注的標(biāo)簽。模型通過(guò)設(shè)計(jì)一種“預(yù)訓(xùn)練任務(wù)”(pretext task),從數(shù)據(jù)自身構(gòu)造學(xué)習(xí)目標(biāo)。

因此,從結(jié)構(gòu)上看,一個(gè)典型的自監(jiān)督學(xué)習(xí)數(shù)據(jù)集通常包括以下幾部分:

? 原始特征數(shù)據(jù)(raw data / feature matrix)

? 自動(dòng)生成的目標(biāo)數(shù)據(jù)(generated targets)

? 特征名稱(feature names,可選)

? 數(shù)據(jù)說(shuō)明(dataset description,可選)

其中,自動(dòng)生成的目標(biāo)數(shù)據(jù)并不是人工標(biāo)注的標(biāo)簽,而是根據(jù)數(shù)據(jù)自身構(gòu)造出來(lái)的預(yù)測(cè)目標(biāo)。

下面分別介紹這些概念,并使用 Scikit-Learn 的數(shù)字手寫體數(shù)據(jù)集(Digits dataset)進(jìn)行說(shuō)明。

一、原始特征數(shù)據(jù)

1、基本概念

在自監(jiān)督學(xué)習(xí)中,數(shù)據(jù)通常以特征矩陣(feature matrix)的形式提供。

如果一個(gè)數(shù)據(jù)集中有 n 個(gè)樣本,每個(gè)樣本包含 m 個(gè)特征,這些特征就會(huì)組成一個(gè)二維矩陣:

]

其中:

? 每一行表示一個(gè)樣本

? 每一列表示一個(gè)特征

矩陣維度為:

(n_samples, n_features)

即:

(樣本數(shù), 特征數(shù))

特征矩陣通常記為 X。

在實(shí)際應(yīng)用中,原始特征數(shù)據(jù)通常來(lái)自:

? 圖像數(shù)據(jù)

? 文本數(shù)據(jù)

? 語(yǔ)音信號(hào)

? 傳感器數(shù)據(jù)

? 各類結(jié)構(gòu)化數(shù)據(jù)

與監(jiān)督學(xué)習(xí)不同,自監(jiān)督學(xué)習(xí)的數(shù)據(jù)集中通常沒(méi)有人工標(biāo)注的標(biāo)簽。

2、Digits 數(shù)據(jù)集示例

Scikit-Learn 提供了數(shù)字手寫體數(shù)據(jù)集(Digits dataset),每個(gè)樣本是一個(gè) 8×8 的灰度圖像。

查看特征矩陣:

print(digits.data[:3])     # 前三個(gè)樣本

示例輸出:

 [ 0.  0.  0. ...]]

digits.data 就是特征矩陣(二維 ndarray 數(shù)組),矩陣形狀 (1797, 64) 表示有 1797 個(gè)樣本數(shù),每個(gè)樣本有 64 個(gè)特征數(shù)(8×8 圖像展開)。

在自監(jiān)督學(xué)習(xí)任務(wù)中,模型通常直接使用:

X = digits.data

作為訓(xùn)練輸入。

二、自動(dòng)生成的目標(biāo)數(shù)據(jù)

1、基本概念

自監(jiān)督學(xué)習(xí)的關(guān)鍵思想是:從數(shù)據(jù)本身構(gòu)造預(yù)測(cè)目標(biāo)。

也就是說(shuō),訓(xùn)練任務(wù)中的“標(biāo)簽”并不是人工標(biāo)注的,而是由數(shù)據(jù)自動(dòng)生成。

例如:

? 預(yù)測(cè)被遮擋的部分

? 判斷兩個(gè)樣本是否相似

? 重建原始輸入數(shù)據(jù)

? 預(yù)測(cè)序列中的下一元素

因此,自監(jiān)督學(xué)習(xí)任務(wù)通常構(gòu)造一種新的目標(biāo)數(shù)據(jù):y_generated。

這些目標(biāo)數(shù)據(jù)由某種規(guī)則自動(dòng)生成,而不是由人工提供。

2、Digits 數(shù)據(jù)集示例

以一種簡(jiǎn)單的自監(jiān)督任務(wù)為例:圖像重建(reconstruction)。

在這種任務(wù)中,可以人為地破壞輸入數(shù)據(jù),然后要求模型恢復(fù)原始數(shù)據(jù)。

例如:

y_generated = X                         # 將原始未遮擋的數(shù)據(jù)作為訓(xùn)練目標(biāo),讓模型學(xué)習(xí)從 X_masked 重建 X

訓(xùn)練過(guò)程:

                 與 X 比較誤差

讓模型學(xué)習(xí) X_masked → X 的方法,就是把原始數(shù)據(jù) X 當(dāng)作訓(xùn)練目標(biāo),用回歸模型或自編碼器去學(xué)習(xí)從“被破壞的數(shù)據(jù)”恢復(fù)原始數(shù)據(jù)的映射關(guān)系。

需要注意的是,這些目標(biāo)數(shù)據(jù)并不是數(shù)據(jù)集原本提供的標(biāo)簽,而是由數(shù)據(jù)本身生成的訓(xùn)練目標(biāo)。

三、特征名稱

1、基本概念

特征矩陣中的每一列通常表示一個(gè)特征。

為了說(shuō)明這些特征的含義,數(shù)據(jù)集有時(shí)會(huì)提供特征名稱(feature names)。其結(jié)構(gòu)通常是一個(gè)字符串列表:

['feature1', 'feature2', ...]

特征名稱可以幫助理解每一列數(shù)據(jù)所表示的實(shí)際意義。

2、Digits 數(shù)據(jù)集示例

Digits 數(shù)據(jù)集并沒(méi)有提供 feature_names,因?yàn)槠涮卣髦皇窍袼刂怠?/p>

每一列表示圖像中的一個(gè)像素位置。

例如:

? data[:,0] → 第一個(gè)像素

? data[:,1] → 第二個(gè)像素

在許多自監(jiān)督學(xué)習(xí)任務(wù)中,特征往往來(lái)自:

? 圖像像素

? 文本 token

? 音頻信號(hào)

因此并不一定需要特征名稱。

四、數(shù)據(jù)說(shuō)明

1、基本概念

很多機(jī)器學(xué)習(xí)數(shù)據(jù)集還會(huì)提供背景說(shuō)明信息,例如:

? 數(shù)據(jù)來(lái)源

? 數(shù)據(jù)采集方式

? 樣本數(shù)量

? 特征解釋

這些信息通常用于幫助理解數(shù)據(jù)背景。

2、Digits 數(shù)據(jù)集示例

查看數(shù)據(jù)說(shuō)明:

print(digits.DESCR[:200])

digits.DESCR 是數(shù)據(jù)集說(shuō)明文本(字符串),內(nèi)容通常較長(zhǎng),因此這里只顯示前 200 個(gè)字符。其中通常包括:

? 數(shù)據(jù)集來(lái)源

? 數(shù)據(jù)規(guī)模

? 數(shù)據(jù)結(jié)構(gòu)說(shuō)明

五、自監(jiān)督學(xué)習(xí)數(shù)據(jù)集結(jié)構(gòu)關(guān)系

一個(gè)典型的自監(jiān)督學(xué)習(xí)數(shù)據(jù)集通常可以表示為:

└── 數(shù)據(jù)說(shuō)明

在 Scikit-Learn 數(shù)據(jù)集中,這些信息通常來(lái)源于:

數(shù)據(jù)說(shuō)明        → DESCR

而自監(jiān)督任務(wù)所需的訓(xùn)練目標(biāo)通常由程序根據(jù)數(shù)據(jù)生成。

小結(jié)

自監(jiān)督學(xué)習(xí)數(shù)據(jù)集通常只包含原始數(shù)據(jù),而不需要人工標(biāo)注的標(biāo)簽。模型通過(guò)設(shè)計(jì)預(yù)訓(xùn)練任務(wù),從數(shù)據(jù)自身構(gòu)造學(xué)習(xí)目標(biāo),例如重建輸入數(shù)據(jù)或預(yù)測(cè)被遮擋的信息。因此,自監(jiān)督學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)通常由原始特征矩陣以及自動(dòng)生成的目標(biāo)數(shù)據(jù)組成。在 Scikit-Learn 數(shù)據(jù)集中,原始數(shù)據(jù)通常來(lái)自 data 字段,而訓(xùn)練目標(biāo)則通過(guò)算法或數(shù)據(jù)處理過(guò)程生成。


點(diǎn)贊有美意,贊賞是鼓勵(lì)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李在明發(fā)表涉臺(tái)不當(dāng)言論,否定安美經(jīng)中,韓網(wǎng)友“珍惜中韓關(guān)系”

李在明發(fā)表涉臺(tái)不當(dāng)言論,否定安美經(jīng)中,韓網(wǎng)友“珍惜中韓關(guān)系”

民哥臺(tái)球解說(shuō)
2026-06-12 10:57:16
有退休金的人發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:手里有20、30萬(wàn)存款的老人,最后過(guò)得好的,幾乎都做了同兩個(gè)讓子女意外的決定

有退休金的人發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:手里有20、30萬(wàn)存款的老人,最后過(guò)得好的,幾乎都做了同兩個(gè)讓子女意外的決定

心理觀察局
2026-06-07 06:37:04
一路走好!泰國(guó)王室宣告47歲帕公主去世,母親頌妃迎來(lái)最絕望結(jié)局

一路走好!泰國(guó)王室宣告47歲帕公主去世,母親頌妃迎來(lái)最絕望結(jié)局

娛說(shuō)瑜悅
2026-06-12 17:11:11
希西爾,將訪華

希西爾,將訪華

政知新媒體
2026-06-12 16:21:47
韓國(guó)教授:漢朝前中國(guó)一直歸屬韓國(guó)統(tǒng)治,外國(guó)網(wǎng)友評(píng)論出奇一致

韓國(guó)教授:漢朝前中國(guó)一直歸屬韓國(guó)統(tǒng)治,外國(guó)網(wǎng)友評(píng)論出奇一致

小豫講故事
2026-06-12 06:00:09
尼克斯橫掃騎士晉級(jí)總決賽

尼克斯橫掃騎士晉級(jí)總決賽

體壇周報(bào)
2026-06-13 02:09:23
排面!Lisa穿李剛?cè)是蛞拢抢顒側(cè)守?cái)閥千金女友的閨蜜

排面!Lisa穿李剛?cè)是蛞拢抢顒側(cè)守?cái)閥千金女友的閨蜜

天光破云來(lái)
2026-06-12 12:01:15
你信嗎?有些事被迫終止,其實(shí)是老天在救你!網(wǎng)友:想想都后怕

你信嗎?有些事被迫終止,其實(shí)是老天在救你!網(wǎng)友:想想都后怕

另子維愛讀史
2026-06-12 19:50:24
現(xiàn)在的年輕人不敢開房了

現(xiàn)在的年輕人不敢開房了

微微熱評(píng)
2026-06-13 00:53:53
14天的冷淡期已過(guò)!中國(guó)不再給機(jī)會(huì),欺負(fù)海外中企的荷蘭要遭殃

14天的冷淡期已過(guò)!中國(guó)不再給機(jī)會(huì),欺負(fù)海外中企的荷蘭要遭殃

他想要很多很多的夢(mèng)
2026-06-12 05:32:19
網(wǎng)傳武漢大學(xué)7000多退休職工,月均領(lǐng)10000,每年需9億社保供應(yīng)…

網(wǎng)傳武漢大學(xué)7000多退休職工,月均領(lǐng)10000,每年需9億社保供應(yīng)…

慧翔百科
2026-06-09 12:21:35
杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場(chǎng)卻被伴娘攔下

杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場(chǎng)卻被伴娘攔下

蘭姐說(shuō)故事
2025-06-09 10:00:07
比亞迪一建廠項(xiàng)目暫停!

比亞迪一建廠項(xiàng)目暫停!

電動(dòng)內(nèi)參
2026-06-12 18:49:58
美國(guó)懵了,世界杯開始了,觀眾沒(méi)了?

美國(guó)懵了,世界杯開始了,觀眾沒(méi)了?

宋鴻兵
2026-06-12 20:02:47
小鵬GX上市首月銷量,讓我楞了三分鐘

小鵬GX上市首月銷量,讓我楞了三分鐘

ZAKER新聞
2026-06-12 16:36:08
險(xiǎn)勝幾百票!藤森慶子當(dāng)選秘魯總統(tǒng),其父鐵腕統(tǒng)治歷史再引熱議

險(xiǎn)勝幾百票!藤森慶子當(dāng)選秘魯總統(tǒng),其父鐵腕統(tǒng)治歷史再引熱議

完善法
2026-06-12 18:24:08
三大運(yùn)營(yíng)商終于作“死”了自己

三大運(yùn)營(yíng)商終于作“死”了自己

細(xì)雨中的呼喊
2026-06-10 23:49:50
關(guān)曉彤沒(méi)想到,2026世界杯開幕當(dāng)天,36歲鹿晗會(huì)以這種方式火出圈

關(guān)曉彤沒(méi)想到,2026世界杯開幕當(dāng)天,36歲鹿晗會(huì)以這種方式火出圈

丁丁鯉史紀(jì)
2026-06-12 11:41:48
卡卡:球迷常說(shuō)我和阿扎爾是皇馬隊(duì)史最失敗引援,對(duì)此我接受

卡卡:球迷常說(shuō)我和阿扎爾是皇馬隊(duì)史最失敗引援,對(duì)此我接受

懂球帝
2026-06-12 23:10:06
與王楚欽秘密領(lǐng)證真相大白后,陳夢(mèng)近況曝光,難怪淡出國(guó)家隊(duì)

與王楚欽秘密領(lǐng)證真相大白后,陳夢(mèng)近況曝光,難怪淡出國(guó)家隊(duì)

領(lǐng)悟看世界
2026-06-13 00:49:10
2026-06-13 02:31:00
MediaTea
MediaTea
專業(yè)的數(shù)字媒體、新媒體技術(shù)
1888文章數(shù) 80關(guān)注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬(wàn)億美元富豪誕生!

頭條要聞

美加墨世界杯第二場(chǎng)比賽就現(xiàn)空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場(chǎng)比賽就現(xiàn)空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂(lè)要聞

一天4個(gè)瓜,肖戰(zhàn)熱巴最意外

財(cái)經(jīng)要聞

萬(wàn)億美元順差背后,透露這些信號(hào)

汽車要聞

標(biāo)配激光雷達(dá)/雙動(dòng)力可選 昊鉑S600限時(shí)售17.99萬(wàn)起

態(tài)度原創(chuàng)

游戲
房產(chǎn)
教育
親子
健康

索尼PS國(guó)區(qū)運(yùn)營(yíng)神了!玩梗《黑袍》:我會(huì)玩你的游戲

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

教育要聞

家長(zhǎng)成了“瘋女人”,被女兒作業(yè)搞崩潰,網(wǎng)友:太真實(shí)

親子要聞

給孩子報(bào)個(gè)幼兒園還要工資流水?難道這就是傳說(shuō)中的“因財(cái)施教”

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版