无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<style id="9yrhh"><label id="9yrhh"><bdo id="9yrhh"></bdo></label></style>

<rp id="9yrhh"><meter id="9yrhh"><nobr id="9yrhh"></nobr></meter></rp>

<label id="9yrhh"></label>

<acronym id="9yrhh"><option id="9yrhh"></option></acronym><acronym id="9yrhh"></acronym>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

機器學習：常見的數據集結構

2026-03-31 07:04:43　來源: MediaTea

湖南舉報

0

分享至

在機器學習中，數據的組織方式直接影響模型的訓練方式與算法設計。

不同類型的學習任務，對應的數據結構也有所不同。例如，監督學習通常需要標簽數據，而無監督學習則只依賴數據本身的結構；時間序列數據強調時間順序，而圖數據則強調對象之間的關系結構。

在實際應用中，機器學習數據通常以 NumPy 數組、矩陣或結構化對象的形式組織。在 Scikit-Learn 中，許多示例數據集通過 sklearn.datasets 模塊提供，這些數據集不僅用于算法示例，也體現了常見的數據組織方式。

從機器學習任務的角度看，常見的數據集結構主要包括以下幾類：

? 監督學習數據集

? 無監督學習數據集

? 半監督學習數據集

? 自監督學習數據集

? 時間序列數據集

? 序列數據集

? 圖數據集

? 多模態數據集

? 強化學習中的經驗數據

監督學習是機器學習中最常見的學習方式。其核心特點是：每個樣本都對應一個已知標簽。

一個典型的監督學習數據集通常包括：

? 特征矩陣（feature matrix）

? 標簽數組（target array）

特征矩陣通常記為：

標簽數組通常記為：

特征矩陣的結構為：

(n_samples, n_features)

標簽數組的結構為：

(n_samples,)

訓練模型時的常見形式為：

model.fit(X, y)

下面以 Scikit-Learn 提供的鳶尾花數據集（Iris dataset）為例觀察其結構：

print(iris.target.shape)

示例輸出：

(150,)

? iris.data：特征矩陣

? iris.target：標簽數組

該數據集常用于分類算法示例。

在無監督學習中，數據通常沒有標簽信息。算法需要根據數據本身的結構發現潛在模式。

因此，一個典型的無監督學習數據集通常只包含：

? 特征矩陣

表示為：

其結構為：

(n_samples, n_features)

模型訓練通常為：

model.fit(X)

常見任務包括：

? 聚類（clustering）

? 降維（dimensionality reduction）

? 異常檢測（anomaly detection）

示例：

Scikit-Learn 提供的 Digits 數據集本身包含標簽，但在無監督學習任務中，可以只使用其中的特征矩陣 digits.data。

print(digits.data.shape)

輸出示例：

(1797, 64)

? 每個樣本是一張 8×8 手寫數字圖像

? 圖像被展開為 64 維特征向量

在無監督學習任務中，可以只使用：

X = digits.data

例如用于聚類或降維分析。

半監督學習介于監督學習與無監督學習之間：只有部分樣本具有標簽。

典型結構包括：

其中：

? 部分樣本具有標簽

? 在一些實現中，未標注樣本常用 -1 作為占位標記；但這并不是唯一方式，具體表示形式取決于所使用的庫和算法實現

例如：

y = [0, 1, 2, -1, -1, -1]

其中：

-1

表示該樣本沒有標簽。

示例：Digits 數據集的半監督應用

model.fit(X, y)

Scikit-Learn 中常見半監督算法包括：

? LabelPropagation

? LabelSpreading

自監督學習（self-supervised learning）是一種不依賴人工標簽的學習方式。模型通過設計預訓練任務（pretext task），從數據本身構造學習目標。

從訓練任務的角度看，自監督學習通常涉及：

? 原始特征數據

? 自動生成的訓練目標

表示為：

y_generated

其中：

X : (n_samples, n_features)

自動生成的目標數據通常由數據本身構造，例如：

? 重建輸入數據

? 預測被遮擋的部分

? 判斷兩個樣本是否相似

例如，可以仍以 Scikit-Learn 提供的 Digits 手寫數字數據集作為原始輸入數據：

print(digits.data.shape)

輸出示例：

(1797, 64)

? 每個樣本是一張 8×8 手寫數字圖像

? 圖像被展開為 64 維特征向量

在自監督學習任務中，可以直接使用：

X = digits.data

自監督學習通常直接使用未標注原始數據，監督信號由訓練過程自動構造。因此，從數據組織角度看，它常常仍然以原始樣本集合 X 為基礎，只是訓練目標不是人工給出的標簽，而是由任務機制動態生成。

時間序列數據的核心特點是：數據具有時間順序。

一個典型的時間序列數據集通常包括：

? 時間索引

? 特征矩陣

? 目標變量（可選）

例如：

2026-01-03  13

在機器學習中，時間序列數據通常會通過滑動窗口（sliding window）轉換為監督學習形式：

y = x4

這樣就可以使用普通機器學習模型進行預測。

時間序列數據廣泛應用于：

? 股票預測

? 銷售預測

? 傳感器監測

序列數據由一組按順序排列的元素組成，例如：

["I", "love", "machine", "learning"]

在機器學習中，序列通常需要轉換為數值表示，例如：

[1, 2, 3, 4]

若經過截斷、填充或編碼后，序列數據常可表示為：

y : (n_sequences,)   # 可選

序列數據常見于：

? 文本數據

? 語音信號

? 用戶行為序列

從廣義上說，時間序列也屬于序列數據；但由于其順序具有明確的時間含義，并常涉及滯后、趨勢、季節性等問題，因此通常單獨作為一類討論。

示例：20 Newsgroups 數據集

Scikit-Learn 提供 20 Newsgroups 文本數據集：

print(len(data.data))

該數據集包含：

? 文本序列

? 分類標簽

通常需要使用 TF-IDF 或詞袋模型進行特征轉換。

圖數據用于描述對象之間的關系結構。

一個典型的圖數據集通常包括：

? 節點特征矩陣

? 鄰接結構

? 節點標簽（可選）

常見表示方式：

y → 節點標簽

其中：

A : (n_nodes, n_nodes)

圖數據常見任務包括：

? 節點分類

? 鏈接預測

? 圖分類

雖然 Scikit-Learn 不是專門的圖學習框架，但可以構建樣本相似度圖：

A = kneighbors_graph(iris.data, 5)

這里 A 表示樣本之間的鄰接關系。

多模態數據集同時包含多種不同類型的數據來源。

例如：

? 圖像

? 文本

? 音頻

? 表格數據

一個樣本可能同時包含多種模態信息，例如：

圖像 + 文本描述

數據結構通常表示為多個特征矩陣：

X_text

這些矩陣通常具有相同的樣本數量：

(n_samples, ...)

關鍵在于不同模態必須按樣本一一對應，否則無法進行聯合學習。

多模態學習廣泛應用于：

? 圖像描述

? 視頻理解

? 跨模態檢索

強化學習的數據來自智能體與環境的交互過程。

每一次交互通常記錄為：

(state, action, reward, next_state)

即：

(s, a, r, s')

其中：

? state：當前環境狀態

? action：執行的動作

? reward：獲得的獎勵

? next_state：下一狀態

這些數據通常存儲在經驗集合中，例如經驗回放緩沖區（Replay Buffer）。

強化學習算法通過不斷積累這些交互數據來學習最優策略。

小結

在機器學習中，不同任務類型對應不同的數據集結構。監督學習數據集通常由特征矩陣和標簽數組組成，而無監督學習數據集通常只包含特征數據。除此之外，還存在半監督學習、時間序列、序列數據、圖數據、多模態數據以及強化學習交互數據等多種形式。理解這些常見的數據組織方式，有助于根據任務特點正確構建數據，并選擇合適的機器學習方法。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI助力多組學與機器學習聯合分析（機器學習分析代謝組、蛋白組、宏基因組、網絡藥理學、轉錄組）

醫咖會 2026-03-05 19:27:22
0 跟貼 0
阿里達摩院開源具身大腦基礎模型

機器之心Pro 2026-02-11 18:09:11
0 跟貼 0

4位AI大牛對話50分鐘！編程是AI勝負手、Claude“神話”模型是自然結果、降token是正確的

智東西 2026-06-12 14:52:40
3 跟貼 3

OpenAI、Anthropic急了？外媒曝創企轉向中國更便宜開源模型，特定場景成本能降95%

智東西 2026-06-12 23:21:20
2 跟貼 2
微軟不敢給員工用的AI，轉頭賣給你！法務卡住最強Claude

新智元 2026-06-13 00:19:46
0 跟貼 0

AI交互新基準！螞蟻提出MiniAppBench并入選ICML 2026 Spotlight

機器之心Pro 2026-06-10 22:27:20
0 跟貼 0

入圍CVPR 2026最佳論文決選，ViT3突破Transformer復雜度瓶頸

機器之心Pro 2026-06-12 17:09:54
0 跟貼 0
GuidedVLA給動作解碼器裝上可控可解釋的注意力專家

機器之心Pro 2026-06-12 19:04:46
0 跟貼 0

當Agent大規模落地，IT部門將成為下一個HR部門？

虎嗅APP 2026-06-12 21:00:12
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
2026智源大會：一場技術硬核的AI年度盛會

機器之心Pro 2026-06-12 22:14:15
0 跟貼 0
零樣本 Sim-to-Real ！2

機器之心Pro 2026-03-25 11:40:23
0 跟貼 0
皇馬官方宣布穆里尼奧出任主教練

央視新聞客戶端 2026-06-12 02:39:10
2444 跟貼 2444
高鐵行李架現白色寵物蛇列車長僅用塑料袋徒手拿捏

極目新聞 2026-06-12 10:06:52
1037 跟貼 1037
剛剛，人類歷史上首位萬億美元富豪誕生！

每日經濟新聞 2026-06-12 22:32:06
1264 跟貼 1264
美國世界杯奪冠概率1%，機器學習預測靠譜嗎？

碳基打工人 2026-06-13 03:11:31
0 跟貼 0
Kimi最強編程模型來了：Token消耗直降30%，過度思考有救了，附一手實測

智東西 2026-06-13 01:07:25
0 跟貼 0
公開征求意見！廣州擬繼續在全市所有道路禁止機動車鳴喇叭

南方都市報 2026-06-12 19:04:34
128 跟貼 128
“張雪機車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

極目新聞 2026-06-12 23:00:07
29 跟貼 29
神經流模型 NeuroFlow 打通視覺與神經的雙向通道

機器之心Pro 2026-06-12 12:44:05
0 跟貼 0
梁文鋒向左，楊植麟向右

虎嗅APP 2026-06-13 02:52:07
0 跟貼 0
買了個汽車模型，居然有40邁的速度，這時候多么希望它變大！

能把人笑沒社 2026-06-12 16:03:33
1 跟貼 1
美擬撤走北約歐洲防務三分之一戰機

界面新聞 2026-06-12 13:06:43
1660 跟貼 1660
紀委反腐四大致命手段:通話記錄、微信記錄、電子數據及大數據

職場資深秘書 2026-06-11 15:45:13
8 跟貼 8
“年年交1.5元一度電從來沒變過，都麻木了” ，市民紛紛吐槽廣州城中村電費加價

南方都市報 2026-06-12 08:28:28
75 跟貼 75
厄爾尼諾已正式形成預計強度將打破1950年以來紀錄！

財聯社 2026-06-12 16:50:07
93 跟貼 93
鬧心！奧迪純電SUV，提車三天“故障頻發”！上海車主7個月報修10次，結果更鬧心

新民晚報 2026-06-12 19:26:49
239 跟貼 239
5個月神話破滅！Donut Lab固態電池被實錘造假背后：從未實際生產過電池電芯，固態電池產業化仍需五到十年

每日經濟新聞 2026-06-11 16:39:10
168 跟貼 168
伊朗外交部：伊方正在審議諒解備忘錄草案

財聯社 2026-06-13 02:10:10
0 跟貼 0
寶馬7系用車體驗在商場買到喜歡的機甲模型體驗后排的舒享功能

SuperStreet超級街 2026-06-09 09:15:13
0 跟貼 0
吉利銀河的單車依賴癥更嚴重了

界面新聞 2026-06-12 15:11:25
55 跟貼 55
"中醫匠人"賣課號稱"行走的CT" 自稱學技術可掙錢改命

新京報 2026-06-12 11:56:14
1265 跟貼 1265
你的手機癮，填不滿心里那個洞

山野有晚風 2026-06-13 00:08:37
0 跟貼 0
Spotify經典歌單憋了3年的大招，我終于看到真人編輯了，這次連免費用戶都有份

我是一個養蝦人 2026-06-13 02:19:32
0 跟貼 0
海光信息在漢披露：國產CPU處理器性能已比肩英特爾

支點財經 2026-06-11 21:27:18
174 跟貼 174
高考，考的不僅僅是分數

環球網資訊 2026-06-12 18:45:15
153 跟貼 153
最近，武漢這家百年老店又火了！

武漢發布 2026-06-12 09:34:56
53 跟貼 53
證監會同意長鑫科技科創板IPO注冊申請

財聯社 2026-06-12 18:45:19
21 跟貼 21
僅靠宣傳“吸煙有害健康”難奏效，學者呼吁提高煙草稅來控煙

南方都市報 2026-06-12 14:34:07
28 跟貼 28

大規模清倉！北京本土家居品牌閉店倒計時

大規模清倉！北京本土家居品牌閉店倒計時

中國商報

2026-06-12 19:44:05

確認！巴塞羅那啟動對弗洛倫蒂諾法律行動

確認！巴塞羅那啟動對弗洛倫蒂諾法律行動

日常碎碎念啊

2026-06-13 00:18:42

杰拉德曝伊斯坦布爾奇跡更衣室真相

杰拉德曝伊斯坦布爾奇跡更衣室真相

體壇周報

2026-06-12 21:13:42

網傳南通“橋掉下來了”消息不實當地通報：系裝載混凝土預制箱梁的半掛車發生事故

網傳南通“橋掉下來了”消息不實當地通報：系裝載混凝土預制箱梁的半掛車發生事故

紅星新聞

2026-06-12 20:42:09

辭職也難逃追責！西安女教師配合外籍博主博流量，師德底線失守

辭職也難逃追責！西安女教師配合外籍博主博流量，師德底線失守

放開他讓wo來

2026-06-12 10:48:34

告訴你一個殘酷的真相：父母存的錢，存的其實是孩子的選擇權

告訴你一個殘酷的真相：父母存的錢，存的其實是孩子的選擇權

大熊歡樂坊

2026-06-01 06:24:25

曝格林愿降薪讓步助勇士追詹姆斯

曝格林愿降薪讓步助勇士追詹姆斯

體壇周報

2026-06-13 03:26:12

忠心員工捐髓救老板一命，老板康復后卻將她辭退，報應來得快

忠心員工捐髓救老板一命，老板康復后卻將她辭退，報應來得快

懸案解密檔案

2025-05-14 14:16:08

28歲巔峰退出國家隊？趙繼偉克星宣布退役：男籃反倒成最大受益者

28歲巔峰退出國家隊？趙繼偉克星宣布退役：男籃反倒成最大受益者

籃球快餐車

2026-06-12 05:36:36

世界首富押注的火箭發動機：折騰了60年，終于變成了流水線產品

世界首富押注的火箭發動機：折騰了60年，終于變成了流水線產品

平流層散步者

2026-05-27 08:04:47

寶馬也要出“大G”？寶馬全新硬派越野車假想圖曝光，對標奔馳G級

寶馬也要出“大G”？寶馬全新硬派越野車假想圖曝光，對標奔馳G級

小怪吃美食

2026-06-13 02:55:54

外資控制蒙古銅礦，340萬人淪為性旅游后花園

外資控制蒙古銅礦，340萬人淪為性旅游后花園

清歡百味

2026-06-11 18:45:10

“幾十年的血沒清洗過，您覺得干凈嗎？”

“幾十年的血沒清洗過，您覺得干凈嗎？”

中國新聞周刊

2026-06-11 07:22:08

高考719分奪得全省第一，如今在清華王牌專業讀大一，成功靠2個字

高考719分奪得全省第一，如今在清華王牌專業讀大一，成功靠2個字

星娛叨叨社

2026-06-09 14:55:26

值得珍藏：AI產業鏈+光存電芯+玻璃基板+貴金屬+光通信+能源龍頭

值得珍藏：AI產業鏈+光存電芯+玻璃基板+貴金屬+光通信+能源龍頭

粵語音樂噴泉

2026-06-11 18:32:26

否決金球先生？皇馬36小時閃簽B席，一場靜默的戰術革命！

否決金球先生？皇馬36小時閃簽B席，一場靜默的戰術革命！

落夜足球

2026-06-12 13:49:58

我們等了55年的一句話，終于正式公開了！

我們等了55年的一句話，終于正式公開了！

起喜電影

2026-06-08 10:49:23

老領導落馬前塞給我一個藍布包，叮囑我辭職回鄉躲五年才安全

老領導落馬前塞給我一個藍布包，叮囑我辭職回鄉躲五年才安全

曉艾故事匯

2025-12-12 08:10:43

賴昌星的“紅樓”有多厲害？官員坦白：享受全套服務，沒人能把持

賴昌星的“紅樓”有多厲害？官員坦白：享受全套服務，沒人能把持

流史歲月

2026-06-12 11:04:38

646億財務造假終被抓，兒子投資來源不明，實業報國六年騙局

646億財務造假終被抓，兒子投資來源不明，實業報國六年騙局

玲兒愛唱歌

2026-05-07 05:07:45

專業的數字媒體、新媒體技術

1888文章數 80關注度

往期回顧全部

科技要聞

剛剛，人類歷史上首位萬億美元富豪誕生！

頭條要聞

美加墨世界杯第二場比賽就現空座英媒：尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座英媒：尷尬

體育要聞

歐洲恐韓？肉德維德？

娛樂要聞

一天4個瓜，肖戰熱巴最意外

財經要聞

萬億美元順差背后，透露這些信號

汽車要聞

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

藝術

手機

游戲

房產

旅游要聞

印度有錢人真多酷暑辦理旅游簽證！不是有錢任性，是熱到活不下去

藝術要聞

砸了640億，再賠160億！沙特“The Line”項目徹底涼了？

手機要聞

vivo X Fold6再預熱：天璣9500超能版+OriginOS 6 Fold

索尼PS國區運營神了！玩梗《黑袍》:我會玩你的游戲

房產要聞

海南最賺錢行業曝光！最快4年半，海口全款買三房！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<object id="ojvup"></object>

<tr id="ojvup"></tr>

<span id="ojvup"><th id="ojvup"></th></span>