一、單項選擇題(本大題共 25 小題)
1、根據湯姆?米切爾(Tom Mitchell)對機器學習的定義,一個計算機程序從經驗 E 中學習,針對任務 T 和性能指標 P,其學習效果表現為( )。
① 程序在 T 上的性能隨著 E 的增加而保持不變
② 程序在 T 上的性能隨著 E 的增加而提高
③ 程序在 T 上的性能隨著 E 的增加而降低
④ 程序在 T 上的性能與 E 無關
2、機器學習的三要素通常不包括以下哪一項?( )
① 數據(經驗 E 的載體)
② 模型(任務 T 的實現者)
③ 學習過程(性能 P 的提升途徑)
④ 硬件計算能力
3、以下關于監督學習與無監督學習的描述,正確的是( )。
① 監督學習使用無標簽數據,無監督學習使用有標簽數據
② 監督學習的目標是發現數據中的隱藏結構,無監督學習的目標是預測標簽
③ 監督學習的訓練數據包含輸入特征與對應的標簽,無監督學習的訓練數據不包含標簽
④ 監督學習只能處理分類問題,無監督學習只能處理回歸問題
4、在機器學習任務劃分中,房價預測(預測具體價格)屬于( )。
① 分類任務
② 回歸任務
③ 聚類任務
④ 降維任務
5、在 Scikit-learn 鳶尾花分類問題中,需要判斷一朵花屬于“山鳶尾”“變色鳶尾”還是“維吉尼亞鳶尾”,這屬于( )。
① 二分類任務
② 多分類任務
③ 回歸任務
④ 無監督學習任務
6、以下關于特征矩陣 X 和目標數組 y 的描述,正確的是( )。
① X 通常是一維數組,y 是二維矩陣
② X 的形狀為 [n_samples, n_features],y 的形狀為 [n_samples]
③ X 和 y 的形狀必須完全相同
④ y 的形狀為 [n_features, n_samples]
7、強化學習與其他機器學習范式(監督學習、無監督學習)的主要區別在于( )。
① 強化學習需要大量帶標簽的數據
② 強化學習通過智能體與環境交互、試錯并獲得獎勵來學習最優策略
③ 強化學習只能用于分類任務
④ 強化學習不需要定義獎勵函數
8、以下關于線性回歸中最小二乘法的描述,正確的是( )。
① 最小二乘法最大化所有樣本點到直線的距離之和
② 最小二乘法最小化所有樣本真實值與模型預測值之間的殘差平方和
③ 最小二乘法需要隨機梯度下降法才能求解
④ 最小二乘法只能求解一元線性回歸,不能求解多元線性回歸
9、在 Scikit-learn 中,使用線性回歸模型的核心代碼是 model = LinearRegression(),然后訓練模型的正確方法是( )。
① model.predict(X_train, y_train)
② model.fit(X_train, y_train)
③ model.train(X_train, y_train)
④ model.learn(X_train, y_train)
10、關于多項式回歸,下列說法錯誤的是( )。
① 多項式回歸是線性回歸的一種擴展,可以擬合非線性關系
② 通過 PolynomialFeatures 生成高次項特征,再使用線性回歸求解
③ 多項式的階數越高,模型擬合能力越強,因此階數越高越好
④ 階數過高容易導致過擬合
11、K 近鄰(KNN)算法的核心思想是( )。
① 構建復雜的決策樹來分類
② 通過尋找與待分類樣本最相似的 K 個鄰居,根據它們的類別進行投票決策
③ 使用線性方程擬合數據
④ 通過梯度下降法優化參數
12、在 KNN 算法中,K 值的選擇對分類結果有重要影響。當 K 值過小時,容易導致( )。
① 模型欠擬合,分類邊界過于平滑
② 模型對噪聲數據敏感,容易過擬合
③ 計算量急劇增加
④ 無法使用歐氏距離
13、以下關于決策樹中“熵”的描述,正確的是( )。
① 熵衡量數據的不確定性,熵值越大,數據越“純凈”
② 熵的取值范圍是 [0, +∞),值越大表示越混亂
③ 熵為 0 時表示所有樣本屬于同一類別(完全確定)
④ 熵與信息增益無關
14、決策樹構建過程中,選擇某個特征作為當前節點分裂依據的常用標準是( )。
① 最大化該特征的信息增益
② 最小化該特征的取值個數
③ 最大化該特征的方差
④ 最小化該特征的熵
15、以下哪個是決策樹算法中用于控制模型復雜度、防止過擬合的關鍵參數?( )
① n_neighbors
② max_depth(最大深度)
③ learning_rate
④ n_components
16、關于無監督學習中的聚類,下列說法正確的是( )。
① 聚類需要帶標簽的數據來指導學習
② 聚類的目標是將數據集劃分為若干個簇,使得簇內樣本相似度高,簇間樣本相似度低
③ K 均值聚類中,K 值不需要預先指定,算法會自動確定
④ 聚類只能用于圖像分割,不能用于客戶細分
17、K 均值聚類的迭代過程中,每次更新簇中心的方法是( )。
① 隨機選取新的樣本點作為中心
② 計算簇內所有樣本的均值作為新的中心
③ 選取簇內距離最遠的兩個點的中點作為新中心
④ 保持中心不變
18、以下關于主成分分析(PCA)的描述,錯誤的是( )。
① PCA 是一種有監督的降維方法,需要使用標簽信息
② PCA 的目標是找到數據方差最大的方向作為主成分
③ PCA 可以用于數據可視化,將高維數據降到 2 維或 3 維
④ PCA 通過線性投影實現降維
19、在 Scikit-learn 中,使用 PCA 對數據進行降維的代碼通常是( )。
① from sklearn.decomposition import PCA;pca = PCA(n_components=2);X_new = pca.fit_transform(X)
② from sklearn.manifold import PCA;pca = PCA(n_components=2);X_new = pca.fit(X)
③ from sklearn.preprocessing import PCA;pca = PCA();X_new = pca.predict(X)
④ from sklearn.dim_reduction import PCA;pca = PCA(k=2);X_new = pca.fit_predict(X)
20、在模型評估中,將數據集劃分為訓練集和測試集的目的是( )。
① 讓模型只學習測試集,提高準確率
② 用訓練集訓練模型,用測試集評估模型的泛化能力,避免過擬合
③ 增加數據的數量
④ 減少計算量
21、以下關于交叉驗證(Cross-Validation)的描述,正確的是( )。
① 交叉驗證只能用于分類任務,不能用于回歸
② 5 折交叉驗證將數據分成 5 份,輪流用其中 4 份訓練、1 份測試,重復 5 次
③ 交叉驗證會增加訓練數據量,因此一定會提升模型性能
④ 交叉驗證不需要在每一折中區分訓練部分和驗證部分
22、在二分類問題中,混淆矩陣中“真正例”(TP)表示( )。
① 負類樣本被正確預測為負類
② 負類樣本被錯誤預測為正類
③ 正類樣本被正確預測為正類
④ 正類樣本被錯誤預測為負類
23、精確率(Precision)和召回率(Recall)的定義分別是( )。
① Precision = TP/(TP+FP),Recall = TP/(TP+FN)
② Precision = TP/(TP+FN),Recall = TP/(TP+FP)
③ Precision = TN/(TN+FP),Recall = TN/(TN+FN)
④ Precision = (TP+TN)/(TP+TN+FP+FN),Recall = TP/(TP+FP)
24、在 Scikit-learn 中,計算分類模型準確率的函數是( )。
① sklearn.metrics.accuracy_score
② sklearn.metrics.precision_score
③ sklearn.metrics.recall_score
④ sklearn.metrics.f1_score
25、以下關于過擬合與欠擬合的描述,正確的是( )。
① 過擬合是指模型在訓練集上表現差,在測試集上也差
② 欠擬合是指模型在訓練集上表現好,但在測試集上表現差
③ 過擬合可以通過增加模型復雜度(如增加決策樹深度)來緩解
④ 欠擬合可以通過增加模型復雜度或提取更多有效特征來緩解
二、編程填空題(本大題共 8 小題)
1、已知數據集 X(一維特征)和 y(目標值),需要先用 PolynomialFeatures 生成二階多項式特征,再用 LinearRegression 訓練。請補全以下代碼。
2、要求實現一個簡化的 KNN 分類器(不使用 sklearn.neighbors),補全以下代碼,完成距離計算和投票過程。
3、請補全代碼,使用 5 折交叉驗證評估線性回歸模型的負均方誤差(negative mean squared error),并輸出各折的得分及平均值。
4、使用 KMeans 對數據進行聚類,并計算輪廓系數(Silhouette Score)。請補全代碼。
5、對鳶尾花數據集進行 PCA 降維到 2 維,然后使用 Matplotlib 繪制散點圖,不同類別用不同顏色。請補全 PCA 降維部分的代碼。
6、訓練決策樹分類器,分別設置不同的最大深度,并計算訓練集和測試集上的準確率,以觀察過擬合現象。請補全代碼。
7、補全以下代碼,實現手寫數字數據集的加載、預處理、訓練/測試集劃分、KNN 分類、以及準確率、精確率、召回率、F1 分數的計算(使用宏平均)。
8、給定混淆矩陣 cm,請補全函數 precision_recall_from_cm,分別計算所有類別的平均精確率和平均召回率(宏平均)。假設 cm[i][j] 表示真實類別 i 被預測為類別 j 的樣本數。
“點贊有美意,贊賞是鼓勵”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.