使用者指南# 1. 有監督學習 1.1. 線性模型 1.1.1. 普通最小二乘法 1.1.2. 嶺迴歸和分類 1.1.3. Lasso 1.1.4. 多工 Lasso 1.1.5. Elastic-Net 1.1.6. 多工 Elastic-Net 1.1.7. 最小角迴歸 1.1.8. LARS Lasso 1.1.9. 正交匹配追蹤 (OMP) 1.1.10. 貝葉斯迴歸 1.1.11. 邏輯迴歸 1.1.12. 廣義線性模型 1.1.13. 隨機梯度下降 - SGD 1.1.14. 魯棒迴歸:離群點和建模誤差 1.1.15. 分位數迴歸 1.1.16. 多項式迴歸:使用基函式擴充套件線性模型 1.2. 線性判別分析和二次判別分析 1.2.1. 使用線性判別分析進行降維 1.2.2. LDA 和 QDA 分類器的數學公式 1.2.3. LDA 降維的數學公式 1.2.4. 收縮和協方差估計器 1.2.5. 估計算法 1.3. 核嶺迴歸 1.4. 支援向量機 1.4.1. 分類 1.4.2. 迴歸 1.4.3. 密度估計、新穎性檢測 1.4.4. 複雜度 1.4.5. 實用技巧 1.4.6. 核函式 1.4.7. 數學公式 1.4.8. 實現細節 1.5. 隨機梯度下降 1.5.1. 分類 1.5.2. 迴歸 1.5.3. 線上一類支援向量機 1.5.4. 稀疏資料的隨機梯度下降 1.5.5. 複雜度 1.5.6. 停止準則 1.5.7. 實用技巧 1.5.8. 數學公式 1.5.9. 實現細節 1.6. K近鄰 1.6.1. 無監督 K近鄰 1.6.2. K近鄰分類 1.6.3. K近鄰迴歸 1.6.4. K近鄰演算法 1.6.5. 最近質心分類器 1.6.6. K近鄰轉換器 1.6.7. 鄰域成分分析 1.7. 高斯過程 1.7.1. 高斯過程迴歸 (GPR) 1.7.2. 高斯過程分類 (GPC) 1.7.3. GPC 示例 1.7.4. 高斯過程的核函式 1.8. 交叉分解 1.8.1. PLSCanonical 1.8.2. PLSSVD 1.8.3. PLSRegression 1.8.4. 典型相關分析 1.9. 樸素貝葉斯 1.9.1. 高斯樸素貝葉斯 1.9.2. 多項式樸素貝葉斯 1.9.3. 補充樸素貝葉斯 1.9.4. 伯努利樸素貝葉斯 1.9.5. 分類樸素貝葉斯 1.9.6. 核外樸素貝葉斯模型擬合 1.10. 決策樹 1.10.1. 分類 1.10.2. 迴歸 1.10.3. 多輸出問題 1.10.4. 複雜度 1.10.5. 實用技巧 1.10.6. 樹演算法:ID3、C4.5、C5.0 和 CART 1.10.7. 數學公式 1.10.8. 缺失值支援 1.10.9. 最小代價-複雜度剪枝 1.11. 整合方法:梯度提升、隨機森林、bagging、投票、堆疊 1.11.1. 梯度提升樹 1.11.2. 隨機森林和其他隨機樹整合 1.11.3. Bagging 元估計器 1.11.4. 投票分類器 1.11.5. 投票迴歸器 1.11.6. 堆疊泛化 1.11.7. AdaBoost 1.12. 多類別和多輸出演算法 1.12.1. 多類別分類 1.12.2. 多標籤分類 1.12.3. 多類別-多輸出分類 1.12.4. 多輸出迴歸 1.13. 特徵選擇 1.13.1. 移除低方差特徵 1.13.2. 單變數特徵選擇 1.13.3. 遞迴特徵消除 1.13.4. 使用 SelectFromModel 進行特徵選擇 1.13.5. 順序特徵選擇 1.13.6. 作為管道一部分的特徵選擇 1.14. 半監督學習 1.14.1. 自訓練 1.14.2. 標籤傳播 1.15. 保序迴歸 1.16. 機率校準 1.16.1. 校準曲線 1.16.2. 校準分類器 1.16.3. 用法 1.17. 神經網路模型(有監督) 1.17.1. 多層感知器 1.17.2. 分類 1.17.3. 迴歸 1.17.4. 正則化 1.17.5. 演算法 1.17.6. 複雜度 1.17.7. 實用技巧 1.17.8. 使用 warm_start 獲得更多控制 2. 無監督學習 2.1. 高斯混合模型 2.1.1. 高斯混合 2.1.2. 變分貝葉斯高斯混合 2.2. 流形學習 2.2.1. 簡介 2.2.2. Isomap 2.2.3. 區域性線性嵌入 2.2.4. 改進的區域性線性嵌入 2.2.5. Hessian 特徵對映 2.2.6. 譜嵌入 2.2.7. 區域性切空間對齊 2.2.8. 多維尺度分析 (MDS) 2.2.9. t-分佈隨機近鄰嵌入 (t-SNE) 2.2.10. 實用技巧 2.3. 聚類 2.3.1. 聚類方法概述 2.3.2. K-均值 2.3.3. 親和傳播 2.3.4. 均值漂移 2.3.5. 譜聚類 2.3.6. 層次聚類 2.3.7. DBSCAN 2.3.8. HDBSCAN 2.3.9. OPTICS 2.3.10. BIRCH 2.3.11. 聚類效能評估 2.4. 雙向聚類 2.4.1. 譜共聚類 2.4.2. 譜雙向聚類 2.4.3. 雙向聚類評估 2.5. 訊號分解(矩陣分解問題) 2.5.1. 主成分分析 (PCA) 2.5.2. 核主成分分析 (kPCA) 2.5.3. 截斷奇異值分解和潛在語義分析 2.5.4. 字典學習 2.5.5. 因子分析 2.5.6. 獨立成分分析 (ICA) 2.5.7. 非負矩陣分解 (NMF or NNMF) 2.5.8. 潛在狄利克雷分配 (LDA) 2.6. 協方差估計 2.6.1. 經驗協方差 2.6.2. 收縮協方差 2.6.3. 稀疏逆協方差 2.6.4. 魯棒協方差估計 2.7. 新穎性檢測和離群點檢測 2.7.1. 離群點檢測方法概述 2.7.2. 新穎性檢測 2.7.3. 離群點檢測 2.7.4. 使用區域性離群因子進行新穎性檢測 2.8. 密度估計 2.8.1. 密度估計:直方圖 2.8.2. 核密度估計 2.9. 神經網路模型(無監督) 2.9.1. 受限玻爾茲曼機 3. 模型選擇和評估 3.1. 交叉驗證:評估估計器效能 3.1.1. 計算交叉驗證指標 3.1.2. 交叉驗證迭代器 3.1.3. 關於洗牌的注意事項 3.1.4. 交叉驗證和模型選擇 3.1.5. 置換檢驗分數 3.2. 調整估計器的超引數 3.2.1. 詳盡網格搜尋 3.2.2. 隨機引數最佳化 3.2.3. 使用逐次減半搜尋最佳引數 3.2.4. 引數搜尋技巧 3.2.5. 暴力引數搜尋的替代方案 3.3. 調整類別預測的決策閾值 3.3.1. 後調整決策閾值 3.4. 指標和評分:量化預測質量 3.4.1. 我應該使用哪個評分函式? 3.4.2. 評分 API 概述 3.4.3. scoring 引數:定義模型評估規則 3.4.4. 分類指標 3.4.5. 多標籤排序指標 3.4.6. 迴歸指標 3.4.7. 聚類指標 3.4.8. 啞估計器 3.5. 驗證曲線:繪製分數以評估模型 3.5.1. 驗證曲線 3.5.2. 學習曲線 4. 元資料路由 4.1. 使用示例 4.1.1. 加權評分與擬合 4.1.2. 加權評分與無權擬合 4.1.3. 無權特徵選擇 4.1.4. 不同的評分與擬合權重 4.2. API 介面 4.3. 元資料路由支援狀態 5. 檢查 5.1. 部分依賴圖和個體條件期望圖 5.1.1. 部分依賴圖 5.1.2. 個體條件期望 (ICE) 圖 5.1.3. 數學定義 5.1.4. 計算方法 5.2. 排列特徵重要性 5.2.1. 排列重要性演算法概述 5.2.2. 與樹中基於雜質的重要性的關係 5.2.3. 強相關特徵上的誤導值 6. 視覺化 6.1. 可用的繪圖工具 6.1.1. 顯示物件 7. 回撥 7.1. 註冊回撥函式 7.2. 回撥函式呼叫 7.3. 與元估計器(meta-estimators)配合使用 7.3.1. 常規回撥函式 7.3.2. 自動傳播的回撥函式 7.4. Scikit-learn 內建回撥函式 7.5. 回撥支援狀態 8. 資料集轉換 8.1. 流水線與複合估計器 8.1.1. Pipeline:鏈式估算器 8.1.2. 在迴歸中轉換目標 8.1.3. FeatureUnion:複合特徵空間 8.1.4. 用於異構資料的 ColumnTransformer 8.1.5. 複合估算器視覺化 8.2. 特徵提取 8.2.1. 從字典(dicts)中載入特徵 8.2.2. 特徵雜湊 8.2.3. 文字特徵提取 8.2.4. 影像特徵提取 8.3. 資料預處理 8.3.1. 標準化,或去均值和方差縮放 8.3.2. 非線性轉換 8.3.3. 歸一化 8.3.4. 分類特徵編碼 8.3.5. 離散化 8.3.6. 缺失值插補 8.3.7. 生成多項式特徵 8.3.8. 自定義轉換器 8.4. 缺失值插補 8.4.1. 單變數與多變數插補 8.4.2. 單變數特徵插補 8.4.3. 多變數特徵插補 8.4.4. 最近鄰插補 8.4.5. 保持特徵數量不變 8.4.6. 標記已插補的值 8.4.7. 處理 NaN 值的估計器 8.5. 無監督降維 8.5.1. PCA:主成分分析 8.5.2. 隨機投影 8.5.3. 特徵聚合 8.6. 隨機投影 8.6.1. Johnson-Lindenstrauss 引理 8.6.2. 高斯隨機投影 8.6.3. 稀疏隨機投影 8.6.4. 逆變換 8.7. 核近似 8.7.1. 核近似的 Nystroem 方法 8.7.2. 徑向基函式(RBF)核 8.7.3. 可加性卡方核 8.7.4. 偏斜卡方核 8.7.5. 透過張量草圖(Tensor Sketch)進行多項式核近似 8.7.6. 數學細節 8.8. 成對度量、親和力與核函式 8.8.1. 餘弦相似度 8.8.2. 線性核 8.8.3. 多項式核 8.8.4. Sigmoid 核 8.8.5. RBF 核 8.8.6. 拉普拉斯核 8.8.7. 卡方核 8.9. 轉換預測目標 (y) 8.9.1. 標籤二值化 8.9.2. 標籤編碼 9. 資料集載入工具 9.1. 玩具資料集 9.1.1. 鳶尾花(Iris)資料集 9.1.2. 糖尿病資料集 9.1.3. 手寫數字識別資料集 9.1.4. Linnerrud 資料集 9.1.5. 葡萄酒識別資料集 9.1.6. 威斯康星州乳腺癌(診斷)資料集 9.2. 真實世界資料集 9.2.1. Olivetti 人臉資料集 9.2.2. 20 newsgroups 文字資料集 9.2.3. LFW 人臉識別資料集 9.2.4. 森林植被覆蓋型別 9.2.5. RCV1 資料集 9.2.6. Kddcup 99 資料集 9.2.7. 加利福尼亞住房資料集 9.2.8. 物種分佈資料集 9.3. 生成的資料集 9.3.1. 分類與聚類生成器 9.3.2. 迴歸生成器 9.3.3. 流形學習生成器 9.3.4. 分解生成器 9.4. 載入其他資料集 9.4.1. 示例影像 9.4.2. svmlight / libsvm 格式的資料集 9.4.3. 從 openml.org 倉庫下載資料集 9.4.4. 從外部資料集載入 10. 使用 scikit-learn 進行計算 10.1. 擴大計算規模的策略:更大規模的資料 10.1.1. 使用核外學習(out-of-core learning)進行縮放 10.2. 計算效能 10.2.1. 預測延遲 10.2.2. 預測吞吐量 10.2.3. 提示與技巧 10.3. 並行、資源管理和配置 10.3.1. 並行化 10.3.2. 配置開關 11. 模型持久化 11.1. 工作流程概覽 11.1.1. 訓練並持久化模型 11.2. ONNX 11.3. skops.io 11.4. pickle, joblib 和 cloudpickle 11.5. 安全性與可維護性限制 11.5.1. 在生產環境中複製訓練環境 11.5.2. 服務模型製品 11.6. 總結關鍵點 12. 常見陷阱與推薦實踐 12.1. 不一致的預處理 12.2. 資料洩露 12.2.1. 如何避免資料洩露 12.2.2. 預處理過程中的資料洩露 12.3. 控制隨機性 12.3.1. 使用 None 或 RandomState 例項,以及重複呼叫 fit 和 split 12.3.2. 常見陷阱與細微差別 12.3.3. 一般建議 13. 資料互操作性 13.1. 針對轉換器使用 set_output API 的 Pandas/Polars 輸出 13.1.1. 特徵名稱的傳播 13.1.2. 引入 set_output API 13.2. 陣列 API 支援(實驗性) 13.2.1. 支援的陣列庫 13.2.2. 啟用 Array API 支援 13.2.3. 示例用法 13.2.4. 對 Array API 相容輸入的支援 13.2.5. 輸入和輸出陣列型別處理 13.2.6. 通用評估器檢查(面向開發人員) 13.2.7. 說明 14. 選擇正確的估計器 15. 外部資源、影片與演講 15.1. Scikit-learn 線上公開課(MOOC) 15.2. 影片 15.3. 科學 Python 新手? 15.4. 外部教程