【AiDocZh.com】Scikit-Learn1.6官方文档中文翻译上线啦
网站地址:http://www.aidoczh.com/scikit-learn/
一、scikit-learn官方文档翻译
自从有了想翻译scikit-learn官方文档的想法,已经有了半年时间,现在终于翻译和校验完了。由于精力有限,难免会有一些错误,请大家见谅。scikit-learn是机器学习领域最重要的工具,但由于一些大量的专业词汇,导致阅读会有一些缓慢,通过翻译了中文文档,可以快速了解相关知识,也可以跟官网的对应网页找到对应。希望能帮助到数据挖掘、机器学习领域学习的同学。
二、网站地图
1. 监督学习
1.1. 线性模型
1.2. 线性判别分析和二次判别分析
1.3. 核岭回归
1.4. 支持向量机
1.5. 随机梯度下降
1.6. 最近邻算法
1.7. 高斯过程
1.8. 交叉分解
1.9. 朴素贝叶斯
1.10. 决策树
1.11. 集成方法:梯度提升、随机森林、装袋、投票、堆叠
1.12. 多类和多输出算法
1.13. 特征选择
1.14. 半监督学习
1.15. 等渗回归
1.16. 概率校准
1.17. 神经网络模型(监督学习)
2. 无监督学习
2.1. 高斯混合模型
2.2. 流形学习
2.3. 聚类
2.4. 双向聚类
2.5. 信号分解为成分(矩阵分解问题)
2.6. 协方差估计
2.7. 新奇和异常检测
2.8. 密度估计
2.9. 神经网络模型(无监督)
3. 模型选择与评估
3.1. 交叉验证:评估估计器性能
3.2. 调整估计器的超参数
3.3. 调整分类预测的决策阈值
3.4. 度量和评分:量化预测质量
3.5. 验证曲线:绘制分数以评估模型
4. 检查
4.1. 部分依赖图与个体条件期望图
4.2. 排列特征重要性
5. 可视化
6. 数据集转换
6.1. 流水线和复合估计器
6.2. 特征提取
6.3. 数据预处理
6.4. 缺失值的插补
6.5. 无监督维度缩减
6.6. 随机投影
6.7. 核近似
6.8. 成对度量、亲和力和核函数
6.9. 转换预测目标(
7. 数据集加载工具
7.1. 玩具数据集
7.2. 真实世界数据集
7.3. 生成的数据集
7.4. 加载其他数据集
8. 使用 scikit-learn 进行计算
8.1. 计算扩展策略:更大的数据
8.2. 计算性能
8.3. 并行性、资源管理和配置
9. 模型持久化
10. 常见陷阱与推荐实践
11. 调度
11.1. 数组 API 支持(实验性)
12. 选择合适的估计器
13. 外部资源、视频和演讲
五、案例代码
Release Highlights
scikit-learn 1.5 版本发布亮点
scikit-learn 1.4 版本发布亮点
scikit-learn 1.3 版本发布亮点
scikit-learn 1.2 版本发布亮点
scikit-learn 1.1 版本发布亮点
scikit-learn 1.0 版本发布亮点
scikit-learn 0.24 版本发布亮点
scikit-learn 0.23 版本发布亮点
scikit-learn 0.22 版本发布亮点
Biclustering
一个谱双聚类算法的演示
使用谱协同聚类算法对文档进行双聚类
谱聚类算法演示
Calibration
3类分类的概率校准
分类器校准比较
分类器的概率校准
概率校准曲线
Classification
分类器比较
用于分类的普通、Ledoit-Wolf 和 OAS 线性判别分析
线性判别分析和二次判别分析的协方差椭球体
绘制分类概率
识别手写数字
Clustering
DBSCAN聚类算法演示
HDBSCAN聚类算法演示
K-Means 和 MiniBatchKMeans 聚类算法的比较
K-Means++ 初始化示例
K-means 聚类
OPTICS聚类算法示例
k-means 假设的演示
k-means 初始化影响的经验评估
二分 K-Means 和常规 K-Means 性能比较
二维嵌入数字的各种凝聚聚类
亲和传播聚类算法示例
使用K均值的颜色量化
使用不同度量的凝聚聚类
使用轮廓分析选择KMeans聚类的簇数
在玩具数据集上比较不同的聚类算法
在线学习人脸部件的字典
均值漂移聚类算法示例
对比不同层次聚类方法在玩具数据集上的表现
将希腊硬币的图片分割成多个区域
层次聚类:结构化 vs 非结构化 Ward
带有和不带有结构的凝聚聚类
归纳聚类
手写数字数据上的K-Means聚类演示
比较 BIRCH 和 MiniBatchKMeans
特征聚合
特征聚合与单变量选择
用于图像分割的谱聚类
矢量量化示例
硬币图像的结构化Ward层次聚类演示
绘制层次聚类树状图
聚类性能评估中的机会调整
Covariance estimation
Ledoit-Wolf 与 OAS 估计
收缩协方差估计:LedoitWolf vs OAS 和最大似然
稀疏逆协方差估计
稳健与经验协方差估计
稳健的协方差估计和马氏距离的相关性
Cross decomposition
主成分回归与偏最小二乘回归
比较交叉分解方法
Dataset examples
数字数据集
绘制随机生成的分类数据集
绘制随机生成的多标签数据集
鸢尾花数据集
Decision Trees
决策树回归
多输出决策树回归
理解决策树结构
绘制在鸢尾花数据集上训练的决策树的决策边界
通过代价复杂度剪枝对决策树进行后剪枝
Decomposition
LDA和PCA在鸢尾花数据集上的二维投影比较
生成示例数据
人脸数据集分解
使用FastICA进行盲源分离
使用字典学习进行图像去噪
使用概率PCA和因子分析(FA)进行模型选择
使用预先计算的字典进行稀疏编码
使用鸢尾花数据集的PCA示例
因子分析(带旋转)以可视化模式
增量PCA
核主成分分析
Developing Estimators
Ensemble methods
AdaBoost 决策树回归
IsolationForest 示例
二分类AdaBoost
使用堆叠方法结合预测器
使用完全随机树的哈希特征变换
使用并行树森林评估像素重要性
使用树的森林评估特征重要性
使用树集成进行特征转换
单一估计器与袋装法:偏差-方差分解
单调约束
多类AdaBoost决策树
梯度提升中的提前停止
梯度提升中的类别特征支持
梯度提升回归
梯度提升回归的预测区间
梯度提升袋外估计
比较随机森林和多输出元估计器
比较随机森林和直方图梯度提升模型
直方图梯度提升树的特性
绘制VotingClassifier的决策边界
绘制个体和投票回归预测
绘制由VotingClassifier计算的类别概率
绘制鸢尾花数据集上树集成的决策边界
随机森林的袋外误差
Examples based on real world datasets
使用核PCA进行图像去噪
使用特征脸和支持向量机进行人脸识别的示例
使用非负矩阵分解和潜在狄利克雷分配进行主题提取
压缩感知:具有L1先验(Lasso)的断层扫描重建
可视化股票市场结构
文本文档的外存分类
时间序列预测的滞后特征
时间相关特征工程
模型复杂度影响
物种分布建模
真实数据集上的异常值检测
维基百科主特征向量
预测延迟
Feature Selection
ANOVA SVM 管道
F检验和互信息的比较
单变量特征选择
基于模型和顺序特征选择
带交叉验证的递归特征消除
递归特征消除
Gaussian Mixture Models
GMM 初始化方法
GMM 协方差
变分贝叶斯高斯混合模型的浓度先验类型分析
高斯混合模型椭圆体
高斯混合模型正弦曲线
高斯混合模型的密度估计
高斯混合模型选择
Gaussian Process for Machine Learning
不同核函数下高斯过程的先验和后验示例
使用高斯过程回归(GPR)对莫纳罗亚数据集的CO2水平进行预测
在 XOR 数据集上展示高斯过程分类 (GPC)
基于高斯过程分类(GPC)的鸢尾花数据集
核岭回归和高斯过程回归的比较
离散数据结构上的高斯过程
高斯过程分类 (GPC) 的概率预测
高斯过程分类 (GPC) 的等概率线
高斯过程回归 (GPR) 估计数据噪声水平的能力
高斯过程回归:基础入门示例
Generalized Linear Models
20类新闻组数据集上的多分类稀疏逻辑回归
L1-正则化路径的逻辑回归
L1惩罚和逻辑回归中的稀疏性
L2 正则化对岭回归系数的影响
Lasso 和弹性网络
Lasso模型选择:AIC-BIC / 交叉验证
SGD:惩罚
SGD:最大间隔分离超平面
Theil-Sen 回归
Tweedie回归在保险理赔中的应用
使用LARS的Lasso路径
使用RANSAC进行稳健的线性模型估计
使用多项逻辑回归和L1正则化进行MNIST分类
使用贝叶斯岭回归进行曲线拟合
使用预计算的Gram矩阵和加权样本拟合弹性网络
分位数回归
单类支持向量机与使用随机梯度下降的单类支持向量机
在鸢尾花数据集上绘制多类SGD
基于L1的稀疏信号模型
多任务Lasso的联合特征选择
多项式和样条插值
带有强异常值的数据集上的Huber回归与岭回归对比
普通最小二乘法和岭回归方差
正交匹配追踪
比较各种在线求解器
比较线性贝叶斯回归器
泊松回归和非正态损失
稀疏性示例:仅拟合特征1和特征2
稠密数据和稀疏数据上的Lasso回归
稳健线性估计拟合
线性回归示例
绘制多项式和一对其余逻辑回归
绘制岭回归系数与正则化参数的关系
通过信息准则进行Lasso模型选择
逻辑函数
逻辑回归三分类器
随机梯度下降的早停
随机梯度下降:凸损失函数
随机梯度下降:加权样本
非负最小二乘法
Inspection
具有多重共线性或相关特征的排列重要性
机器学习在推断因果效应方面的失败
线性模型系数解释中的常见陷阱
置换重要性与随机森林特征重要性(MDI)对比
部分依赖图和个体条件期望图
Kernel Approximation
通过多项式核近似实现可扩展学习
Manifold learning
t-SNE:不同困惑度值对形状的影响
多维尺度分析
手写数字的流形学习:局部线性嵌入,Isomap…
流形学习方法的比较
球面上的流形学习方法
瑞士卷和瑞士洞降维
Miscellaneous
RBF核的显式特征映射近似
ROC 曲线与可视化 API
介绍
使用多输出估计器进行人脸补全
使用显示对象进行可视化
使用部分依赖的高级绘图
使用随机投影进行嵌入的Johnson-Lindenstrauss界限
保序回归
元数据路由
多标签分类
异常检测估计器的评估
显示估计器和复杂的管道
显示流水线
核岭回归和支持向量回归的比较
比较用于异常检测的算法在玩具数据集上的表现
Missing Value Imputation
使用不同变体的迭代插补法填补缺失值
在构建估计器之前填补缺失值
Model Selection
交叉验证评分和GridSearchCV的多指标评估演示
使用网格搜索进行模型的统计比较
后处理调整决策函数的截断点
在 scikit-learn 中可视化交叉验证行为
多分类接收者操作特性(ROC)
嵌套与非嵌套交叉验证
平衡模型复杂性和交叉验证得分
接收者操作特性(ROC)与交叉验证
文本特征提取和评估的示例管道
检测错误权衡(DET)曲线
欠拟合与过拟合
混淆矩阵
类似然比率用于衡量分类性能
精确率-召回率
绘制交叉验证预测
绘制学习曲线和检查模型的可扩展性
绘制验证曲线
网格搜索与交叉验证的自定义重拟合策略
网格搜索与逐步减半的比较
训练误差与测试误差
调整决策阈值以适应成本敏感学习
候选人数和每次迭代的资源量
通过排列检验分类评分的显著性
随机搜索与网格搜索在超参数估计中的比较
Multiclass methods
多类训练元估计器概述
Multioutput methods
使用分类器链进行多标签分类
Nearest Neighbors
TSNE中的近似最近邻
使用局部离群因子(LOF)进行新颖性检测
使用局部离群因子(LOF)进行离群点检测
使用邻域成分分析进行降维
最近质心分类
最近邻分类
最近邻回归
核密度估计
比较有无邻域成分分析的最近邻分类
物种分布的核密度估计
简单的一维核密度估计
缓存最近邻
邻域成分分析示例
Neural Networks
MNIST上MLP权重的可视化
多层感知器中的正则化变化
对比MLPClassifier的随机学习策略
用于数字分类的受限玻尔兹曼机特征
Pipelines and composite estimators
使用Pipeline和GridSearchCV选择降维方法
具有异构数据源的列转换器
带有混合类型的列转换器
流水线:将PCA和逻辑回归连接起来
转换回归模型中的目标变量的效果
连接多种特征提取方法
Preprocessing
使用KBinsDiscretizer离散连续特征
将数据映射到正态分布
展示KBinsDiscretizer的不同策略
比较不同缩放器对含有异常值的数据的影响
特征离散化
特征缩放的重要性
目标编码器与其他编码器的比较
目标编码器的内部交叉拟合
Semi Supervised Classification
半监督分类器与SVM在鸢尾花数据集上的决策边界
文本数据集上的半监督分类
标签传播学习复杂结构
标签传播数字主动学习
标签传播数字:展示性能
阈值变化对自训练的影响
Support Vector Machines
RBF SVM 参数
SVM 平局打破示例
SVM 边界示例
SVM-Anova:带有单变量特征选择的SVM
SVM:加权样本
SVM:最大间隔分离超平面
SVM:用于不平衡类别的分离超平面
使用不同SVM核函数绘制分类边界
使用线性和非线性核的支持向量回归 (SVR)
使用非线性核(RBF)的单类SVM
在 LinearSVC 中绘制支持向量
在鸢尾花数据集上绘制不同的SVM分类器
带有自定义核函数的SVM
缩放SVC的正则化参数
Tutorial exercises
数字分类练习
糖尿病数据集上的交叉验证练习
Working with text documents
使用k-means聚类文本文档
使用稀疏特征对文本文档进行分类
特征哈希器和字典向量化器比较