机器学习大纲总结

时间：2024-10-30 16:47:56浏览次数：6

标签：总结机器大纲 1.2 特征模型学习 score 数据

一、概念

1. 人工智能

人工智能包含机器学习，机器学习包含深度学习

2. 机器学习

机器学习是实现人工智能的一种途径

机器学习 = 传统机器学习 + 深度学习

3. 深度学习

深度学习是由机器学习的一种方法发展而来

4. 发展三要素

数据、算法、算力

5. 发展史

5.1 符号主义（20世纪50-70）：专家系统占主导

1950年：图灵设计国际象棋程序

1962年：IBM Arthur Samuel 的跳棋程序战胜人类高手（人工智能第一次浪潮）

5.2 统计主义（20世纪80-2000）：主要用统计模型解决问题

1993年：Vapnik提出SVM

1997年：IBM深蓝战胜卡斯帕罗夫（人工智能第二次浪潮）

5.3 神经网络（21世纪初期）：神经网络、深度学习流派

2012年：AlexNet 深度学习的开山之作

2016年：Googel AlphaGo 战胜李世石（人工智能第三次浪潮）

5.4 大规模预训练模型（2017-至今）：大规模预训练模型

2017年：自然语言处理NLP的Transformer框架出现

2018年：Bert和GPT的出现

2022年：ChatGPT的出现，进入到大模型AGIC发展的阶段

2023年-至今：国内掀起“百模大战”，AGIC赋能千行百业

二、获取数据

1. 数据集

样本：一行数据就是一个样本

特征：一列数据就是一个特征，有时也被称为属性

目标值/标签：模型要预测的那一列数据

2. 数据集划分

训练集/测试集

3. 数据分析

三、特征工程

1. 特征提取

从原始数据中提取与任务相关的特征

2. 特征预处理

特征对模型产生影响；因量纲问题，有些特征对模型影响大、有些影响小

对数据一般使用归一化和标准化

3. 特征降维

3.1 为什么

特征对训练模型时非常重要的；用于训练的数据集包含一些不重要的特征，可能导致模型泛化性能不佳

3.2 作用

在某些限定条件下，降低特征个数

3.3 基本方法

3.3.1 低方差过滤法

指的是删除方差低于某些阈值的一些特征

特征方差小：

特征值的波动范围小，包含的信息少，模型很难学习到信息

特征方差大：

特征值的波动范围大，包含的信息相对丰富，便于模型进行学习

3.3.2 PCA（主成分分析）降维法

（Principal Component Analysis）通过对数据维数进行压缩，尽可能降低原数据的维数（复杂度）损失少量信息，在此过程中可能会舍弃原有数据，创造新的变量

3.3.3 相关系数法

通过反映特征列之间（变量之间）密切相关系数指标来对数据进行降维

相关系数类型有皮尔逊相关系数和斯皮尔曼相关系数

4. 特征选择

原始数据特征很多，但是对模型训练相关是其中一个特征集合子集

5. 特征组合

把多个的特征合并成一个特征。一般利用乘法或加法来完成

四、模型训练

1. 有监督学习

1.1 回归（标签连续）

1.1.1 定义

目标值连续

1.1.2 算法

KNN

线性回归

集成学习

支持向量机SVM

1.1.3 评估指标

MSE（均方误差损失）

MAE（平均绝对误差）

1.2 分类（标签不连续）

1.2.1 定义

目标值离散

1.2.2 类型

二分类（是/否）

多分类

1.2.3 算法

KNN

逻辑回归

决策树

集成学习

朴素贝叶斯

支持向量机SVM

1.2.4 评估方法

accuracy_score（准确率）

precision_score（精确率）

recall_score（召回率）

f1_score

classification_report（分类报告）

1.3 超参数选择

网格搜索法

2. 无监督学习

2.1 聚类

2.1.1 根据聚类颗粒度

细聚类

粗聚类

2.1.2 根据实现方法

Kmeans算法

层次聚类

DBSCAN聚类

谱聚类

3. 半监督学习（部分有标签）

半自动标注数据

4. 强化学习

4.1 四个元素

Agent（智能体）、环境（Environment）、行动（Action）、奖励（Reward）

五、模型预测

六、模型评估

6.1 有监督

6.1.1 回归