首页 > 其他分享 >机器学习大纲总结

机器学习大纲总结

时间:2024-10-30 16:47:56浏览次数:3  
标签:总结 机器 大纲 1.2 特征 模型 学习 score 数据

一、概念

1. 人工智能

人工智能包含机器学习,机器学习包含深度学习

2. 机器学习

机器学习是实现人工智能的一种途径

机器学习 = 传统机器学习 + 深度学习

3. 深度学习

深度学习是由机器学习的一种方法发展而来

4. 发展三要素

数据、算法、算力

5. 发展史

5.1 符号主义(20世纪50-70):专家系统占主导

1950年:图灵设计国际象棋程序

1962年:IBM Arthur Samuel 的跳棋程序战胜人类高手(人工智能第一次浪潮)

5.2 统计主义(20世纪80-2000):主要用统计模型解决问题

1993年:Vapnik提出SVM

1997年:IBM深蓝战胜卡斯帕罗夫(人工智能第二次浪潮)

5.3 神经网络(21世纪初期):神经网络、深度学习流派

2012年:AlexNet 深度学习的开山之作

2016年:Googel AlphaGo 战胜李世石(人工智能第三次浪潮)

5.4 大规模预训练模型(2017-至今):大规模预训练模型

2017年:自然语言处理NLP的Transformer框架出现

2018年:Bert和GPT的出现

2022年:ChatGPT的出现,进入到大模型AGIC发展的阶段

2023年-至今:国内掀起“百模大战”,AGIC赋能千行百业

二、获取数据

1. 数据集

样本:一行数据就是一个样本

特征:一列数据就是一个特征,有时也被称为属性

目标值/标签:模型要预测的那一列数据

2. 数据集划分

训练集/测试集

3. 数据分析

三、特征工程

1. 特征提取

从原始数据中提取与任务相关的特征

2. 特征预处理

特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小

对数据一般使用归一化和标准化

3. 特征降维

3.1 为什么

特征对训练模型时非常重要的;用于训练的数据集包含一些不重要的特征,可能导致模型泛化性能不佳

3.2 作用

在某些限定条件下,降低特征个数

3.3 基本方法

3.3.1 低方差过滤法

指的是删除方差低于某些阈值的一些特征

特征方差小:

特征值的波动范围小,包含的信息少,模型很难学习到信息

特征方差大:

特征值的波动范围大,包含的信息相对丰富,便于模型进行学习

3.3.2 PCA(主成分分析)降维法

(Principal Component Analysis)通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度)损失少量信息,在此过程中可能会舍弃原有数据,创造新的变量

3.3.3 相关系数法

通过反映特征列之间(变量之间)密切相关系数指标来对数据进行降维

相关系数类型有皮尔逊相关系数和斯皮尔曼相关系数

4. 特征选择

原始数据特征很多,但是对模型训练相关是其中一个特征集合子集

5. 特征组合

把多个的特征合并成一个特征。一般利用乘法或加法来完成

四、模型训练

1. 有监督学习

1.1 回归(标签连续)

1.1.1 定义

目标值连续

1.1.2 算法

KNN

线性回归

集成学习

支持向量机SVM

1.1.3 评估指标

MSE(均方误差损失)

MAE(平均绝对误差)

1.2 分类(标签不连续)

1.2.1 定义

目标值离散

1.2.2 类型

二分类(是/否)

多分类

1.2.3 算法

KNN

逻辑回归

决策树

集成学习

朴素贝叶斯

支持向量机SVM

1.2.4 评估方法

accuracy_score(准确率)

precision_score(精确率)

recall_score(召回率)

f1_score

classification_report(分类报告)

1.3 超参数选择

网格搜索法

2. 无监督学习

2.1 聚类

2.1.1 根据聚类颗粒度

细聚类

粗聚类

2.1.2 根据实现方法

Kmeans算法

层次聚类

DBSCAN聚类

谱聚类

3. 半监督学习(部分有标签)

半自动标注数据

4. 强化学习

4.1 四个元素

Agent(智能体)、环境(Environment)、行动(Action)、奖励(Reward)

五、模型预测

六、模型评估

6.1 有监督

6.1.1 回归

MSE(均方误差损失)

MAE(平均绝对误差)

6.1.2 分类

accuracy_score(准确率)

precision_score(精确率)

recall_score(召回率)

classification_report(分类报告)

6.2 无监督

SSE误差平方和法

SC轮廓系数法

CH轮廓系数法

6.3 拟合效果

欠拟合

正好拟合

过拟合

奥卡姆剃刀原则:如何必要,勿增实体

标签:总结,机器,大纲,1.2,特征,模型,学习,score,数据
From: https://blog.csdn.net/excellent121/article/details/143359653

相关文章

  • 使用 FastGPT 工作流搭建 GitHub Issues 自动总结机器人
    如今任何项目开发节奏都很快,及时掌握项目动态是很重要滴,GitHubIssues一般都是开发者和用户反馈问题的主要渠道。然而,随着Issue数量的增加,及时跟进每一个问题会变得越来越困难。为了解决这个痛点,我们开发了一个自动化Issue总结机器人,它的功能很简单:自动获取项目最新的Gi......
  • 上架总结
    上架总结: 1.项目内有使用到SDK需要下载最新包,有使用的文件页需要下载最新的,即使是代码一样也要下载最新的包拖入里面使用.例如项目里面用到的face++sdk,google服务文件,每个项目最好是去官网下载最新包拖入项目,不是从其他项目拖入.2.项目内有使用到第三方库的,最好混淆一......
  • pikachu靶场通关学习大纲及重点掌握内容
    Pikachu是一个流行的漏洞测试和教学平台,它包含了一系列常见的Web漏洞,非常适合初学者学习Web安全。以下是Pikachu靶场的通关学习大纲及重点掌握内容:学习大纲:基础知识准备网络基础HTTP协议HTML/CSS/JavaScript基础PHP基础环境搭建Pikachu靶场的下载与安装配置Web服务器和数......
  • 掌握机器学习中的偏差与方差:模型性能的关键
    引言在机器学习中,偏差(Bias)和方差(Variance)是两个至关重要的概念,它们共同影响了模型的性能。理解偏差与方差的本质,能够帮助我们找到模型的平衡点,提高模型的泛化能力,避免欠拟合和过拟合。本篇文章将深入探讨机器学习中的偏差与方差,并通过代码示例来演示这些概念。1.偏差与方差......
  • KUKA库卡机器人保养维修
    KUKA机器人由机械手和控制柜组成,每日机器人保养包括:控制箱、教导盒、手腕之表面擦拭,还有噴槍之清洁。KUKA机器人控制柜保养1)断掉控制柜的所有供电电源。2)检查主机板、存储板、计算板、以及驱动板。.3)检查柜子里面无杂物、灰尘等,查看密封性4)检查接头是否松动,电缆是否松动或者破损......
  • 【机器学习篇】线性回归和逻辑回归详解
    一、线性回归定义:线性回归是一种利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。它试图找到一个最佳的线性方程,以描述自变量(输入特征)和因变量(目标变量)之间的关系。表达式:一元线性回归的表达式为y=mx+c,其中y是因变量,x是自变量,m......
  • Java & Lock & AQS & 总结
    前言 相关系列《Java&Lock&目录》(持续更新)《Java&Lock&AQS&源码》(学习过程/多有漏误/仅作参考/不再更新)《Java&Lock&AQS&总结》(学习总结/最新最准/持续更新)《Java&Lock&AQS&问题》(学习解答/持续更新)  涉及内容《Java&Lock&ReentrantLock......
  • scikit-learn 机器学习
    scikit-learn是一个基于SciPy构建的机器学习Python模块。如果你已经安装了NumPy和SciPy,那么安装scikit-learn最简单的方法是使用pip:pipinstall-Uscikit-learn或者conda:condainstall-cconda-forgescikit-learn简单有效的预测数据分析工具每个人都可......
  • (转)Go加密算法总结
    原文:https://www.cnblogs.com/you-men/p/14160439.html加密解密在实际开发中应用比较广泛,常用加解密分为:“对称式”、“非对称式”和”数字签名“。对称式:对称加密(也叫私钥加密)指加密和解密使用相同密钥的加密算法。具体算法主要有DES算法,3DES算法,TDEA算法,Blowfish算法,RC5算......
  • 机器学习---(7)朴素贝叶斯
    1朴素贝叶斯介绍朴素贝叶斯(NaiveBayes)分类器是基于贝叶斯定理的一种简单概率分类器。它假设各特征之间相互独立,这一假设被称为“朴素”的假设。朴素贝叶斯分类器广泛应用于文本分类、垃圾邮件检测等领域。2公式朴素贝叶斯分类器的核心公式是贝叶斯定理:其中:是给定特......