【机器学习】基本概念简介

时间：2024-09-28 20:23:45浏览次数：3

标签：机器特征简介模型样本学习标签数据基本概念

机器学习

人工智能的三大概念

人工智能 AI

AI 是研究智能操作的计算代理
AI 是使用计算机来模拟而不是人脑
机器学习 ML

使计算机能够在无需明确编程的情况下进行学习的研究领域
深度学习 DL

也叫深度神经网络，大脑仿生，设计一层一层的神经元模拟万事万物

他们之间的关系:

机器学习是实现人工智能的一种途径
深度学习是机器学习的一种方法发展而来的

AI 发展的三要素数据算法算力

1956年人工智能元年

样本/特征/标签

样本(sample) ：一行数据就是一个样本；多个样本组成数据集；有时一条样本被叫成一条记录

特征(feature) ：一列数据一个特征，有时也被称为属性

标签/目标(label/target) ：模型要预测的那一列数据。本场景是就业薪资
就业薪资与培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系
特征如何理解（重点）：特征是从数据中抽取出来的，对结果预测有用的信息 eg:房价预测、车图片识别

训练集用来训练模型、测试集用来测试评估模型。
一般划分比例7:3 ~ 8:2

有监督学习/ 无监督学习 / 半监督学习 / 强化学习

有监督学习

定义：输入数据是由输入特征值和目标值所组成，即输入的训练数据有标签的
数据集：需要标注数据的标签/目标值

分类问题

目标值（标签值）是不连续的
分类种类：二分类、多分类

回归问题

目标值（标签值）是连续的

无监督学习

定义：输入数据没有被标记，即样本数据类别未知，没有标签，根据样本间的相似性，对样本集聚类，以发现事物内部结构及相互关系。
数据集：不需要标注数据

特点:

1 训练数据无标签

2 根据样本间的相似性对样本集进行聚类，发现事物内部结构及相互关系

半监督学习

1 让专家标注少量数据，利用已经标记的数据（也就是带有类标签）训练出一个模型
2 再利用该模型去套用未标记的数据
3 通过询问领域专家分类结果与模型分类结果做对比

好处 : 大幅度降低标记成本

强化学习

1 强化学习（Reinforcement Learning）：机器学习的一个重要分支
2 应用场景：里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理：通过构建四个要素：agent，环境状态，行动，奖励，agent根据环境状态进行行动获得最多的累计奖励。
请添加图片描述

机器学习建模流程

获取数据: 搜集与完成机器学习任务相关的数据集
数据基本处理: 数据集中异常值,缺失值的处理等
特征工程: 对数据特征进行提取、转成向量，让模型达到最好的效果
机器学习:选择合适的算法对模型进行训练根据不同的任务来选中不同的算法；有监督学习,无监督学习,半监督学习,强化学习
模型评估: 评估效果好上线服务,评估效果不好则重复上述步骤

特征工程

特征提取: 原始数据中提取任务相关的特征
特征预处理: 特征对模型产生影响；因量纲问题，有些特征对模型影响大、有些影响小
特征降维: 将原始数据的维度降低，叫做特征降维，一般会对原始数据产生影响
特征选择: 原始数据特征很多，与任务相关是其中一个特征集合子集，不会改变原数据
特征组合: 把多个的特征合并成一个特征。利用乘法或加法来完成

请添加图片描述

拟合

拟合: 用在机器学习领域用来表示模型对样本点的拟合情况
欠拟合: 模型在训练集上表现很差测试集上也表现很差
过拟合: 模型在训练集上表现很好测试集上表现很差

请添加图片描述

欠拟合产生的原因：模型过于简单
过拟合产生的原因：模型太过于复杂、数据不纯、训练数据太少

泛化 Generalization ：具体的、个别的扩大为一般的能力
奥卡姆剃刀原则：给定两个具有相同泛化误差的模型，倾向选择较简单的模型

标签：机器,特征,简介,模型,样本,学习,标签,数据,基本概念
From： https://blog.csdn.net/weixin_57336987/article/details/142621030

机器学习和深度学习
机器学习和深度学习是人工智能领域的两个重要子领域，虽然它们有许多共同点，但也有一些关键区别。主要区别：1.定义机器学习（MachineLearning,ML）：机器学习是一种通过数据学习和预测的算法和统计模型。它包括监督学习、无监督学习和强化学习等类型。深度学习（Deep......
机器视觉工程师一直做调试，维护岗位，想转岗软件方面C#从零开始，快则三年不到，慢则一辈子不
其实不是每一家做视觉检测，或者是做设备必须要机器视觉工程师开发，其实公司对标准软件更感兴趣，主要非常高的性价比，省时省钱省人。所以这里有个问题，就是公司平台的重要性，首先他对开发是刚需，还有就是它的非标项目多，可以让你上手练习，机器视觉开发对公司不是那么重要这类型公司，调......
准备蓝桥杯和ACM：C++标准库头文件及其常用功能简介
概述在C++编程中，标准库为开发者提供了丰富的工具和功能，使得代码更简洁、易于维护。本文将深入探讨一些常用的C++标准库头文件，如<iostream>、<algorithm>、<string>等，以及它们所提供的基本功能与常见用法。通过对这些头文件的理解和应用，开发者能够更加高效地......
【机器学习】ID3、C4.5、CART 算法
目录常见的决策树算法1.ID32.C4.53.CART决策树的优缺点优点：缺点：决策树的优化常见的决策树算法1.ID3ID3（IterativeDichotomiser3）算法使用信息增益作为特征选择的标准。它是一种贪心算法，信息增益表示按某特征划分数据集前后信息熵的变化量，变化量越大，表示使用该......
李宏毅机器学习
P6自注意力机制引言：到目前为止，在预测或者图像识别（已经假设了图像大小是相等的）的任务中，都是将输入看作是一个向量，输出可能是数值（回归任务）也可能是类别（分类任务），那假如输入是一排向量或者这个向量长度是改变的呢？例如：输入形式（一）句子 ......
AIGC基础工具-科学计算和数据处理的重要库NumPy（Numerical Python）简介
文章目录1.NumPy的核心概念1.1`ndarray`：多维数组对象示例代码2.NumPy的数据类型(`dtype`)示例代码3.NumPy的数组创建方法3.1使用`array()`创建数组3.2使用`zeros()`和`ones()`3.3使用`arange()`和`linspace()`3.4使用`random`模块生成随机数......
[机器视觉][轻量化网络]GhostFormer: Efficiently amalgamated CNNtransformer archit
目的与成果: 本文旨在提出一个轻量化的模型，在减少模型参数量的同时，保持一定的精度, 实验表明，该模型在PascalVOC数据集上的计算成本不到YOLOv7的一半，仅损失约3%[email protected]，在MSCOCO数据集上的损失为9.7%[email protected]，与GhostNet相比提高了0.95。本文的主要思想: ......
软件无线电硬件平台USRP简介
目录一、平台概述1.1.设计理念1.2.应用场景1.3.常见型号1.3.1.N系列1.3.2.E系列1.3.3.B系列二、硬件组成2.1.母板2.2.子板2.3.天线三、主要特点3.1.灵活性3.2.高性能3.3.可扩展性3.4.开源支持3.5.广泛的软件支持四、软件支持4.1.GNURadio4......
李宏毅机器学习2023-HW10-Adversarial Attack
文章目录TaskBaselineFGSM(FastGradientSignMethod(FGSM)I-FGSM(IterativeFastGradientSignMethod)MI-FGSM(MomentumIterativeFastGradientSignMethod)M-DI2-FGSM(DiverseInputMomentumIterativeFastGradientSignMethod)ReportfgsmattackJepgCom......
C++引用的基本概念，引用的定义与使用
C++中的引用（Reference）是一种复合类型，它是某个已存在变量的别名（alias）。换句话说，引用在内部存储了另一个变量的地址，但是与指针不同的是，引用在定义时必须被初始化，并且一旦被初始化后，它就不能再被改变为引用另一个变量（即引用一旦绑定到一个变量，就不能再被绑定到另一个变量）。此外，引......

【机器学习】基本概念简介

机器学习

人工智能的三大概念

他们之间的关系:

样本/特征/标签

有监督学习/ 无监督学习 / 半监督学习 / 强化学习

有监督学习

分类问题

回归问题

无监督学习

特点:

半监督学习

好处 : 大幅度降低标记成本

强化学习

机器学习建模流程

特征工程

拟合

相关文章

赞助商

阅读排行

【 机器学习】基本概念简介

机器学习

人工智能的三大概念

他们之间的关系:

样本/特征/标签

有监督学习/ 无监督学习 / 半监督学习 / 强化学习

有监督学习

分类问题

回归问题

无监督学习

特点:

半监督学习

好处 : 大幅度降低标记成本

强化学习

机器学习建模流程

特征工程

拟合

相关文章

赞助商

阅读排行

【机器学习】基本概念简介