首页 > 其他分享 >【 机器学习】基本概念简介

【 机器学习】基本概念简介

时间:2024-09-28 20:23:45浏览次数:3  
标签:机器 特征 简介 模型 样本 学习 标签 数据 基本概念

机器学习

人工智能的三大概念

  • 人工智能 AI

    AI 是研究智能操作的计算代理
    AI 是使用计算机来模拟而不是人脑

  • 机器学习 ML

    使计算机能够在无需明确编程的情况下进行学习的研究领域

    请添加图片描述

  • 深度学习 DL

    也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
    请添加图片描述请添加图片描述

他们之间的关系:

  • 机器学习是实现人工智能的一种途径
  • 深度学习是机器学习的一种方法发展而来的
    请添加图片描述

AI 发展的三要素 数据 算法 算力

1956年人工智能元年

样本/特征/标签

样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录

特征(feature) :一列数据一个特征,有时也被称为属性

标签/目标(label/target) :模型要预测的那一列数据。本场景是就业薪资
就业薪资 与 培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系
特征如何理解(重点):特征是从数据中抽取出来的,对结果预测有用的信息 eg:房价预测、车图片识别

  • 训练集用来训练模型、测试集用来测试评估模型 。
  • 一般划分比例7:3 ~ 8:2

有监督学习/ 无监督学习 / 半监督学习 / 强化学习

有监督学习

​ 定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的
​ 数据集:需要标注数据的标签/目标值

分类问题

​ 目标值(标签值)是不连续的
​ 分类种类:二分类、多分类

回归问题

​ 目标值(标签值)是连续的

无监督学习

​ 定义:输入数据没有被标记,即样本数据类别未知,没有标签, 根据样本间的相似性,对样本集聚类,以发现事物内部 结构及相互关系。
​ 数据集:不需要标注数据

特点:

​ 1 训练数据无标签

​ 2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

半监督学习

​ 1 让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型
​ 2 再利用该模型去套用未标记的数据
​ 3 通过询问领域专家分类结果与模型分类结果做对比

好处 : 大幅度降低标记成本
强化学习

1 强化学习(Reinforcement Learning):机器学习的一个重要分支
2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理:通过构建四个要素:agent,环境状态,行动,奖励,agent根据环境状态进行行动获得最多的累计奖励。
请添加图片描述

机器学习建模流程

  • 获取数据: 搜集与完成机器学习任务相关的数据集
  • 数据基本处理: 数据集中异常值,缺失值的处理等
  • 特征工程: 对数据特征进行提取、转成向量,让模型达到最好的效果
  • 机器学习:选择合适的算法对模型进行训练 根据不同的任务来选中不同的算法;有监督学习,无监督学习,半监督学习,强化学习
  • 模型评估: 评估效果好上线服务,评估效果不好则重复上述步骤

特征工程

  • 特征提取: 原始数据中提取任务相关的特征
  • 特征预处理: 特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小
  • 特征降维: 将原始数据的维度降低,叫做特征降维,一般会对原始数据产生影响
  • 特征选择: 原始数据特征很多,与任务相关是其中一个特征集合子集,不会改变原数据
  • 特征组合: 把多个的特征合并成一个特征。利用乘法或加法来完成

请添加图片描述

拟合

  • 拟合: 用在机器学习领域 用来表示模型对样本点的拟合情况
  • 欠拟合: 模型在训练集上表现很差 测试集上也表现很差
  • 过拟合: 模型在训练集上表现很好 测试集上表现很差

请添加图片描述

欠拟合产生的原因:模型过于简单
过拟合产生的原因:模型太过于复杂、数据不纯、训练数据太少

泛化 Generalization :具体的、个别的扩大为一般的能力
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,倾向选择较简单的模型

标签:机器,特征,简介,模型,样本,学习,标签,数据,基本概念
From: https://blog.csdn.net/weixin_57336987/article/details/142621030

相关文章

  • 机器学习和深度学习
            机器学习和深度学习是人工智能领域的两个重要子领域,虽然它们有许多共同点,但也有一些关键区别。主要区别:1.定义机器学习(MachineLearning,ML):机器学习是一种通过数据学习和预测的算法和统计模型。它包括监督学习、无监督学习和强化学习等类型。深度学习(Deep......
  • 机器视觉工程师一直做调试,维护岗位,想转岗软件方面C#从零开始,快则三年不到,慢则一辈子不
    其实不是每一家做视觉检测,或者是做设备必须要机器视觉工程师开发,其实公司对标准软件更感兴趣,主要非常高的性价比,省时省钱省人。所以这里有个问题,就是公司平台的重要性,首先他对开发是刚需,还有就是它的非标项目多,可以让你上手练习,机器视觉开发对公司不是那么重要这类型公司,调......
  • 准备蓝桥杯和ACM:C++标准库头文件及其常用功能简介
    概述        在C++编程中,标准库为开发者提供了丰富的工具和功能,使得代码更简洁、易于维护。本文将深入探讨一些常用的C++标准库头文件,如<iostream>、<algorithm>、<string>等,以及它们所提供的基本功能与常见用法。通过对这些头文件的理解和应用,开发者能够更加高效地......
  • 【机器学习】ID3、C4.5、CART 算法
    目录常见的决策树算法1.ID32.C4.53.CART决策树的优缺点优点:缺点:决策树的优化常见的决策树算法1.ID3ID3(IterativeDichotomiser3)算法使用信息增益作为特征选择的标准。它是一种贪心算法,信息增益表示按某特征划分数据集前后信息熵的变化量,变化量越大,表示使用该......
  • 李宏毅 机器学习
    P6自注意力机制引言:    到目前为止,在预测或者图像识别(已经假设了图像大小是相等的)的任务中,都是将输入看作是一个向量,输出可能是数值(回归任务)也可能是类别(分类任务),那假如输入是一排向量或者这个向量长度是改变的呢?例如:输入形式        (一)句子     ......
  • AIGC基础工具-科学计算和数据处理的重要库NumPy(Numerical Python)简介
    文章目录1.NumPy的核心概念1.1`ndarray`:多维数组对象示例代码2.NumPy的数据类型(`dtype`)示例代码3.NumPy的数组创建方法3.1使用`array()`创建数组3.2使用`zeros()`和`ones()`3.3使用`arange()`和`linspace()`3.4使用`random`模块生成随机数......
  • [机器视觉][轻量化网络]GhostFormer: Efficiently amalgamated CNNtransformer archit
    目的与成果:     本文旨在提出一个轻量化的模型,在减少模型参数量的同时,保持一定的精度,  实验表明,该模型在PascalVOC数据集上的计算成本不到YOLOv7的一半,仅损失约3%[email protected],在MSCOCO数据集上的损失为9.7%[email protected],与GhostNet相比提高了0.95。本文的主要思想: ......
  • 软件无线电硬件平台USRP简介
    目录一、平台概述1.1.设计理念1.2.应用场景1.3.常见型号1.3.1.N系列1.3.2.E系列1.3.3.B系列二、硬件组成2.1.母板2.2.子板2.3.天线三、主要特点3.1.灵活性3.2.高性能3.3.可扩展性3.4.开源支持3.5.广泛的软件支持四、软件支持4.1.GNURadio4......
  • 李宏毅机器学习2023-HW10-Adversarial Attack
    文章目录TaskBaselineFGSM(FastGradientSignMethod(FGSM)I-FGSM(IterativeFastGradientSignMethod)MI-FGSM(MomentumIterativeFastGradientSignMethod)M-DI2-FGSM(DiverseInputMomentumIterativeFastGradientSignMethod)ReportfgsmattackJepgCom......
  • C++引用的基本概念,引用的定义与使用
    C++中的引用(Reference)是一种复合类型,它是某个已存在变量的别名(alias)。换句话说,引用在内部存储了另一个变量的地址,但是与指针不同的是,引用在定义时必须被初始化,并且一旦被初始化后,它就不能再被改变为引用另一个变量(即引用一旦绑定到一个变量,就不能再被绑定到另一个变量)。此外,引......