首页 > 其他分享 >带你从入门到精通——机器学习(一. 机器学习概述)

带你从入门到精通——机器学习(一. 机器学习概述)

时间:2024-12-23 20:28:52浏览次数:7  
标签:机器 入门 特征 模型 学习 算法 数据

目录

一. 机器学习概述

1.1 人工智能三大概念

1.2 算法的学习方式

1.3 人工智能的发展史和三要素

1.3.1 人工智能的发展史

1.3.2 AI发展的三要素

1.4 机器学习常见术语

1.5 机器学习算法的分类

1.5.1 有监督学习

1.5.2 无监督学习

1.5.3 半监督学习

1.5.4 强化学习

1.6 机器学习的建模流程

1.7 特征工程

1.8 模型的拟合

1.9 奥卡姆剃刀原则


一. 机器学习概述

1.1 人工智能三大概念

        人工智能(Artificial Intelligence,AI)是智能学科重要的组成部分,它企图了解智能的实质,并生产出一种新的、能以与人类智能相似的方式做出反应的智能机器。通俗的理解就是尝试使用机器模拟和代替人类的各种行为。

        机器学习(Machine Learning,ML)是实现人工智能的一种途径,机器学习是不显式编程地赋予计算机能力的研究领域,它利用算法解析数据,从数据中获取规律并学习,然后对现实世界中的事件做出决策或预测。

        深度学习(Deep Learning,DL)也叫神经网络,是实现机器学习的一种方法,通过模仿人类大脑中的神经元结构,进而设计多层神经网络来模拟万事万物。

1.2 算法的学习方式

        算法的学习方式主要有基于规则的学习以及基于模型的学习两种方式

        基于规则的学习是指程序员根据经验利用手工的if-else方式进行预测,图示如下:

        但是对于图像和语音识别以及图像和语音识别等问题,我们无法明确的写下规则,也就无法使用规则学习的方式来解决这一类问题,这里我们就需要使用到基于模型的学习了,该方式是指通过编写机器学习算法,让机器自己学习从历史数据中获得经验、训练模型,具体图示如下:​​​

        

1.3 人工智能的发展史和三要素

1.3.1 人工智能的发展史

        1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生,而1956年也被认为是人工智能元年

        1950-1970年,符号主义流派,主要关注于使用符号表示和逻辑推理来模拟人类智能,符号可以是单词、概念或其他抽象实体,其中专家系统占主导地位。1962年IBM公司开发的Arthur Samuel程序在跳棋领域战胜人类高手,掀起了人工智能的第一次浪潮。

        1980-2000年,统计主义流派,主要使用统计模型解决问题。1997年IBM公司开发的深蓝程序在国际象棋领域战胜卡斯帕罗夫,掀起了人工智能的第二次浪潮。

        2010-2017年,神经网络、深度学习流派。2016年Google公司开发AlphaGO在围棋领域战胜李世石,掀起了人工智能的第三次浪潮。

        2017年-至今,大规模预训练模型阶段。2022年,chatGPT的出现标志着人工智能进入到大模型AIGC发展的新阶段。

1.3.2 AI发展的三要素

        数据、算法、算力三要素相互作用,是AI发展的基石,具体图示如下:

        目前主要的算力资源简介如下:

        CPU:负责调度任务、计算任务等;主要适合I\O密集型的任务。

        GPU:G表示Graphics图形、图样,更加适合矩阵运算;主要适合计算密集型任务。

        TPU:T表示Tensor张量,专门针对神经网络训练设计一款处理器。

1.4 机器学习常见术语

        样本(sample):一行数据就是一个样本;多个样本组成数据集;有时一条样本也被称成一条记录。

        特征(feature):一列数据通常表示一个特征,有时也被称为属性。

        标签/目标(label/target):模型需要预测的那一列数据。

        训练集(training set):数据集可划分两部分训练集和测试集,用来训练模型(model)的数据集即为训练集。

        测试集(testing set):用来测试模型的数据集,训练集和测试集的比例通常为8 : 2或者7 : 3。

        

1.5 机器学习算法的分类

1.5.1 有监督学习

        有监督学习是指输入数据由输入特征值和目标值所组成即输入的训练数据是有标签的机器学习算法,标签通常是通过对数据集进行人工标注而来。

        常见的有监督学习有:分类算法,该算法的目标值(标签值)是不连续的,有二分类以及多分类任务;回归算法,该算法的目标值(标签值)是连续的。

1.5.2 无监督学习

        无监督学习是指输入数据没有被标记,即样本数据类别未知的机器学习算法,这种算法会在未标记的数据中发现事物隐藏的结构、模式或规律(比如根据样本间的相似性对数据集进行聚类,此外还有降维、异常检测等场景),使用这种算法不需要我们对数据集进行标注。

1.5.3 半监督学习

        半监督学习结合了有监督学习和无监督学习的特点,具体来说,半监督学习使用少量已标注数据和大量未标注数据来进行训练,其工作原理如下:

        1. 让专家标注少量数据,利用已经标记的数据训练出一个模型。

        2. 利用该模型去套用未标记的数据,例如为未标记的数据打上伪标签。

        3. 通过询问领域专家分类结果与模型分类结果做对比,从而对模型做进一步改善和提高。

        使用半监督学习的方式可以大幅降低标记成本。

1.5.4 强化学习

        强化学习(Reinforcement Learning,RL)是机器学习的一个子领域,在RL中,智能体不断与环境进行交互,通过不断试错的方式来获得最佳策略,主要包含四个元素:智能体(Agent),环境(Environment),动作(Action),奖励(Reward),最终目的是最大化累计奖励(即每一个时间步所获得的奖励总和),具体图示如下:

        四种机器学习算法的总结如下:

1.6 机器学习的建模流程

        机器学习的建模流程主要分为以下五步:

        获取数据:搜集整理与机器学习任务相关的各种数据集。

        数据预处理:对数据中异常值、缺失值的处理等。

        特征工程:对数据特征进行处理,最终转成为特征向量,让模型达到最好的预测效果。

        机器学习(模型训练):选择合适的算法对模型进行训练,需要根据不同的任务来选取不同的算法。

        模型评估:评估模型的最终预测效果,如果评估效果好则上线服务,评估效果不好则重复上述步骤。

1.7 特征工程

        利用专业背景知识和技巧处理数据,让机器学习算法效果最好,这个过程就是特征工程,特征工程通常是困难的、耗时的,是机器学习开发中的主要工作。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

        特征工程主要分为以下五步:

        特征提取:原始数据中提取与任务相关的特征,构成特征向量。

        特征预处理:对特征进行归一化、标准化等处理,保证各特征对模型影响相同。

        特征降维:将原始数据的维度降低,叫做特征降维,特征降维会原始数据产生影响,往往会丢失部分信息,但是会保留最主要的信息。

        特征选择:从特征中根据一些指标选择出一些重要特征就是特征选择,特征选择不会改变原始数据。

        特征组合:特征组合是指把多个的特征合并成一个特征,可以通过加法、乘法等方法将特征值合并。

1.8 模型的拟合

        在机器学习领域,拟合(fitting)通常用来表示模型对样本点的接近情况。

        如果模型在训练集上表现很差,同时在测试集表现也很差,这种情况被称为欠拟合(under-fitting),主要原因是模型过于简单。具体表现为模型学习到的特征过少,导致模型无法准确的预测未知样本,可以通过增加特征的方式,来增加模型的复杂度,进而解决欠拟合。

        如果模型在训练集上表现很好,但是在测试集表现很差,这种情况被称为过拟合(over-fitting),主要原因是模型太过于复杂、数据不纯、训练数据太少等等。具体表现为模型学习到的特征过多,导致模型只能在训练样本上得到较好的预测结果,而在未知样本上的效果不好,可以通过正则化、异常值检测、特征降维等方法来解决过拟合问题。

        出现过拟合的模型,往往泛化能力较差,泛化能力是指模型在新数据集(非训练数据)上上表现良好的能力。

1.9 奥卡姆剃刀原则

        奥卡姆剃刀原则是指给定两个具有相同泛化误差(即模型在未见过的新数据上的预测误差)的模型,较简单的模型比较复杂的模型更可取。

        可以用这句话来概况奥卡姆剃刀原则:如无必要,勿增实体

标签:机器,入门,特征,模型,学习,算法,数据
From: https://blog.csdn.net/2401_86480334/article/details/144671533

相关文章

  • 学霸带你游戏化思维导图提升学习效率
    思维导图在学习中的应用思维导图是一种通过视觉化手段帮助整理和记忆信息的有效方法,特别适用于复杂的学习内容。通过结构化的图形,思维导图能够帮助我们将零散的信息组织成有序的知识体系。在本文中,我们将探讨如何利用思维导图提升学习效果,结合游戏的例子,展示这一方法在实际中......
  • Qt编程快速入门(1)Qt结构简介
    Qt构成Qt(/ˈkjuːt/,发音同“cute”)是一个跨平台的C++应用程序开发框架。广泛用于开发GUI程序,这种情况下又被称为部件工具箱。也可用于开发非GUI程序,例如控制台工具和服务器。-摘自维基百科Qt可以在多个平台编译运行,包括Windows、Linux、MacOS,其运行时的表现取决于操作系统的U......
  • AI对话机器人续:将AI Bot接入企业微信
    大家好,我是Edison。之前尝试将CozeAIBot接入到了微信,有朋友问如何接入企业微信,今天有空尝试了下,和你分享一下过程。整体流程和步骤还是基于chatgpt-on-wechat这个开源框架来的,唯一的差别就在于部署chatgpt-on-wechat的时候,需要填写一些企业微信相关的参数和secret。企业微信......
  • RK3588开发板入门教程
    一、EVM-RK3588评估板外观二、常用系统信息查看1、查看系统内核版本信息,使用uname命令:$unamet-a2、查看操作系统信息:$cat/etc/issue3、查看系统内存使用情况:$free-h4、查看系统磁盘使用情况:$df-h5、查看磁盘和分区:#查看所有分区$fdisk-l......
  • 数学竞赛网站:构建互动学习的网络平台
    2.1MYSQL数据库题目确定了是一个应用程序之后,就开始按部就班的进行设计与分析。本课题是需要数据库作为数据管理工具以及数据载体,从程序功能分析到数据分析,选择合适的关系型数据库是当下所选择的重要环节。关系型数据库可选择余地不多,本身甲骨文公司的两个,微软的两个,IBM的......
  • SpringCloud 入门(2)—— 跨服务调度
    上一篇:SpringCloud入门(1)——nacos注册中心-CSDN博客1.RestTemplate跨服务请求RestTemplate是Spring框架中的一个同步客户端,用于与HTTP服务进行交互。它简化了与HTTP服务器通信的过程,并且提供了对多种HTTP方法(如GET、POST、PUT、DELETE等)的支持,用于发送跨服务......
  • 【AI编译器】MLIR — 入门
    前言MLIR社区充满活力。但由于它是一个新的且快速发展的项目,因此可用的教程和文档并不多。没有权威的MLIR书籍。大多数围绕事物的推理都来自民间传说和技术性很强的RFC。而且由于MLIR构建在LLVM(该缩写词以前的意思是“低级虚拟机”)之上,因此现有的许多文档都通过类比LLVM......
  • 一文秒懂什么是DDoS攻击(非常详细),零基础入门到精通,看这一篇就够了
    前言DDoS攻击是目前最常见的网络攻击方式之一,其见效快、成本低的特点,让DDoS这种攻击方式深受不法分子的喜爱。DDoS攻击经过十几年的发展,已经“进化”的越来越复杂,黑客不断升级新的攻击方式以便于绕过各种安全防御措施。一、什么是DDoS攻击DDoS攻击一般指分布式拒绝攻击,是......
  • 爬虫学习案例8
    爬取京东评论信息采用DrissionPage自动化工具采集,感觉比Selenium工具好,真香。安装第三方库pipinstallDrissionPagepipinstallpandaspipinstallpyechartspipinstalljiebapipinstallwordcloud1.安装DrissionPage库DrissionPage安装博客2.爬取评论信息到c......
  • 北理:LLM格式遵循的强化学习REFF
    ......