目录
一. 机器学习概述
1.1 人工智能三大概念
人工智能(Artificial Intelligence,AI)是智能学科重要的组成部分,它企图了解智能的实质,并生产出一种新的、能以与人类智能相似的方式做出反应的智能机器。通俗的理解就是尝试使用机器模拟和代替人类的各种行为。
机器学习(Machine Learning,ML)是实现人工智能的一种途径,机器学习是不显式编程地赋予计算机能力的研究领域,它利用算法解析数据,从数据中获取规律并学习,然后对现实世界中的事件做出决策或预测。
深度学习(Deep Learning,DL)也叫神经网络,是实现机器学习的一种方法,通过模仿人类大脑中的神经元结构,进而设计多层神经网络来模拟万事万物。
1.2 算法的学习方式
算法的学习方式主要有基于规则的学习以及基于模型的学习两种方式。
基于规则的学习是指程序员根据经验利用手工的if-else方式进行预测,图示如下:
但是对于图像和语音识别以及图像和语音识别等问题,我们无法明确的写下规则,也就无法使用规则学习的方式来解决这一类问题,这里我们就需要使用到基于模型的学习了,该方式是指通过编写机器学习算法,让机器自己学习从历史数据中获得经验、训练模型,具体图示如下:
1.3 人工智能的发展史和三要素
1.3.1 人工智能的发展史
1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生,而1956年也被认为是人工智能元年。
1950-1970年,符号主义流派,主要关注于使用符号表示和逻辑推理来模拟人类智能,符号可以是单词、概念或其他抽象实体,其中专家系统占主导地位。1962年IBM公司开发的Arthur Samuel程序在跳棋领域战胜人类高手,掀起了人工智能的第一次浪潮。
1980-2000年,统计主义流派,主要使用统计模型解决问题。1997年IBM公司开发的深蓝程序在国际象棋领域战胜卡斯帕罗夫,掀起了人工智能的第二次浪潮。
2010-2017年,神经网络、深度学习流派。2016年Google公司开发AlphaGO在围棋领域战胜李世石,掀起了人工智能的第三次浪潮。
2017年-至今,大规模预训练模型阶段。2022年,chatGPT的出现标志着人工智能进入到大模型AIGC发展的新阶段。
1.3.2 AI发展的三要素
数据、算法、算力三要素相互作用,是AI发展的基石,具体图示如下:
目前主要的算力资源简介如下:
CPU:负责调度任务、计算任务等;主要适合I\O密集型的任务。
GPU:G表示Graphics图形、图样,更加适合矩阵运算;主要适合计算密集型任务。
TPU:T表示Tensor张量,专门针对神经网络训练设计一款处理器。
1.4 机器学习常见术语
样本(sample):一行数据就是一个样本;多个样本组成数据集;有时一条样本也被称成一条记录。
特征(feature):一列数据通常表示一个特征,有时也被称为属性。
标签/目标(label/target):模型需要预测的那一列数据。
训练集(training set):数据集可划分两部分训练集和测试集,用来训练模型(model)的数据集即为训练集。
测试集(testing set):用来测试模型的数据集,训练集和测试集的比例通常为8 : 2或者7 : 3。
1.5 机器学习算法的分类
1.5.1 有监督学习
有监督学习是指输入数据由输入特征值和目标值所组成即输入的训练数据是有标签的机器学习算法,标签通常是通过对数据集进行人工标注而来。
常见的有监督学习有:分类算法,该算法的目标值(标签值)是不连续的,有二分类以及多分类任务;回归算法,该算法的目标值(标签值)是连续的。
1.5.2 无监督学习
无监督学习是指输入数据没有被标记,即样本数据类别未知的机器学习算法,这种算法会在未标记的数据中发现事物隐藏的结构、模式或规律(比如根据样本间的相似性对数据集进行聚类,此外还有降维、异常检测等场景),使用这种算法不需要我们对数据集进行标注。
1.5.3 半监督学习
半监督学习结合了有监督学习和无监督学习的特点,具体来说,半监督学习使用少量已标注数据和大量未标注数据来进行训练,其工作原理如下:
1. 让专家标注少量数据,利用已经标记的数据训练出一个模型。
2. 利用该模型去套用未标记的数据,例如为未标记的数据打上伪标签。
3. 通过询问领域专家分类结果与模型分类结果做对比,从而对模型做进一步改善和提高。
使用半监督学习的方式可以大幅降低标记成本。
1.5.4 强化学习
强化学习(Reinforcement Learning,RL)是机器学习的一个子领域,在RL中,智能体不断与环境进行交互,通过不断试错的方式来获得最佳策略,主要包含四个元素:智能体(Agent),环境(Environment),动作(Action),奖励(Reward),最终目的是最大化累计奖励(即每一个时间步所获得的奖励总和),具体图示如下:
四种机器学习算法的总结如下:
1.6 机器学习的建模流程
机器学习的建模流程主要分为以下五步:
获取数据:搜集整理与机器学习任务相关的各种数据集。
数据预处理:对数据中异常值、缺失值的处理等。
特征工程:对数据特征进行处理,最终转成为特征向量,让模型达到最好的预测效果。
机器学习(模型训练):选择合适的算法对模型进行训练,需要根据不同的任务来选取不同的算法。
模型评估:评估模型的最终预测效果,如果评估效果好则上线服务,评估效果不好则重复上述步骤。
1.7 特征工程
利用专业背景知识和技巧处理数据,让机器学习算法效果最好,这个过程就是特征工程,特征工程通常是困难的、耗时的,是机器学习开发中的主要工作。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程主要分为以下五步:
特征提取:原始数据中提取与任务相关的特征,构成特征向量。
特征预处理:对特征进行归一化、标准化等处理,保证各特征对模型影响相同。
特征降维:将原始数据的维度降低,叫做特征降维,特征降维会原始数据产生影响,往往会丢失部分信息,但是会保留最主要的信息。
特征选择:从特征中根据一些指标选择出一些重要特征就是特征选择,特征选择不会改变原始数据。
特征组合:特征组合是指把多个的特征合并成一个特征,可以通过加法、乘法等方法将特征值合并。
1.8 模型的拟合
在机器学习领域,拟合(fitting)通常用来表示模型对样本点的接近情况。
如果模型在训练集上表现很差,同时在测试集表现也很差,这种情况被称为欠拟合(under-fitting),主要原因是模型过于简单。具体表现为模型学习到的特征过少,导致模型无法准确的预测未知样本,可以通过增加特征的方式,来增加模型的复杂度,进而解决欠拟合。
如果模型在训练集上表现很好,但是在测试集表现很差,这种情况被称为过拟合(over-fitting),主要原因是模型太过于复杂、数据不纯、训练数据太少等等。具体表现为模型学习到的特征过多,导致模型只能在训练样本上得到较好的预测结果,而在未知样本上的效果不好,可以通过正则化、异常值检测、特征降维等方法来解决过拟合问题。
出现过拟合的模型,往往泛化能力较差,泛化能力是指模型在新数据集(非训练数据)上上表现良好的能力。
1.9 奥卡姆剃刀原则
奥卡姆剃刀原则是指给定两个具有相同泛化误差(即模型在未见过的新数据上的预测误差)的模型,较简单的模型比较复杂的模型更可取。
可以用这句话来概况奥卡姆剃刀原则:如无必要,勿增实体。
标签:机器,入门,特征,模型,学习,算法,数据 From: https://blog.csdn.net/2401_86480334/article/details/144671533