首页 > 其他分享 >机器学习day1

机器学习day1

时间:2024-06-20 21:56:33浏览次数:22  
标签:机器 训练 特征 模型 day1 学习 拟合 数据

机器学习day1
1.环境准备#
python
Python 是一种解释型、面向对象、动态数据类型的高级编程语言,适合于快速开发。。
pycharm
etBrains开发的Python IDE,支持高效的代码编辑和项目管理。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
anaconda
就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。它是包管理和环境管理的Python发行版,支持创建多个隔离的Python环境。
3.通义灵码的下载#
点击File点击Settings
点击Plugins,并在搜索框中输入tongyi
安装好后点击登录,登陆好后即可使用。(注:需使用阿里云账号)
4.机器学习概述#
4.1人工智能三大概念#
人工智能: 使用计算机模拟或替代人类智能的技术。
机器学习: 未明确编程的情况下,赋予计算机学习能力的学科领域。
深度学习: 基于大脑神经网络模拟的一种机器学习技术。
三者之间的关系:
机器学习是实现人工智能的一种途径
深度学习是机器学习的一种方法
4.2学习方式#
基于规则的学习 : 程序员根据经验利用手工的if-else方式进行预测
有很多问题无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:图像和语音 识别和自然语言处理
基于模型的学习 : 从数据中自动学出规律
基于模型的学习 : 房价预测
(1)利用线性关系来模拟面积和房价之间的关系 eg:让直线尽可能多的经过这些点,不能经过的点分布直线两侧
(2)器学习模型 eg:直线记成y = ax + b 就是模型,其中 a、b 就是我们要训练的模型参数!
4.3总结#
人工智能 • Artificial Intelligence(AI):仿智,使用计算机来模拟或者代替人类
机器学习 • Machine Learning(ML) :机器自动学习,不是人为规则编程
深度学习 • Deep Learning (DL) :大脑仿生,设计一层一层的神经元模拟万事万物
AI、ML、DL三者之间的关系 • 机器学习是实现人工智能的一种途径 • 深度学习是机器学习的一种方法发展而来的
算法的学习方式有哪两种? • 基于规则的学习 • 基于模型的学习
5.机器学习的应用领域和发展史#
符号主义 20世纪50-70
专家系统占主导 1950:图灵设计国际象棋程序 1962:IBM Arthur Samuel 的跳棋程序战胜人类高手(人工智能第一次浪潮)
统计主义 20世纪80-2000
主要用统计模型解决问题 •1993:Vapnik提出SVM •1997:IBM 深蓝战胜卡斯帕罗夫(人工智能第二次浪潮)
神经网络 21世纪初期
神经网络、深度学习流派 •2012: AlexNet深度学习的开山之作 •2016:Google AlphaGO 战胜李世石(人工智能第三次浪潮)
大规模预训练模型 2017-至今
大规模预训练模型 2017年,自然语言处理NLP的Transformer框架出现 2018年,Bert和GPT的出现 2022年,chatGPT的出现,进入到大模型AIGC发展的阶段
AI发展三要素
CPU:主要适合I\O密集型的任务
GPU:主要适合计算密集型任务
TPU:专门针对大型网络训练而设计 的一款处理器
5.1总结#
机器学习的应用领域
计算机视觉CV:对人看到的东西进行理解 总结
自然语言处理:对人交流的东西进行理解
数据挖掘和数据分析:也属于人工智能的范畴
人工智能发展史
1956年人工智能元年
2012年计算机视觉深度神经网络方法研究兴起
2017年自然语言处理应用大幕拉开
2022年chatGPT的出现,引起AIGC的发展
人工智能发展三要素
数据,算法,算力
CPU:主要适合I\O密集型的任务
GPU:主要适合计算密集型任务
TPU:专门针对大型网络训练而设计的一款处理器
6.机器学习常用术语#
6.1样本、特征、标签
样本 :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录
特征 :一列数据一个特征,有时也被称为属性
标签:模型要预测的那一列数据。本场景是就业薪资
6.2数据集划分#
数据集可划分两部分:训练集、测试集 比例:8 : 2,7 : 3
训练集(training set) :用来训练模型(model)的数据集
测试集(testing set):用来测试模型的数据集
x_train 训练集中的x x_test 测试集中的x y_train 训练集中的y y_test 测试集中的y
6.3总结#
样本和数据集
样本(sample) :一行数据就是一个样本 总结 • 数据集dataset:多个样本组成数据集
特征
特征(feature) :一列数据一个特征,有时也被称为属性
标签
标签/目标(label/target) :模型要预测的那一列数据。
数据集划分
训练集用来训练模型、测试集用来测试评估模型 。
一般划分比例7:3 ~ 8:2
7.有监督学习 & 无监督学习#
7.1有监督学习#
定义:输入数据是由输入特征值和目标值所组成,即 输入的训练数据有标签的
数据集:需要标注数据的标签/目标值
7.2无监督学习#
定义:输入数据没有被标记,即样本数据类别未知,没有标签, 根据样本间的相似性,对样本集聚类,以发现事物内 部 结构及相互关系
7.3有监督分类问题 & 回归问题#
分类问题
目标值(标签值)是不连续的
分类种类:二分类、多分类
回归问题
目标值(标签值)是连续的
7.4无监督学习特点#
训练数据无标签
根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系
7.5半监督学习#
工作原理:
让专家标注少量数据,利用已经标记的数据(也就 是带有类标签)训练出一个模型
再利用该模型去套用未标记的数据
通过询问领域专家分类结果与模型分类结果做对比
7.6机器学习算法分类 – 强化学习#
强化学习(Reinforcement Learning):机器学习的一个重要分支
应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景
基本原理:通过构建四个要素:agent,环境状态,行动,奖励, agent根据环境状态进行行动获得最多的累计奖励。
8.机器学习建模流程#
获取数据:获取经验数据 图像数据 文本数据
数据基本处理:数据缺失值处理 异常值处理
特征工程:特征提取 特征预处理 特征降维
机器学习(模型训练):线性回归 逻辑回归 决策树 GBDT
模型评估:回归评测指标 分类评测指标 聚类评测指标
8.1总结#
机器学习建模的一般步骤:
获取数据:搜集与完成机器学习任务相关的数据集
数据基本处理:数据集中异常值,缺失值的处理等
特征工程:对数据特征进行提取、转成向量,让模型达到最好的效果
机器学习(模型训练):选择合适的算法对模型进行训练
根据不同的任务来选中不同的算法;有监督学习,无监督学习,半监督学 习,强化学习
模型评估:评估效果好上线服务,评估效果不好则重复上述步骤
9.特征工程概念入门#
特征(feature)
特征工程 (Feature Engineering) :利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程 Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ” 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
9.1特征工程概念入门 – 涉及内容#
特征提取 feature extraction:原始数据中提取与任务相关的特征,构成特征向量
特征预处理 feature preprocessing:特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小
特征降维 Feature decomposition:将原始数据的维度降低,叫做特征降维,一般会对原始数据产生影响
特征选择 feature selection:原始数据特征很多,与任务相关是其中一个特征集合子集,不会改变原数据
特征组合 feature crosses:把多个的特征合并成一个特征。利用乘法或加法来完成
9.2特征工程概念入门 – 涉及内容#
特征提取 feature extraction :从原始数据中提取与任务相关的特征
特征预处理 feature preprocessing :特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小
特征降维 Feature decomposition:将原始数据的维度降低,叫做特征降维
特征选择 feature selection :原始数据特征很多,但是对模型训练相关是其中一个特征集合子集。
特征组合 feature crosses :把多个的特征合并成一个特征。一般利用乘法或加法来完成
9.3总结#
特征工程 Feature Engineering
特征Feature:对任务有用的属性信息
特征工程:利用专业背景知识和技巧处理数据,让模型效果更好
特征工程的内容
特征提取 feature extraction :特征向量
特征预处理 feature preprocessing:不同特征对模型影响一致性
特征降维 Feature decomposition:保证数据的主要信息要保留下来
特征选择 feature selection :从特征中选择出一些重要特征训练模型
特征组合 feature crosses:把多个特征合并组合成一个特征
10.拟合#
拟合 fitting:用在机器学习领域,用来表示模型对样本点的拟合情况
欠拟合under-fitting:模型在训练集上表现很差、在测试集表现也很差
过拟合over-fitting:模型在训练集上表现很好、在测试集表现很差
10.1模型表现效果 – 欠拟合欠拟合 – 从样本分布角度看#
欠拟合产生的原因:模型过于简单
过拟合产的原因:模型太过于复杂、数据不纯、训练数据太少
泛化 Generalization :模型在新数据集(非训练数据)上的表现好坏的能力。
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更 可取
10.2总结#
过拟合欠拟合?
拟合:用来表示模型对样本分布点的模拟情况 总结
模型在训练集上表现很差、在测试集表现也很差,是欠拟合
模型在训练集上表现很好、在测试集表现很差,是过拟合
过拟合欠拟合产生的原因
欠拟合产生的原因:模型过于简单
过拟合产生的原因:模型太过于复杂、数据不纯、训练数据太少
泛化概念
泛化 Generalization :具体的、个别的扩大为一般的能力
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,倾向选择较简单的模 型
11.机器学习开发环境#
11.1基于Python的 scikit-learn 库#
简单高效的数据挖掘和数据分析工具
可供大家使用,可在各种环境中重复使用
建立在NumPy,SciPy和matplotlib上
开源,可商业使用-获取BSD许可证
​ 安装方法: pip install scikit-learn

标签:机器,训练,特征,模型,day1,学习,拟合,数据
From: https://www.cnblogs.com/ghk123/p/18259545

相关文章

  • 高级网络工程师需要不断的学习和实践,保持对技术发展的敏锐性和洞察力,同时能够在复杂环
    初级网络工程师,你需要掌握以下核心知识和技能:网络基础知识:OSI模型和TCP/IP协议族IP地址和子网划分网关、子网掩码和DNS的作用路由和交换的基本原理网络设备:路由器和交换机的功能和工作原理VLAN和Trunk的概念网络设备的配置和管理网络协议:ICMP、ARP、DHCP、F......
  • 昇思25天学习打卡营第1天 | 快速入门
    官网完整版代码详解题外话:这几天人工智能实训,在学深度学习,我觉得蛮像的过程理解:1.数据预处理1.1load数据集1.2查看数据集对象的结构和类型1.3数据变换MindSpore的dataset使用数据处理流水线(DataProcessingPipeline),需指定map、batch、shuffle等操作。使用map对图像数据......
  • 基于python-深度学习的混凝土马路和泥地马路识别-含数据集+pyqt界面
    代码下载:https://download.csdn.net/download/qq_34904125/89434765本代码是基于pythonpytorch环境安装的。下载本代码后,有个requirement.txt文本,里面介绍了如何安装环境,环境需要自行配置。或可直接参考下面博文进行环境安装。深度学习环境安装教程-anaconda-python-pyto......
  • Java学习基础笔记——多线程基础部分
    第十三章多线程基础13.1线程介绍13.1.1线程相关概念13.2线程创建13.2.1创建线程的两种方式13.2.2继承Threadvs实现Runnable的区别13.2.3线程终止13.3线程方法13.3.1常用方法第一组13.3.2常用方法第二组13.3.3用户线程和守护线程13.4Synchronized13......
  • Java学习基础笔记——反射机制
    第十五章反射15.1反射机制15.1.1 Java反射机制可以完成15.1.2 反射的优缺点15.2Class类15.2.1基本介绍15.2.2Class类常用方法15.2.3获取Class类对象6种方式15.3类加载15.3.1基本说明15.3.2类加载时机15.4反射获取类的结构信息15.5反射调用性能......
  • 机器学习Day1
    1.背景以周志华教授的《机器学习》为核心学习AI知识2.绪论中的重要概念整理机器学习的目的:利用经验(数据)来改善系统性能记录:(key1:value1,key2:value2…)数据集:记录的集合示例(样本):对一个事件或对象的描述属性(特征):key1,key2…属性值:value1,value2…属性空间(样本空......
  • NOI2019 Day1
    就准备这样面对你的NOI吗?问题:对拍,极限数据,构造数据。不要老觉得过了大洋里就可以万事大吉跑路了。自己觉得写不完的东西,一定不要上来就写。读题。读题。读题。实在改不了就每题都先写个暴力验证题意。学会放题。一个题实在想不明白就退而求其次。保持冷静。尽量一遍写对......
  • 【机器学习】从理论到实践:决策树算法在机器学习中的应用与实现
      ......
  • GitHub爆赞!终于有大佬把《Python学习手册》学习笔记分享出来了
    这份笔记的目标是为了给出一份比较精炼,但是又要浅显易懂的Python教程。《Python学习手册》中文第四版虽然比较简单,但是措辞比较罗嗦,而且一个语法点往往散落在多个章节,不方便读者总结。我在做笔记时,将一个知识点的内容都统筹在一个章节里面,因此提炼性大大提高。而且还有《Pytho......
  • 【代码】--库函数学习 ftp通信 相关
    1. FTP介绍 (1)主动模式(PORT): 服务器主动去连接客户端的数据端口 (2)被动模式(PASV): 客户端主动去连接服务器的数据端口ftp客户端通信流程(编程流程)如下:1.客户端用账号、密码进行登录。2.提交主动模式还是被动模式。3.如果是被动模式,需要去连接服务器开放的数据......