机器学习day1
1.环境准备
python
Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言。
Python 由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年。
像 Perl 语言一样, Python 源代码同样遵循 GPL(GNU General Public License) 协议。
pycharm
PyCharm是一种Python IDE(Integrated Development Environment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
anaconda
就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。即它可以在你的电脑上创建多个你想要的python环境,并为每个python环境安装不同的包,不同环境相互切换,操作简单,使用方便!
2.pycharm专业版破解
1.下载并安装pycharm
[点击跳转到pycharm下载界面](Download PyCharm: The Python IDE for data science and web development by JetBrains)
2.pycharm的破解
[点击跳转到pycharm破解步骤教程](2023 年 Pycharm 最新激活码、激活破解教程,亲测可用,永久激活 | 程序员徐公 (junxu666.top))
专业版破解成功后如下图
3.通义灵码的下载
- 点击File点击Settings
-
点击Plugins,并在搜索框中输入tongyi
-
安装好后点击登录,登陆好后即可使用。(注:需使用阿里云账号)
4.机器学习概述
1.1人工智能的概念
- 什么是人工智能:
- Artificial Intelligence 人工智能
- AI is the field that studies the synthesis and analysis of computational agents that act intelligently •
- AI is to use computers to analog and instead of human brain
- AI的期望
- systems that think like humans
- Systems that think rationally
- Systems that act like humans
- think like human s Systems that act rationally
1.1.1机器学习
-
什么是机器学习
- Machine Learning 机器学习
- Field of study that gives computers the ability to learn without being explicitly programmed
-
机器如何学习
1.1.2深度学习
- 深度学习(DL, Deep Learning) : ,也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
1.1.3学习方式
-
基于规则的学习 : 程序员根据经验利用手工的if-else方式进行预测
-
有很多问题无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:图像和语音 识别和自然语言处理
-
基于模型的学习 : 从数据中自动学出规律
-
基于模型的学习 : 房价预测
1 利用线性关系来模拟面积和房价之间的关系 eg:让直线尽可能多的经过这些点,不能经过的点分布直线两侧 2机器学习模型 eg:直线记成y = ax + b 就是模型,其中 a、b 就是我们要训练的模型参数!
1.1.4总结
- 人工智能 • Artificial Intelligence(AI):仿智,使用计算机来模拟或者代替人类
- 机器学习 • Machine Learning(ML) :机器自动学习,不是人为规则编程
- 深度学习 • Deep Learning (DL) :大脑仿生,设计一层一层的神经元模拟万事万物
- AI、ML、DL三者之间的关系 • 机器学习是实现人工智能的一种途径 • 深度学习是机器学习的一种方法发展而来的
- 算法的学习方式有哪两种? • 基于规则的学习 • 基于模型的学习
1.2机器学习发展史
- 符号主义 20世纪50-70
- 专家系统占主导 1950:图灵设计国际象棋程序 1962:IBM Arthur Samuel 的跳棋程序战胜人类高手(人工智能第一次浪潮)
- 统计主义 20世纪80-2000
- 主要用统计模型解决问题 •1993:Vapnik提出SVM •1997:IBM 深蓝战胜卡斯帕罗夫(人工智能第二次浪潮)
- 神经网络 21世纪初期
- 神经网络、深度学习流派 •2012: AlexNet深度学习的开山之作 •2016:Google AlphaGO 战胜李世石(人工智能第三次浪潮)
- 大规模预训练模型 2017-至今
-
大规模预训练模型 2017年,自然语言处理NLP的Transformer框架出现 2018年,Bert和GPT的出现 2022年,chatGPT的出现,进入到大模型AIGC发展的阶段
AI发展三要素
-
CPU:主要适合I\O密集型的任务
-
GPU:主要适合计算密集型任务
-
TPU:专门针对大型网络训练而设计 的一款处理器
1.2.1总结
-
机器学习的应用领域
-
计算机视觉CV:对人看到的东西进行理解 总结
-
自然语言处理:对人交流的东西进行理解
-
数据挖掘和数据分析:也属于人工智能的范畴
-
-
人工智能发展史
- 1956年人工智能元年
- 2012年计算机视觉深度神经网络方法研究兴起
- 2017年自然语言处理应用大幕拉开
- 2022年chatGPT的出现,引起AIGC的发展
-
人工智能发展三要素
- 数据,算法,算力
- CPU:主要适合I\O密集型的任务
- GPU:主要适合计算密集型任务
- TPU:专门针对大型网络训练而设计的一款处理器
1.3机器学习常用术语
样本 :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录
特征 :一列数据一个特征,有时也被称为属性
标签:模型要预测的那一列数据。本场景是就业薪资
1.3.2数据集划分
数据集可划分两部分:训练集、测试集 比例:8 : 2,7 : 3
训练集(training set) :用来训练模型(model)的数据集
测试集(testing set):用来测试模型的数据集
x_train 训练集中的x x_test 测试集中的x y_train 训练集中的y y_test 测试集中的y
1.3.3总结
- 样本和数据集
- 样本(sample) :一行数据就是一个样本 总结 • 数据集dataset:多个样本组成数据集
- 特征
- 特征(feature) :一列数据一个特征,有时也被称为属性
- 标签
- 标签/目标(label/target) :模型要预测的那一列数据。
- 数据集划分
- 训练集用来训练模型、测试集用来测试评估模型 。
- 一般划分比例7:3 ~ 8:2