首页 > 其他分享 >100 天机器学习指南

100 天机器学习指南

时间:2024-03-23 09:59:53浏览次数:23  
标签:学习指南 机器 Python 回归 学习 可视化 100 数据

100 天机器学习指南

除了机器学习专栏,我们打算出另外一期专栏,叫做100 天机器学习指南,目标是通过100天的深入持续学习,让我们没有机器学习经验的人,也可以从事简单的机器学习工作,为职业生涯寻找增长点,专栏的主要特点如下:

  1. 从0到1
  2. 覆盖面广
  3. 有实战

第 1 – 10 天:线性代数

机器学习之旅的前 10 天应该侧重于理解线性代数的基础知识。您应该首先学习不同类型的线性方程、矩阵、数学运算及其应用。您还应该熟悉线性代数中使用的关键概念和术语。以下是线性代数中要涵盖的关键主题:

  • 线性方程组
  • 矩阵运算
    • 加法、乘法和除法
    • 转置
  • 矩阵的性质
  • 使用高斯消元法求解线性方程
  • 线性方程的 LU 分解
  • 行梯队形式
  • 行列式
  • 特征值和特征向量
  • 特征空间
  • 正交和正交向量
  • 特征分解
  • 对角化
  • 奇异值分解
  • 矩阵近似
  • 向量运算
  • 差异化
  • 最小值和最大值
  • 曲线下面积

第 11 – 20 天:统计学

在对线性代数及其运算有充分的了解之后,是时候在统计方面向前迈出一步以处理数据了。充分了解统计知识最终将有助于您在机器学习之旅中进行数据分析、建模和评估。统计学在机器学习中有很多应用,例如数据探索和预处理、特征选择、模型选择和评估、不确定性估计等。所以让我们深入探讨统计学的核心:

  • 均值、标准差和方差
  • 描述性统计
  • 描述性统计和推论性统计
  • 概率论与分布
    • 正态分布
    • 二项分布
    • 均匀分布
  • 抽样分布的类型
    • 自由程度
    • Z 检验
    • t检验
    • 卡方检验
  • 线性回归
  • 样本误差和真实误差
  • 偏差与
  • 假设检验
  • 置信区间
  • 相关性和协方差
  • 相关系数
  • 协方差矩阵
  • 皮尔逊相关系数
  • Spearman 等级相关性测度
  • 肯德尔等级相关性测度
  • 稳健的相关性
  • 最大似然估计

第 21 天 – 27 Python 编程

为了实现机器学习技术,人们需要了解一种设备可以理解的语言,而 Python 就可以发挥作用。每当需要选择编程语言时,第一个跳出来的语言就是PYTHON。它可以通过多种方式用于机器学习,例如数据预处理和操作、构建机器学习模型、数据可视化等。

要学习 Python 编程,您应该具备以下主题的知识:

  • Python 基础知识
    • 数据类型
    • 表达式
    • 变量
    • 字符串方法
  • Python 数据结构
    • 列表和元组
    • 字典
  • Python 编程基础
    • 条件语句
    • 循环语句
    • 功能
      • 用户定义函数
      • 内置功能
    • 对象和类
  • 在 Python 中处理数据
    • 使用Python读取文件
    • 在 Python 中写入文件
    • 用于数据处理的 Pandas
    • 用于加载数据的 NumPy 数组

第 28 – 45 天:数据预处理和可视化

必须理解数据预处理和可视化的重要性。这些过程有助于准备数据以进行分析并检测有助于塑造模型的模式和趋势。建议您熟悉数据清理数据规范化数据转换等技术。此外,学习如何使用MatplotlibSeaborn等可视化工具来表示数据并从中获得有价值的见解也至关重要。

Python 中的数据处理和可视化库

  • 数值模拟
  • 熊猫
  • Matplotlib
  • 西博恩

数据预处理

  • 数据预处理简介
  • 数据清理
  • 缺失值
  • 数据不一致
  • 数据转换
  • 数据缩减
    • 主成分分析
    • 条形图和直方图
    • 欠采样和过采样
  • 特征提取
  • 特征转换
  • 特征选择

数据可视化

  • 数据可视化简介
  • 探索性数据分析
  • 描述性统计分析
  • 使用不同图表的数据可视化
  • 使用 Matplotlib 进行可视化
    • 线图
    • 散点图
    • 条形图
    • 饼状图
    • 圆环图
    • 甘特图
    • 误差条形图
  • 使用 Matplotlib 进行高级可视化
    • 堆积图
    • 面积图
    • 3D 绘图
    • 箱线图
  • 使用 Seaborn 进行可视化
    • 热图
    • 配对图
    • 群图
    • 点图
    • 计数图
    • 小提琴情节
    • KDE图

总之,数据预处理和可视化是机器学习流程中的关键步骤,“机器学习 100 天”挑战赛的第 28-45 天重点关注这些基本主题。预处理有助于通过处理缺失值、离群值和重复项、通过缩放和标准化对数据进行标准化以及通过对分类变量进行编码、选择特征和降维来转换数据来准备分析数据。另一方面,可视化通过图表和图形来表示数据,有助于从数据中获得见解,Matplotlib 和 Seaborn 等工具可用于创建各种可视化效果。通过掌握这些技术,学习者可以在数据预处理和可视化方面打下坚实的基础,这将有助于他们未来的机器学习项目。

第 46 – 76 天:机器学习及其算法简介

接下来几天的机器学习之旅应该重点了解机器学习的基础知识。您应该首先了解不同类型的机器学习及其应用程序。您还应该熟悉机器学习中使用的关键概念和术语。之后,是时候深入研究算法领域了。有多种机器学习算法可供选择,算法的选择取决于您寻求解决的问题的性质。
以下是机器学习及其算法简介中涵盖的关键主题:

  • 什么是机器学习?
  • 机器学习的类型
    • 监督学习与无监督学习的区别
    • 强化学习
  • 机器学习——应用
  • 分类入门
  • 分类的基本概念
  • 回归技术的类型
  • 分类与回归
  • 机器学习 | 学习类型——监督学习
  • 使用 scikit-learn 进行多类分类
  • 梯度下降:
    • 梯度下降算法及其变体
    • 随机梯度下降
    • 使用 Python 进行小批量梯度下降
    • 梯度下降优化技术
    • 基于动量的梯度优化器简介
  • 线性回归
    • 线性回归简介
    • 线性回归中的梯度下降
    • 线性回归工作的数学解释
    • 线性回归中的正规方程
    • 线性回归(Python 实现)
    • Python 中的单变量线性回归
    • 使用 Python 进行多元线性回归
    • 局部加权线性回归
    • 蟒蛇 | 使用 sklearn 进行线性回归
  • 逻辑回归
    • 了解逻辑回归
    • 为什么在分类中使用逻辑回归?
    • 使用 Python 进行逻辑回归
    • 逻辑回归中的成本函数
    • 使用 Tensorflow 的逻辑回归
  • 朴素贝叶斯分类器
  • 支持向量机
    • Python 中的支持向量机
    • 使用 GridSearchCV 进行 SVM 超参数调整
    • 使用SVM对非线性数据集进行分类
  • 决策树
    • 决策树
    • 使用 sklearn 进行决策树回归
    • 使用Python实现决策树
  • 随机森林
    • Python 中的随机森林回归
    • 集成分类器
    • 使用 Sklearn 投票分类器
    • 装袋分级机

完整教程请参考 –机器学习教程

第 77 – 84 天:评估和模型选择

训练完模型后,您需要评估其性能并选择最适合您的问题的模型。

  • 偏差方差权衡
  • 模型评估技术
  • 将数据分为训练、验证和测试的重要性
  • 交叉验证技术
  • 机器学习评估指标
  • 分类评价指标
    • 准确度分数
    • 准确率、召回率和 F1 分数
    • 混淆矩阵
    • ROC曲线
  • 回归评估指标
    • 平均绝对误差
    • 均方误差
    • 平均绝对百分比误差
    • R2 分数
  • 超参数调整
    • 网格搜索简历
    • 随机搜索CV

总之,“机器学习 100 天”挑战赛的第 77-84 天重点关注针对给定问题评估和选择最佳模型的关键步骤。评估是使用各种指标(例如精度、召回率和 F1 分数)衡量模型性能的过程,并且可以使用交叉验证和 ROC 曲线等技术来实现此目的。模型选择涉及从一组候选模型中选择最佳模型,超参数调整可用于优化这些模型的性能。GridSearchCV 和 RandomizedSearchCV 等技术可用于自动化超参数调整过程。通过掌握这些技术,学习者可以培养针对给定问题评估和选择最佳模型的能力,这是机器学习领域的一项关键技能。

第 85 – 94 天:机器学习项目

现在,是时候获得一些机器学习的实践经验了。因此,下面提到的一些项目将帮助您了解机器学习技术的功能和实际实施。

基于回归的项目

  • 波士顿房价预测
  • 服务员小费预测
  • 卡路里燃烧预测

基于分类的项目

  • 泰坦尼克号分类
  • 乳腺癌预测
  • 糖尿病预测

第 95 – 100 天:深度学习简介

深度学习是机器学习的一个专门领域,它部署神经网络从数据中吸收知识。它对计算机视觉自然语言处理语音识别等众多领域产生了革命性的影响。为了获得全面的理解,建议在 ML 之旅的最后几天学习:

  • 生物神经元与人工神经元
  • 单层感知器
  • 多层感知器
  • 前向和后向传播
  • 前馈神经网络
  • 神经网络层
  • 激活函数简介
  • 激活函数的类型
  • 深入理解激活函数
  • 神经网络中的成本函数
  • 梯度下降如何工作
  • 梯度消失或爆炸问题
  • 选择最佳的 epoch 数
  • 微调和超参数

深度学习利用神经网络从数据中提取知识,并在一些复杂的任务中产生了显着的结果。为了全面了解该领域,学习者需要研究神经网络的架构。通过掌握这些概念,学习者可以获得深度学习和神经网络的坚实基础,这将使他们能够从事该领域令人兴奋且具有挑战性的项目。

结论:

机器学习是一个快速发展的领域,具有巨大的潜力来彻底改变我们周围的几乎一切。通过掌握机器学习、数据预处理和可视化的基础知识,人们可以开始创建自己的机器学习模型来处理现实世界的情况,并为其提供有效的自我维持解决方案。有多种算法可用,从线性回归到深度学习,选择合适的算法取决于您试图解决的问题的性质。

总之,100 天的机器学习之旅将是一次令人难以置信的学习经历。通过这一过程,可以获得机器学习及其在各个领域的应用的坚实基础。文章涵盖了几个主题:机器学习、数据准备、回归、分类、聚类、自然语言处理和深度学习等。

在 100 天的机器学习过程中获得的技能在当今世界非常有价值,数据在各行业的决策过程中变得越来越重要。通过阅读本文,您将朝着精通机器学习迈出重要的一步,并且现在能够更好地解决各自领域的复杂问题。

标签:学习指南,机器,Python,回归,学习,可视化,100,数据
From: https://blog.csdn.net/king14bhhb/article/details/136960655

相关文章

  • 【机器学习】详细解析Sklearn中的StandardScaler---原理、应用、源码与注意事项
    【机器学习】详细解析Sklearn中的StandardScaler—原理、应用、源码与注意事项......
  • 机械结构篇之四足机器人腿部结构
    欢迎关注微信公众号“四足机器人研习社”,本公众号的文章和资料和四足机器人相关,包括行业的经典教材、行业资料手册,同时会涉及到职业知识学习及思考、行业发展、学习方法等一些方面的文章。目录   1.四足机器人腿部机构概述 2.足式机器人腿部设计要点 3.四足机器人......
  • Python 机器学习 维特比算法和鲍姆-韦尔奇算法
    在机器学习和信号处理领域,特别是在处理隐马尔可夫模型(HiddenMarkovModels,HMM)时,维特比算法(ViterbiAlgorithm)和鲍姆-韦尔奇算法(Baum-WelchAlgorithm)是两个核心算法,用于不同的目的。维特比算法用于解决解码问题,即在给定观察序列的情况下找到最可能的状态序列。它通过动态规......
  • 全地形人形机器人(humanoid)是否只能进行短距视野感知呢 —— 实时地形感知
    相关:https://capital.lenovo.com/news/detail/id/924/s/1.html常见的人形机器人都是测试其手臂灵活度为主,但是近日看到一款以全地形步态行走为主的机器人(逐际动力,CL-1)。虽然很少有用双足机器人测试全地形行走能力的,但是全地形行走的能力测试在四足机器人中极为常见的,感觉测试......
  • 是否具有环境感知能力是人形机器人的基本要求 —— 基于感知的运动控制算法
    智能机器人与传统机器人的区别在于是否具有智能决策模块,直白的说就是在于是否使用强化学习算法进行动作的智能决策。但是,并不是使用强化学习算法的机器人就是智能机器人,尤其是人形机器人。强化学习算法是需要对环境进行感知的,这其实还可以分为两类,第一类是比较理想下的设定,就是指......
  • 机器人路径规划:基于霸王龙优化算法(Tyrannosaurus optimization,TROA)的机器人路径规划(提
     一、机器人路径规划介绍移动机器人(Mobilerobot,MR)的路径规划是移动机器人研究的重要分支之,是对其进行控制的基础。根据环境信息的已知程度不同,路径规划分为基于环境信息已知的全局路径规划和基于环境信息未知或局部已知的局部路径规划。随着科技的快速发展以及机器人的大量......
  • 吴恩达2022机器学习专项课程(一) 3.5 可视化成本函数
    问题预览为什么要可视化成本函数?可视化之后的成本函数是什么样子?如何在三维空间里通过w和b找到一个成本函数的值?如何在三维空间里找到成本函数的最小值?解读可视化成本函数:为了更加方便的看到不同的w和b,是如何影响成本函数的。上节课只看到了w如何影响成本函数,这节课回归......
  • 海思 SS927V100 HI3519AV200 简介
    海思SS927V100HI3519AV200简介HI3519AV200是一颗专业ultra-HDSmartIPCameraSOC。SS927V100(另称:22AP70、SD3402)功能以及封装与HI3519AV200完全一致,可以平替HI3519AV200。最高支持四路sensor输入,支持最高4K60的ISP图像处理能力,支持3FWDR、多级降噪、六轴......
  • 【转载】解决 安装或卸载软件时报错Error 1001 的问题
    卸载或安装程序时出错1001:错误1001可能发生在试图更新、修复或卸载windowsos中的特定程序时。此问题通常是由于程序的先前安装损坏而引起的。错误“1001”通常会遇到,因为程序的先前安装被破坏或者由于Windows安装不处于正常状态(例如,注册表已经被恶意软件修改)。在这种情况......
  • 全开源小狐狸Ai系统 小狐狸ai付费创作系统 ChatGPT智能机器人2.7.6免授权版
    源码下载: 点击下载测试环境:Linux系统CentOS7.6、宝塔、PHP7.4、MySQL5.6,根目录public,伪静态thinkPHP,开启ssl证书具有文章改写、广告营销文案、编程助手、办公达人、知心好友、家庭助手、出行助手、社交平台内容、视频脚本创作、AI绘画、思维导图等功能ai通道:文心一言、Min......