首页 > 其他分享 >机器学习1_机器学习定义——MOOC

机器学习1_机器学习定义——MOOC

时间:2024-11-05 21:19:55浏览次数:5  
标签:MOOC 机器 标签 菊花 学习 算法 玫瑰

一、机器学习定义

定义一

1959年Arthur Samuel提出机器学习的定义:

Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed.


译文:机器学习是这样的领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式的编程获得的。

什么是显著式?

人为的告诉计算机,菊花是黄色的,玫瑰是红色的。

非显著式的编程

如果我们只给计算机一堆菊花和玫瑰的图片,编写程序让计算机自己去总结菊花和玫瑰的区别。

计算机通过大量的图片,从一大堆可能的规律中挑出最能区分菊花和玫瑰的一些规律,从而完成对菊花和玫瑰的识别。

举例

需求:让机器人到教室外面的咖啡机去我们冲一杯咖啡。

显著式的编程

我们必须帮计算机规划所处环境,每一步怎么走都要规划的一清二楚。

非显著式的编程

我们可以规定机器人可以采取一系列的行为,例如向左转,向右转等。

规定在特定的环境下,机器人做这些行为所带来的收益,把这个成为收益函数(Reward Function)。

例如,机器人采取的某个行为撞到了墙上,规定这时候的收益函数值为负。如果机器人采取某个行为取到了咖啡,那么程序就要奖励一下这个行为,规定这时候的收益函数值为正

只要程序编的足够好,计算机是可能找到一个最大化收益函数的行为模式。

结论:非显著式的编程能够让计算机通过数据和经验自动的学习完成我们交给的任务。

定义二

1998年Tom Mitshell在《Machine Learning》中的定义:

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.


译文:一个计算机程序被称为可以学习,是指它能针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。

举例

以菊花和玫瑰为例。

任务T:编写程序识别菊花和玫瑰

经验E:一大堆菊花和玫瑰的图片

性能指标P:不同的机器学习算法会有不同

识别率(Recognition Rate):让更多的菊花被识别为菊花,更多的玫瑰被识别为玫瑰

根据Tom Mitshell的定义,机器学习就是针对识别菊花和玫瑰这样的任务构造某种算法。这种算法的特点是,当训练的菊花和玫瑰的图片越来越多的时候,也就是经验E越来越多的时候,识别率越来越高。


二、机器学习的分类

机器学习算法可以分为监督学习和强化学习,但这个划分并不绝对。

监督学习(Supervised Learning)

一些输入计算机训练数据(所有的经验E都是由人工采集并输入进计算机的)同时加上标签的机器学习。

对于监督学习,可以根据数据标签的存在与否分为三类:
  • 传统的监督学习(Traditional Supervised Learning)
每一个训练数据都有对应的标签。

支持向量机(Support Victor Motion)、人工神经网络(Neural Networks)、深度神经网络(Deep Neural Networks)。

  • 非监督学习(Unsupervised Learning)

所有的训练数据都没有对应的标签。

如图,左边的图像,⭕代表一类,❌代表一类。右边的图像总,假设有这些训练的数据,但不知道这些训练数据的标签。所以就需要假设同一类的训练数据在空间中的距离更近。

聚类(Classtery)、EM算法(Expectation-Maximization algorithm)、主成分分析(Principle Component Analysis)

  • 半监督学习(Seme Supervised Learning)

训练数据中一部分有标签,另一部分没标签。

利用少量的标注数据和大量没有标注过的数据一起训练。

如图,左边的图中,如果只有两个标注过的训练样本,我们并不知道如何进行分类。但是如果我们增加一些没有标签的训练样本,如右图所示,那么我们可能设计算法更准确的实现分类。

另一种分类方法是基于标签的固有属性。
  • 分类(Classification)

标签是离散的值。

如识别一张人脸是一堆人脸中的哪一个。

  • 回归(Regression)

标签是连续的值。

如预测房价,预测股票的价格等。

强化学习(Reinforcement Learning)

经验E是由计算机与环境相互的互动获得的。

计算机产生行为同时获得这个行为的结果,程序只需要定义这些行为的收益函数,对行为进行奖励和惩罚。同时需要设计算法,让计算机自动的通过改变自己的行为模式去最大化收益函数,完成学习的过程。


三、机器学习算法的过程

拿到数据之后,构建机器学习算法的第一步是观察数据,总结规律。如果我们总结对数据没有感性的认识,我们就很难设计出好的算法,也很难估计算法可能达到的性能极限。

错误做法:认为只要收集足够多的数据,从网上随便下载一个开源的算法模型,直接将数据丢到算法模型当中去训练,就可能获得很好的结果。

如图,可能被观察到的区别,总结起来包括如下三个方面:

  1. 平均来说,白细胞的面积比红细胞更大。
  2. 平均来说,白细胞没有红细胞那么圆。
  3. 白细胞内部的纹理比红细胞要粗糙一些。

机器学习的第一步

特征提取(Feature Extraction)

特征提取是指通过训练样本获得对机器学习任务有帮助的多个维度的特征数据。

首先特征的提取和特征选择,不同的任务提取特征的方式有不同。基于特征构建算法。不同的算法会对特征空间做不同的划分,获得不同的结果。

例如,支持向量机(Support Victor Motion)

支持向量机有三至内核:线性内核、多项式内核、高斯镜像奇函数核。

标签:MOOC,机器,标签,菊花,学习,算法,玫瑰
From: https://blog.csdn.net/Jay_NanX/article/details/143377536

相关文章

  • ROS机器人编程<六>:了解ROS系统及使用VScode实现话题通信(C++)
    目录ROS中基本的通信机制:一、话题通信:1.话题通信定义与基本概念2.核心要素3.工作流程4.消息接口与数据类型二、vscode实现话题通信三、C++实现话题通信 要求:编写发布订阅实现,要求发布方以10HZ(每秒10次)的频率发布文本消息,订阅方订阅消息并将消息内容打印输出1.在......
  • Jupyter绘图学习
    1、魔法命令%matplotlibinline用于将绘制的图片直接嵌入到Notebook单元格内,而不是单独弹出一个独立窗口,便于数据分析和观察。2、导入matplotlib.pyplot模块,命名为plt方便后续代码书写。matplotlib.pyplot是python的一个用于绘图的库。importmatplotlib.pyplotasplt3、......
  • scala学习记录,Set,Map
    set:集合,表示没有重复元素的集合,特点:唯一语法格式:val变量名=Set[类型](元素1,元素2...)可变不可变可变(mutable)可对元素进行添加,删除等操作;不可变(immutable)创建后元素不能修改如果要定义可变的Set(mutable),需要额外导入包:importscala.collection.mutableSet常见操作对于......
  • c语言学习5运算符与表达式
    5.1运算符与表达式5.1.1运算符:对数据进行操作赋值运算符:=算术运算符:+-*/%关系运算符:<><=>===!=逻辑运算符:&&||!位运算符:&|!<<>>~^其他运算符:++复合运算 三目运算5.1.2表达式:①表达式可以是常量,变量,运算符和操作数的组合形式If(表达式){}While(表达......
  • 零基础学习Spring AI Java AI使用向量数据库postgresql 检索增强生成 RAG
    零基础学习SpringAIJavaAI使用向量数据库postgresql检索增强生成RAG向量数据库是一种特殊类型的数据库,在人工智能应用中发挥着至关重要的作用。在向量数据库中,查询与传统的关系数据库不同。它们不是进行精确匹配,而是执行相似性搜索。当给定一个向量作为查询时,向量数......
  • JS学习笔记(1)
    目录1.前言2.JavaScript介绍3.JavaScript书写位置4.注释5.输入与输出语法6.变量7.小知识8.总结(其实是我个人的一点扯皮)前言博主的csdn地址:https://blog.csdn.net/2403_87169202今后会两边同时更新,程序员红中,一个努力分享编程干货的全栈开发者,欢迎各位一起讨论学习Ja......
  • 学习笔记(二十五):ArkUi-栅格布局 (GridRow/GridCol)
    概述:栅格布局是一种通用的辅助定位工具,对移动设备的界面设计有较好的借鉴作用。主要优势包括:提供可循的规律:栅格布局可以为布局提供规律性的结构,解决多尺寸多设备的动态布局问题。通过将页面划分为等宽的列数和行数,可以方便地对页面元素进行定位和排版。统一的定位标注:栅格......
  • 学习笔记(二十四):ArkUi-网格 (Grid/GridItem)
    概述:网格布局是由“行”和“列”分割的单元格所组成,通过指定“项目”所在的单元格做出各种各样的布局。网格布局具有较强的页面均分能力,子组件占比控制能力,是一种重要自适应布局,其使用场景有九宫格图片展示、日历、计算器等。ArkUI提供了Grid容器组件和子组件GridItem,用于构建......
  • 2024/11/5日 日志 关于BOM浏览器对象模型和DOM文档对象模型的学习与笔记整理
    和Javascript有关的BOM与DOM及事件监听。以下是今天的内容点击查看代码--BOM--BrowserObjectModel浏览器对象模型--JavaScript将浏览器的各个组成部分封装为对象--组成:--Window:浏览器窗口对象--Navigator:浏览器对象--Screen:屏幕对象--History:历史记录......
  • 操作系统学习笔记-3.1内存管理
    文章目录内存的地址绝对装入静态重定位动态重定位链接覆盖和交换1.覆盖(Overwrite)在内存管理中的作用2.交换(Swap)在内存管理中的作用连续分配管理方式固定分区分配的关键概念优点缺点示例动态分区分配的关键概念优点缺点示例基本分页存储管理基本地址变换机构页表寄存......