首页 > 其他分享 >机器学习定义监督学习无监督学习

机器学习定义监督学习无监督学习

时间：2022-12-30 23:55:58浏览次数：41

标签：输出定义算法学习监督聚类数据

目录

机器学习定义
监督学习
- 回归 Regression
- 分类 classification
无监督学习
练习

机器学习定义

Arthur Samuel的定义：

使计算机无需明确编程即可学习的研究领域称为机器学习。

机器学习的两种主要类型：监督学习无监督学习

监督学习

当今机器学习创造经济价值的99%都是来自于一种机器学习 --- 监督学习

常见的监督学习是指：
学习x到y 或者输入到输出二者之间映射关系的算法

监督学习的主要特点是：
你给你的学习算法提供学习的例子。
这些例子中有正确答案。
对于给定的输入x，表上正确的标签y。
通过学习正确的输入x和期望的输出y，算法最终能够只接受输入，而不需要接受输出标签，就能给出合理准确的输出预测或猜测。

回归 Regression

房价预测例子：通过房屋的大小，预测房屋的价格

如何系统的选择最合适的直线或曲线，或其他方式来拟合数据？
图中的红色叉是标签、是房子的价格，也是所谓的正确答案。
机器学习算法的任务就是找出更多这样的正确答案。

房价预测的例子属于监督学习的一种特殊情况。
他被称为：回归(Regression)

回归：也就是从无限多个可能的数中预测出一个数。比如我们举例中的房价，房价预测的任务是预测数字。

分类 classification

乳腺癌检测例子：
通过病人的医疗记录，判断一个肿块是恶性的，还是良性的。

肿块的大小、是否恶性肿块：

绘制图形：

横轴表示肿块的大小，纵轴只有两个值：0、1
（0表示良性、1表示恶性）

对于二分类问题，还可以在一根轴上作图：

可能的输出类别有三种时：

分类(classification)算法总结：
1.类别不一定是数字。可以是非数值的，比如预测一张图片是猫还是狗。
2.算法预测的结果是一个小的、有限的输出类别集合。

我们的乳腺癌监测例子中，只有一个输入值：肿块的大小。
但是也可以使用多个输入值来预测输出。

两个输入的情况：年龄、肿瘤大小

如何预测这个病人的肿瘤是良性的还是恶性的？
学习算法可能会找到一些边界：将恶性肿瘤与良性肿瘤区分开。
学习算法必须知道如何从数据集拟合出一条边界线，将病人区分开，找到的边界线将帮助医生进行诊断。

在机器学习任务中，可能需要更多的输入值：
如肿瘤块的厚度、细胞形状的均匀性等。

无监督学习

聚类 clustering

无监督学习和监督学习一样优秀！

对于监督学习：
每个样本都与一个输出标签y相关联，例如良性肿瘤和恶性肿瘤，用○与×来标记。
对于无监督学习：
我们得到的数据与任何输出标签都没有关联。

以乳腺癌监测举例，比如我们得到了病人肿瘤大小和年龄的数据，但是我们不知道肿瘤是良性还是恶性的（右图）。
我们没有被要求诊断肿瘤是良性还是恶性的，
相反，我们的工作是去找到这些数据中是否具有某些结构或者模式，
或者只是在数据中发掘有意思的东西，
这就是无监督学习。

称之为无监督学习，是因为我们不是试图监督算法，
而是让算法自己找出有趣的东西，或者数据中可能包含的模式或结构。

以下图为例子，一个非监督学习算法，可能会认为：
数据可以分配给两个不同的组或者两个不同的簇。

这是一种特殊类型的无监督学习，称为聚类算法（clustering），
聚类算法将未标记的数据放在不同的簇中。

聚类算法的应用

谷歌新闻聚类算法：
谷歌新闻聚类算法查看成千上万的新闻文章，然后将相关的文章关联在一起。
比如点击一个熊猫的文章，会有很多跟熊猫相关的文章出现文章的底部或者旁边。

原理：找到所有文章中，提到相似词语的文章，并将他们分组聚类。

没有一个谷歌的员工告诉算法去找到含有熊猫、双胞胎和动物园这三个词的文章，并把他们放在同一个簇中。算法需要在没有监督的情况下，自己弄清楚，今天的新闻应该被划分为哪些簇。

聚类基因、DNA数据：

这张图片中的每一小列都代表着一个人的基因或DNA活动。
而每一行都代表一个特定的基因：

比如这里的一行可能代表影响眼睛颜色的基因。

对于DNA微阵列，其理念是测量每个人特定基因表达量：
这些小色块的颜色（红色、绿色、灰色），显示了不同的个体是否有特定的基因活动（比如眼睛的颜色、身高）。

使用聚类算法对不同类别或者类型的个体进行分类：

总而言之，无监督学习在没有提前告知这些人有哪些生理特征的情况下，通过DNA对人进行了分类。聚类算法自动寻找数据的结构，自动的找到每个人所属的类，这同样是无监督学习。

社区用户聚类：

通过客户数据，自动的将客户分组，以便于高效的服务客户。

聚类算法猜想客户的动机，将客户进行分组：

聚类算法总结：
这是一种无监督算法，它获取没有标签的数据，并尝试将它们自动分组到不同的簇中。

更多无监督学习算法

无监督学习定义：在无监督学习中，数据仅仅带有输入x，但是没有输出标签y。我们的算法从数据中找到一些结构、模式或者一些有趣的东西。

异常检测（Anomaly detetion）：
异常检测算法用于检测异常事件。
最常见的是用于金融系统的欺诈检测，系统中的不寻常数据以及异常交易可能是欺诈的迹象。

降维（Dimensionality reduction）:
降维可以帮助你将一个大数据集尽可能的压缩成一个小的数据集，同时丢失尽可能少的信息。

练习

答案：BC

标签：输出,定义,算法,学习,监督,聚类,数据
From： https://www.cnblogs.com/passion2021/p/17016078.html

相关文章

逻辑回归-为什么模型会更加侧重于学习那些数值比较大的列
np.random.seed(24)features,labels=arrayGenReg(w=[1,-1,1])将第一个特征取值调大100倍features[:,:1]=features[:,:1]*100features---array([[132.9212172......
第1章：编程入门学习笔记
1、冯·诺依曼体系结构冯·诺依曼体系结构是现代计算机的基础。其认为计算机需要组成需满足具备输入设备、存储器、输出设备、（运算器、控制器）（CPU的两部分）。结构图：2、......
Python-标准库个人学习日志
一、文本1.1字符串—文本常量和模板点击查看代码#函数#string_capwords.pyimportstrings='Thequickbrownfoxjumpedoverthelazydog.'print(s)pr......
使用Xcode 制作自定义storyboard启动界面（用一张全屏图快速适配全部设备），供uniAPP使用。
1新建项目想要全屏显示并适应所有尺寸的iPad和iphone需要用750*16242X和1125*24363X大小的图片这里做完就可以导出文件了把文件和图片放到一起见......
stata 17学习笔记
1.安装时选择StataMP2.选择useeachuser'sdocumentfolder3.复制粘贴覆盖补丁4.第一次运行：选择“禁止自动更新检查”，取消“在检查更新之前始终提示”5.改变当前目录......
值得看!!!---大白话5分钟带你走进人工智能-第32节集成学习之最通俗理解XGBoost原理和
目录如下：本节讲解XGBoost的原理~目录1、回顾：1.1有监督学习中的相关概念1.2回归树概念1.3树的优点2、怎么训练模型：2.1案例......
本博客提供的题解仅供学习，请勿抄袭代码
近日，发现有部分同学翻取博客上的题解程序复制提交的抄袭行为；在此声明：本博客的代码仅供大家学习参考，对于自身还未学习到对应知识点的同学，请先完善自身基础知识的学习，当且仅......
【学习笔记】字符串后缀算法学习笔记
后缀数组\(\text{SuffixArray}\)参考资料：洛谷日报#273浅谈后缀数组算法、常见字符串算法byAlex_Wei后缀排序使用一种基数排序结合倍增的方法，将一个字符串的所有后......
tomcat学习一：tomcat 目录及配置文件学习 server.xml 等
文章目录前言一、目录结构及作用二、conf配置文件1、概述a、context.xmlb、web.xmlc、server.xmld、tomcat-......
nginx学习：配置文件详解，负载均衡三种算法学习，上接nginx实操篇
文章目录前言一、对上一篇博文的分析二、配置文件分析1.nginx官方网址（很详细）2、配置文件（全）3、配置文件（去掉注释）4、......

赞助商

阅读排行