首页 > 其他分享 >机器学习第一章学习笔记

机器学习第一章学习笔记

时间:2024-10-07 22:22:49浏览次数:8  
标签:训练 示例 称为 笔记 第一章 学习 算法 数据

第一章 绪论

1.1 引言

   在计算机系统中,“经验”通常以"数据"形式存在。书中采用"模型"泛指从数据中学得的结果。

1.2 基本术语

   记录的集合称为一个 "数据集",每条记录是关于一个事件或对象的描述,称为一个 "示例"(instance) 或 "样本"(samp1e)。(注意:有时候整个数据集也被称为一个”样本“,因为它可以看作对样本空间的一个采样,故需要通过上下文判断”样本“为单个示例还是整个数据集。)
   反映事件或对象在某方面的表现或性质的事项,称为 "属性值"(attribute va1ue)。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个 "特征向量" (feature vector)。
  一般地,令D={x1,x2,...,xm}表示包含m个示例的数据集,每个示例由d个属性描述,每个示例 Xi = (Xi1; Xi2; . . . ; Xid) 是d维样本空间χ中的一个向量,Xi∈χ,其中Xij是Xi在第i个属性上的取值, d称为样本Xi的 "维数"
  从数据中学得模型的过程称为 "学习""训练", 这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为"训练数据",其中每个样本称为一个“训练样本", 训练样本组成的集合称为"训练集"。
  学得模型对应了关于数据 的某种潜在的规律,因此亦称"假设" , 这种潜在规律自身,则称为 "真相""真实" ,学习过程就是为了找出或逼近真相.
  关于示例结果的信息,称为 "标记" ; 拥有了标记信息的示例,则称为 "样例" 。 一般地,用 (Xi,Yi) 表示第i个样例,其中Yi∈γ是示例 Xi 的标记,γ是所有标记的集合, 亦称 "标记空间""输出空间”

分类:若预测的是离散值,例如“1”“0”,此类学习任务称为分类(classification)。
回归:若预测的是连续值,则该学习任务称为回归(regression)。输出空间为实数集。
分类中又可分为二分类与多分类任务。二分类顾名思义,只需分2类,一般分别称为“正类”与“反类”(也可以称“负类”),且一般正类用“1”表示,反类用“0”或“-1”表示。多分类,输出空间绝对值大于2。

  学得模型后,用其进行预测的过程称为测试(test),被预测的样本称为测试样本(test sample)。
  此时引入聚类(clustering)概念,即将训练集中样本分为若干组,每一组称为一 “簇”(cluster)。

监督学习:训练数据有标记信息的学习过程。亦称:有导师学习。
无监督学习:训练数据没有标记信息的学习过程。亦称:无导师学习。
注意:分类和回归属于典型的监督学习问题,而聚类属于无监督学习问题。

分类与聚类的区别,如下:

  1. 分类是训练数据已有人为标记信息,计算机通过学习这些训练数据,将未出现在训练样本中的陌生的数据分到已有的类别中的过程。
  2. 聚类是训练数据没有任何标记信息,计算机需要自行寻找特征,将这些数据分为几个簇,然后将陌生的数据分到计算机自己划分的几个簇中的过程。

  泛化:机器学习所学得模型适用于陌生数据的能力。一般情况下,训练样本越多,我们得到的关于该分布的信息就越多,这样就越有可能找到这个函数,也就越有可能通过学习获得具有强泛化能力的模型。

1.3 假设空间

  归纳演绎是科学推理的两大基本手段, 前者是从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的“特化”,即从基础原理推导出具体状况。例如,在数学公理系统中,基于一组公理和推理规则推导出与之 相洽的定理,这是演绎; 而"从样例中学习"显然是一个归纳的过程,因此亦称 "归纳学习" 。
  学习过程可以看作是一个在所有假设组成的空间中进行搜索的过程,目的是找到与训练集匹配的假设。而现实中,可能会有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”,称之为“版本空间”。

1.4 归纳偏好

  机器学习算法在学习过程中对某种假设类型的偏好,称为归纳偏好。
   注意:任何一个机器学习算法都必有其归纳偏好,否则将无法产生确定的学习结果。
  一个神奇的结论:对于算法A来说,若其在某些方面比算法B好,那么必然存在一些方面B比A好。这个结论对任何算法均成立,无一例外!

   “没有免费的午餐”定理(No Free Lunch Theorem, NFL):无论学习算法A多么聪明,学习算法B多么笨拙,它们的期望性能完全一样(总误差与学习算法无关)。
  但是需要注意,NFL定理的前提是所有问题出现的机会相同或者所有问题同等重要,但是实际情形并不是这样。NFL定理最重要的寓意是让我们意识到:脱离具体问题,空泛的谈论哪一个算法更好毫无意义!

标签:训练,示例,称为,笔记,第一章,学习,算法,数据
From: https://www.cnblogs.com/msn-y-blog/p/18450771

相关文章

  • Vmware虚拟机介绍与学习环境规划
    一、Vmware虚拟机介绍与学习环境规划1、什么是虚拟机?虚拟机(virtualMachine)指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。虚拟机系统是一个操作系统镜像,它具有与真实windows系统完全一样的功能,进入虚拟系统后,所有操作都是在这个......
  • HTB-TwoMillion 靶机笔记
    TwoMillion靶机笔记概述HTB上的一台liunx靶机,难度定为了简单级别,它包括了对js接口的信息收集,js反混淆,未授权,越权,命令注入等漏洞。一、nmap扫描1)端口扫描nmap-sT--min-rate10000-p--oports10.10.11.221Nmapscanreportfor10.10.11.221Hostisup(0.37s......
  • Metasploit渗透测试框架学习(一)基本使用教程
    1.Metasploit框架结构1.1总览基础库文件Rex为最底层,实现网络套接字、网络应用协议、客户端服务端交互、数据库支持等framework-core实现与上层模块交互的接口framework-base对framework-core的扩展封装,用于提供各种接口供用户调用基于framework-base实现的六大模块Ex......
  • ESP-IDF 学习 1 工程文件管理
    最小项目目录结构├──CMakeLists.txt├──main│├──CMakeLists.txt│└──main.c└──README.mdESP-IDF给用户的函数入口在voidapp_main(void)./CMakeLists.txt管理整个工程./main/CMakeLists.txt管理./main文件夹中的所有文件若要将.c&.h文......
  • JS animate() 学习
    animate(keyframes,options)1.关键帧 1/ 如果是过渡动画直接就写效果eg:{transform:'rotate(360deg)'}2/关键帧数组使用数组报过对象eg:[{transform:'translateX(400px)'},{transform:'translateX(300px)'},{transform:'translateX(20px)�......
  • Markdown学习
    Markdown学习标题#+空格+标题最多为6级标题字体Hello,world!(粗体):文字两边各加两个*Hello,world!(斜体):文字两边各加一个*Hello,world!(斜体+粗体):文字两边各加三个*Hello,world!(删除线):文字两边各加两个~引用信念为舟,坚持为帆,方能远航至梦想的彼岸。引用句子:>+句子分割线......
  • Flask学习
    在想要实现一个项目https://github.com/xiwan/LLM-Game-Agents时发现部署出了一点问题先来制定一个蹩脚的计划:◕‿◕好吧稍微有点不知道从哪儿开始。。因为我不知道正确的应该是什么样的,所以想到目标就觉得有点胆怯了没找到问题在哪,先尝试一下:`fromflaskimportFlaskapp=Fl......
  • 学习Openmv的第四天——鼠标绘图
    1、简单演示在这里,我们创建一个简单的应用程序,无论我们在哪里双击它,都可以在图像上绘制一个圆。首先,我们创建一个鼠标回调函数,该函数在发生鼠标事件时执行。鼠标事件可以是与鼠标相关的任何事物,例如左键按下,左键按下,左键双击等。它为我们提供了每个鼠标事件的坐标(x,y)。通......
  • 2024.7.26 集训笔记
    单调栈给定一个长度为\(n\)的数列\(a\),对每个数字求出其右/左边第一个值大于等于它的数字的位置。考虑从左到右扫整个序列,维护一个栈,里面存放可能成为答案的数字,当遍历到一个新的数\(a_i\)的时候,可以发现栈中\(\leqa_i\)的数就再也不可能成为答案了,那就把它们弹掉,此时......
  • 珂朵莉树(ODT)学习笔记
    对一个序列进行推平和查询等操作,我们难免会有过这样的想法:只维护连续段即可。但是这只是比较优的暴力,精心构造的数据可以轻松卡掉。事实上,在随机数据下,这样的算法的时间复杂度是\(\mathcal{O}(n\logn)\),这就是颜色段均摊理论,证明不会。根据这个理论产生了珂朵莉树,它可以维护区......