首页 > 其他分享 >机器学习基本概念总结

机器学习基本概念总结

时间:2023-01-14 13:46:05浏览次数:72  
标签:总结 机器 距离 余弦 算法 拟合 范数 基本概念 向量

1,余弦相似度与欧氏距离

1.1,余弦相似度

通过对两个文本分词,TF-IDF 算法向量化,利用空间中两个向量的夹角,来判断这两个向量的相似程度:(计算夹角的余弦,取值 0-1)

  • 当两个向量夹角越大,距离越远,最大距离就是两个向量夹角 180°;
  • 夹角越小,距离越近,最小距离就是两个向量夹角 0°,完全重合。
  • 夹角越小相似度越高,但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大不适合大数据量的计算。

计算两个向量a、b的夹角余弦:
我们知道,余弦定理:\(cos(\theta) = \frac {a^2+b^2+c^2}{2ab}\) ,由此推得两个向量夹角余弦的计算公式如下:

\[cos(\theta) = \frac {ab}{||a|| \times ||b||} = \frac {x_{1}x_{2}+y_1y_2}{\sqrt{x^2_1+y^2_1}\sqrt{x^2_2+y^2_2}} \]

(分子就是两个向量的内积,分母是两个向量的模长乘积)

1.2,欧式距离

欧式距离也称欧几里得距离,计算公式和 L2 范数类似。

在欧几里得空间中,欧式距离其实就是向量空间中两点之间的距离。点 \(x = (x_{1}, ..., x_{n})\) 和 \(y = (y_{1}, ..., y_{n})\) 之间得欧氏距离计算公式如下:

\[d(x,y) = \sqrt {((x_{1}-y_{1})^{2} + (x_{2}-y_{2})^{2} + ... + (x_{n}-y_{n})^{2})} \]

1.3,余弦相似度和欧氏距离的区别

  • 欧式距离和余弦相似度都能度量 2 个向量之间的相似度
  • 放到向量空间中看,欧式距离衡量两点之间的直线距离,而余弦相似度计算的是两个向量之间的夹角
  • 没有归一化时,欧式距离的范围是 [0, +∞],而余弦相似度的范围是 [-1, 1];余弦距离是计算相似程度,而欧氏距离计算的是相同程度(对应值的相同程度)
  • 归一化的情况下,可以将空间想象成一个超球面(三维),欧氏距离就是球面上两点的直线距离,而向量余弦值等价于两点的球面距离,本质是一样。

2,容量、欠拟合和过拟合

  • 模型容量是指模型拟合各种函数的能力,决定了模型是欠拟合还是过拟合。
  • 欠拟合就是指模型的训练误差过大,即偏差过大,表现为模型不够”准“,优化算法目的在于解决欠拟合问题。
  • 过拟合就是指训练误差和测试误差间距过大,即方差过大,表现为模型不够”稳“,正则化目的在于解决过拟合问题。
  • 机器学习模型的目的是解决欠拟合和过拟合的问题,这也是机器学习算法的两个挑战。

训练误差 train error,泛化误差 generalization error,也叫测试误差(test error)。

3,正则化方法

  • 正则化是指我们修改学习算法,使其降低泛化误差而非训练误差。 正则化是机器学习领域的中心问题之一,只有优化能够与其重要性相媲。
  • 正则化一个学习函数为 \(f(x; θ)\) 的模型,我们可以给代价函数(损失函数)添加被称为正则化项(regularizer)的惩罚。
  • 正则化是一种思想(策略),给代价函数添加惩罚只是其中一种方法。另外一种最常用的正则化技术是权重衰减,通过加入的正则项对参数数值进行衰减,得到更小的权值。当 \(\lambda\) 较大时,会使得一些权重几乎衰减到零,相当于去掉了这一项特征,类似于减少特征维度。

4,L1 和 L2 范数

L1 范数(L1 norm)是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。 比如 向量 A=[1,-1,3], 那么 A 的 L1 范数为 |1|+|-1|+|3|。简单总结一下就是:

  • L1 范数: 为向量 x 各个元素绝对值之和。
  • L2 范数: 为向量 x 各个元素平方和的 1/2 次方,L2 范数又称 Euclidean 范数或 Frobenius 范数
  • Lp 范数: 为向量 x 各个元素绝对值 \(p\) 次方和的 \(1/p\) 次方.

L1 范数可以使权值参数稀疏,方便特征提取。 L2 范数可以防止过拟合,提升模型的泛化能力。

5,超参数和验证集

  • 普通参数指算法权重 \(w\) 的值,是可以通过学习算法本身学习得到。超参数的值不是通过学习算法本身学习出来的,可通过验证集人为选择合适的超参数
  • 将训练数据划分为两个不相交的子集,即训练集和验证集,训练集用于学习普通参数,验证集用于估计训练中或训练后的泛化误差,更新超参数(“训练超参数”)。通常,80% 的训练数据用于训练,20% 用于验证。
  • 交叉验证方法适合小规模数据集(例如几百上千张图片)训练模型的情况。

6,估计、偏差和方差

  • 统计领域的基本概念,例如参数估计、偏差和方差,对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。偏差和方差的关系和机器学习容量、欠拟合和过拟合的概念紧密相联
  • 偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望。而方差度量着数据上任意特定采样可能导致的估计期望的偏差。

7,随机梯度下降算法

  • 随机梯度下降算法是目前最为广泛应用的一种神经网络优化算法,形式为 \(θ=θ − ϵg\),\(ϵ\) 是学习率,\(g\) 是梯度,\(θ\) 是权重。
  • 随机梯度下降优化算法不一定能保证在合理的时间内达到一个局部最小值,但它通常能及时地找到代价函数一个很小的值,并且是有用的。

参考资料

  1. Different types of Distances used in Machine Learning Explained

标签:总结,机器,距离,余弦,算法,拟合,范数,基本概念,向量
From: https://www.cnblogs.com/armcvai/p/17051633.html

相关文章

  • 2022年,年总总结
    本不想写年终总结的,可是无论过的有多糟,总该记录下这一年里点点时光。这一年,过的跟神经病一样2022年,可以说一整年都被浪费了,人生也挂上倒挡,仿佛跌倒了一样,但是跌倒可以爬......
  • 机器学习day1
    sklearn数据集load_*小数据集fetch_*大数据集,默认下载到家目录下的scikit_learn_data对数据的索引[].特征工程字典类型特征处理文本特征处理文本特征处理......
  • 机器学习之TensorFlow环境安装
    打开​​https://tensorflow.google.cn/​​点击安装根据喜好,选择安装类型MacOS平台要求pip版本要20.3或者更高下载TensorFlow:下载相关依赖:安装完成:......
  • 做题总结
    1.字符串问题无重复字符的最长子串我的做法:dp[i]表示以s[i]结尾的最长无重复字串,更新方程if(i-dp[i-1],i-1)没有和dp[i]重复的元素, dp[i]=dp[i-1]+1elsedp[i]=i-......
  • 细节错误总结
    ElementalDecompress 当输入之后发现明显不可行的时候不要在for里面break会影响下一次的输入D-FriendlySpiders建图一定考虑到边的数量的问题......
  • 钉钉机器人报警markdown实现 - WGCLOUD
     本文是在Linux系统用shell脚本实现钉钉机器人告警,windows实现钉钉告警点击此处1、将需要接收信息的人员拉入一个钉钉群,自己取一个高大上的群名哈,然后点击群机器人->......
  • javase知识点总结:三种程序逻辑结构,输入输出
    顺序结构顺序结构程序就是按语句出现的先后顺序执行的程序结构。计算机按顺序逐条执行语句,当一条语句执行完毕,自动转到下一条语句。分支结构if语句1.语法格式1if(......
  • 模法师机器学习平台助力银行智能化营销快速落地
    模法师机器学习平台助力银行智能化营销快速落地,跟随博主一起学习吧......
  • ICRA2022 | 数据集:用于移动机器人视觉异常检测
    00  摘要这篇文章主要关注自主移动机器人的视觉异常检测任务。本文结构如下:对相关类型的视觉异常进行分类,并讨论如何通过无监督的深度学习方法检测它们;提出一个专门为此任......
  • 经典机器学习算法总结
    一,KNN算法1.1,k值的选取1.2,KNN算法思路二,支持向量机算法2.1,支持向量机简述2.2,SVM基本型2.3,对偶问题求解三,K-means聚类算法3.1,分类与聚类算法3.2,K-mea......