首页 > 编程语言 >机器学习的算法——线性回归

机器学习的算法——线性回归

时间:2023-12-09 18:55:52浏览次数:45  
标签:机器 回归 曲线 学习 算法 拟合 线性 就是

1.回归问题的定位

我们知道机器学习分为有监督学习和无监督学习,无监督学习主要是聚类方面的算法,而有监督问题主要分为回归和分类两类

  • 而这线性回归就属于有监督学习,且属于其中的回归类问题,另外有一种逻辑回归,他却是属于分类问题的一部分。

2.线性回归

(1)大体思路

  • 首先它是利用数理统计中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。(其实就是用直线拟合一系列的点,线性,所以是直线拟合)
  • 其次它的模型是h(x)=W(T)*x+b;其中W(T)是w这个向量转置(权重参数),b是偏置,就是一个常数,x是样本,通过这个式子把样本的预测值求出来进行拟合,这就是过程
  • 然而,每一次拟合都是有着一个函数作为拟合曲线,这个拟合曲线的好坏,将决定你的模型好不好,模型训练的过程就是完善曲线,修改(b,w)的过程,可以用梯度下降算法求损失函数最小时的w

(2)防止过拟合

如果对训练集训练的过于充分来一个新数据可能会发生过拟合,如下图

当拟合的十分精确的时候,其实就不是线性了,会有多项式,比如说

  • y = ax³+bx²+cx+d,此时就有三个参数,来一个噪声点(与训练集差距很大的点),就会使得曲线突然上升或下降,如下:

3.投影平面法

还有就是如果多个点显然不能用一个一次曲线,或者是只有一元高次的曲线来描述,方法:

  • 进行曲线的空间化,投影到空间中,各个点在不同面上,曲线的空间化,用一个线性平面分隔开,这就是妙处,如下:

4.正则化

防止过拟合还有两种方法:L1正则和L2正则

  • L1:J(w)=0.5*Σ(h(x)-y)²+λ∑|w|,就是在J(w)加上了λ∑|w|,也叫Lasso回归;
  • L2:J(w)=0.5*Σ(h(x)-y)²+λ∑w²,就是在J(w)损失函数后面加上λ∑w²,也叫Ridge回归;

其实就是损失函数限制,缩小它的范围,减小误差。

5.最后,总结

-首先, 线性回归就属于有监督学习,且属于其中的回归类问题;

-其次,它是是利用数理统计中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,两种就是平面,三种就是立体,三种以上超平面;

-然后,h(x)=W(T)*x+b是二元模型,最基本的模型,一元不属于回归问题;

-过拟合就是训练集训练过度,产生多次多项式,噪声点影响大;

-如果多个点显然不能用一个一次曲线,或者是只有一元高次的曲线来描述,可以曲线的空间化,投影到空间中用一个线性平面分隔开;

-L1和L2正则化:在损失函数J(w)=0.5*Σ(h(x)-y)²后加上不同的项,来约束限制损失函数范围,减小误差。

标签:机器,回归,曲线,学习,算法,拟合,线性,就是
From: https://www.cnblogs.com/cyz666666/p/17891323.html

相关文章

  • 【算法】【线性表】搜索旋转排序数组(有重复数据)
    1 题目跟进“搜索旋转排序数组”,假如有重复元素又将如何?是否会影响运行时间复杂度?如何影响?为何会影响?写出一个函数判断给定的目标值是否出现在数组中。样例1:输入:A=[]target=1输出:false 解释:数组为空,1不在数组中。样例2:输入:A=[3,4,4,5,7,0,1,2]t......
  • 直播系统源码,常见的混音算法有哪些?
    声音是由于物体的振动对周围的空气产生压力而传播的一种压力波,转成电信号后经过抽样,量化,仍然是连续平滑的波形信号,量化后的波形信号的频率与声音的频率对应,振幅与声音的音量对应,在直播系统源码中,量化的语音信号的叠加等价于空气中声波的叠加,所以当采样率一致时,混音可以实现为将各......
  • 1.理论、算法、协议
    1.CAP理论CAP也就是Consistency(一致性)、Availability(可用性)、PartitionTolerance(分区容错性)这三个单词首字母组合。在理论计算机科学中,CAP定理(CAPtheorem)指出对于一个分布式系统来说,当设计读写操作时,只能同时满足以下三点中的两个:一致性(Consistency):所有节点访问......
  • 电台覆盖区域的贪心算法
    1.贪心算法电台覆盖区域求最优解问题题目:假设存在如下表的需要付费的广播台,以及广播台信号可以覆盖的地区。如何选择最少的广播台,让所有的地区都可以接收到信号广播台覆盖地区K1“北京”,“上海”,“天津”K2“广州”,“北京”,“深圳”K3“成都”,“......
  • 详解十大经典排序算法(六):快速排序(QuickSort)
    算法原理分区(Partition):选择一个基准元素,将数组分为两个子数组,小于基准的放在左边,大于基2准的放在右边。递归排序:对左右两个子数组分别进行快速排序。合并:不需要实际的合并操作,因为在分解和递归排序阶段已经完成了排序。算法描述快速排序是一种基于分治思想的高效排序算法,由英国......
  • 最小费用组最大流——EK算法
    时间复杂度O(nm^2),理论上限//n,m,s,t,分别代表该网络的点数n,网络的边数m,源点编号s,汇点编号t。constintN=5010,M=100010,INF=1e8;intn,m,S,T;structedge{intv,c,w,ne;}e[M];inth[N],idx=1;//从2,3开始配对intd[N],mf[N],pre[N],vis[N];intflow,cost;voidadd(inta,......
  • python+sklearn 机器学习代码备忘
    importsklearnfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsfromsklearnimportpreprocessingimportcsvimportnumpyas......
  • Python算法——快速排序
    快速排序(QuickSort)是一种高效的分治排序算法,它选择一个基准元素,将数组分成两个子数组,小于基准的放在左边,大于基准的放在右边,然后递归地排序子数组。快速排序通常比冒泡排序和选择排序更高效,特别适用于大型数据集。本文将详细介绍快速排序的工作原理和Python实现。快速排序的工作原......
  • 机器学习-线性回归-最大似然估计求解-解析解-01
    最大似然估计已经从某一分布中获取到n个样本并且假设改样本的分布服从某一个分布f(θ),θ为需要估计的参数,根据这n个样本去推导θ的值就叫做最大似然估计,假设样本服从某分布,根据样本计算出分布中的参数,参数计算出之后,就能去进行预测,正态分布概率密度:假设样本的误差服从正......
  • 《安富莱嵌入式周报》第328期:自主微型机器人,火星探测器发射前失误故障分析,微软推出12
    周报汇总地址:http://www.armbbs.cn/forum.php?mod=forumdisplay&fid=12&filter=typeid&typeid=104 更新一期视频教程:【实战技能】单步运行源码分析,一期视频整明白FreeRTOS内核源码框架和运行机制,RTOSTrace链表功能展示https://www.armbbs.cn/forum.php?mod=viewthread&tid......