机器学习之线性回归

时间：2023-06-01 22:55:58浏览次数：47

1.分类，回归区别
分类：有类别，如对错：1，0；去银行贷款：贷，不贷
回归：和具体数值或范围相关：如：去银行贷款多少钱：10000元（在具体范围中的取值：1到1000取99）
2.有监督和无监督区别
有无标签进行监督，而回归就是有监督的问题，需要x1,x2特征,y标签
3.回归问题:银行贷款额度预测

特征：年龄（x1），工资(x2)
预测：额度（y）
思考：x1，x2在贷款额度所占权重不同，可得公式 y=x1θ1+x2θ2,而θ1，θ2即权重，即是需要求的未知变量。
求解思路：*首先：
线性方程不能满足所有的数据点只能尽可能拟合出一个平面去拟合大部分的数据点如：

注意θ0为偏置项，其作用为控制平面上下浮动微调，去拟合大部分数据点.（微调）
*其次：
因为我们处理的数据大部分是矩阵类型的，但是上述公式中由于θ0的出现不能去拟合矩阵公式，故而增加x0，这就是为什么在数据处理时有时增加一列特征x0并且值为1

*再其次
因为真实值和预测值是存在差异的，用ε表示，而ε称为误差（均值为0，方差为θ平方，独立且具有相同的分布的高斯分布）

又因为服从正态分布，故

而可以替换为得到越大越好
为什么越大越好：因为P概率是θ与x(i)组成的预测值成为y真实值的概率，所以一定是越大越好
*再其次
因为每个预测值都是独立分布的，所以我们要得到累乘概率（似然函数），但是由于计算原因，需要取对数（对数似然），如：

* 然后
化简得越大越好,即越小越好
* 然后

* 注意
此时逆不一定存在，而且还没有学习的过程，对于可以写出函数表达式的（可直接求解θ）可以直接用以上方法得到θ，但是大部分不使用该方法。使用梯度下降方法（常规套路）得到θ。

4.求解θ套路（梯度下降）
目标函数：
方法: 1.求方向
2.走小步
3.迭代更新参数
具体操作：

            * 批量梯度法（需要数据量最多，但可以得到最优解）注意：m：越大越好，为什么平方：因为将原本差异变大，求偏导θj后可以得到一个方向，然后（-）反方向+θj开始走一小步，寻找最低点

            * 随机梯度法  随机找一个数据（得到的不够准确，但是快）

            * 小梯度批量下降法（常用） 找部分数据，α为学习率：越小越好，为走小步的意思

标签：越大越,机器,梯度,回归,x2,拟合,线性,x1
From： https://www.cnblogs.com/wjc1234/p/17449323.html

R语言用线性混合效应（多水平/层次/嵌套）模型分析声调高低与礼貌态度的关系|附代码数据
全文下载链接：http://tecdat.cn/?p=23681最近我们被客户要求撰写关于线性混合效应的研究报告，包括一些图形和统计输出。线性混合效应模型与我们已经知道的线性模型有什么不同（点击文末“阅读原文”获取完整代码数据******** ）？线性混合模型（有时被称为"多层次模型"或"层次......
线性表的顺序存储结构
线性表的顺序存储结构标签（空格分隔）：DS线性表顺序存储1.线性表的顺序存储结构#defineMAXSIZE20//数组最大长度typedefstruct{ElemeTypedata[MAXSIZE];//数组顺序存储元素，data即为存储空间的起始位置intlength;//线性表当前长度:表中元素的个数length<=MAXSIZE}SqLi......
线性表的链式存储结构
线性表的链式存储结构标签（空格分隔）：DS线性表链式存储1.线性表的单链表存储结构typedefstructNode{ElemTypedata;//数据域structNode*next;//指针域}Node,*pNode;//节点，节点指针typedefstructNode*LinkList;//头指针指向头节点2.单链表的读取第i个元......
R数据分析：多项式回归与响应面分析的理解与实操
今天给大家分享一个新的统计方法，叫做响应面分析，响应面分析是用来探究变量一致性假设的（Congruencehypotheses）。本身是一个工程学方法，目前在组织行为学，管理，市场营销等等领域中使用越来越多。Congruencehypothesesstatethattheagreement(i.e.,congruence)betweentwoconst......
第八课常用机器学习算法性能对比
市面上常用的机器学习算法，也就剩下KNN、朴素贝叶斯、决策树、随机森林这些算法了，这些算法各有优劣，适用不同的场景，没有谁能把所有其他的算法干掉而统一天下。下面将通过准确率、耗时两个维度，来对比KNN、朴素贝叶斯、决策树、随机森林这几个算法的性能。......
2万聊天词库机器人词库ACCESS数据库
最近ChatGPT很火暴，机器人聊天很多年前就已经开始有了，只不过国内一直都是很浅显的应用，这几年又随着小米同学、新能源汽车的语音控制又有所发展，国外的ChatGPT对汉语的理解还不是很透彻，还需要大量的学习过程。这个聊天词库是从QQ机器人插件中提取出来的，但是有些分类没有导出，比如歇后......
动态规划（一）硬币找零，机器人路径
动态规划（DynamicProgramming，简称DP），虽然抽象后进行求解的思路并不复杂，但具体的形式千差万别，找出问题的子结构以及通过子结构重新构造最优解的过程很难统一，并不像回溯法具有解决绝大多数问题的银弹。动态规划求解的一般思路1.硬币找零扩展1：单路取苹果扩展2：机器人路径2.字符......
ipmitool配置机器的BMC管理IP
1、确定操作对象#ipmitoolmcinfo输出中”DeviceRevision"是命令的操作对象2、设置BMCIP#ipmitool-Iopenlanset1ipsrcstatic#ipmitool-Iopenlanset1ipaddr192.168.1.11#ipmitool-Iopenlanset1netmask255.255.255.0#ipmitool-Iopenlan......
机器学习模型优化：variance bias
bias（偏差：指同一个点的训练数据的预测值与正确值间的偏离程度）variance（方差：指同一个点的训练数据的预测值的离散程度）一般情况下，模型需要在bias和variance之间取得一个平衡。bias小的模型，variance一般大；variance小的模型，bias一般大。更好的理解bias和variance的关系能够帮助我们......
Dlib——C++机器学习库，有传统机器学习的，也有深度学习的
Dlib的目标用户并没有Hyperopt-sklearn细分，它是一个基于C++语言的通用的机器学习和数据分析库。值得一提的是，虽然Dlib的确是由C++实现的，但它却提供了针对Python语言的API。Dlib的官网称：Dlib是一个现代的C++工具包，实现了大量机器学习的相关算法和工具，可用于在C++环境下创建复杂的软......

机器学习之线性回归

相关文章

赞助商

阅读排行