首页 > 其他分享 >大白话解释逻辑回归

大白话解释逻辑回归

时间:2024-05-11 13:55:02浏览次数:18  
标签:逻辑 概率 回归线 大白话 回归 样本 拟合 我们

记得在我学了线性回归之后的一段时间里,我觉得这个玩意太好用了,可以对世界上很多东西都进行预测,以至于一想到预测就想着拿点数据来进行回归。后来才知道,很多事情不是一条简单的直线可以拟合的。后来又知道,其实线性回归只要稍作修改,还是可以拟合这个世界上大部分事情的。是不是有点绕?其实原因很简单,很多事情看起来是非线性的,但是可以映射到一个线性的形状,对于这个映射之后的结果,我们可以进行线性回归。如果不清楚这个映射是什么意思,那请继续看下去。

假设我们现在要对一个人是否患肺癌进行判断,我们的方法是对胸部做CT,然后量其中阴影部分(肿瘤)的直径。没有比较无法直接判断,所以我们去查了10000条做过类似检查的病人案例,作为我们的样本。在我们的这个例子中,阴影的大小就是我们的样本特征值X,患肺癌的概率是P。我们希望找到一个方法,能让我们在知道了x的大小后,计算出p的大小(现实往往要复杂得多)。p是概率,应该在0和1之间。显然,我们不能用一条直线来拟合样本,为什么呢?首先,我们可以获得样本,只能是一个x对应一个“是否得病”的y,而不是一个概率。得病的样本,y用1来表示,没得病的样本,y用0来表示。其次,p的范围只有0到1,而一条直线显然拟合结果会是负无穷到正无穷。在一个x的合理的定义域内,如果想用一条直线去拟合p,就会导致这条直线必为经过原点和(max(\(x_{i}\)),1)的对角线。一旦我们要检测的样本x值超过了样本点x的最大值,我们会惊奇得发现预测的得病概率超过了100%!显然这不是我们想要的。并且在整个定义域范围内,概率呈现了线性的变化,这和我们的预期也不一样,因为通常阴影大小超过一定值,我们就会觉得肿瘤大点或小点只是一个严重程度的差别,基本上99%的概率是患肺癌了(1%的概率可能是CT机器坏了-。-)。但是,我们也不可以通过减小斜率来让这条回归线更平缓,因为当我们没有查出阴影时(即x=0),应当认为我们的担心是多余的,没有患肺癌,此时的p也就是截距项必然为0,回归线经过原点。这样的回归线太过于局限和粗糙,效果不会太好。

那我们要怎么做才可以对这个案例进行建模呢?首先,我们使用“发生概率除以未发生的概率”,即p/(1-p)来表示一件事发生的相对概率,称之为odds(“几率”)。可以看到当概率接近1是,几率的大小接近于无穷,这就打开了回归线的上限,我们不用担心太大的样本导致概率超过100%了,因为我们总是可以通过映射将正无穷的odds转换为一个接近100%的p。然后,我们再处理下限问题,对这个p/(1-p)取对数。这个结果称之为“对数几率”,在数轴上的映射为负无穷到正无穷。这,就可以是我们线性回归的结果了。

\[ln(p/(1-p)) = \omega^{T}·\chi + b \]

这里的p和1-p,分别代表了x在特定值时y=1和y=0的概率。求解这个方程,用x的表达式来表示p和1-p,我们得到了条件概率形式的对数几率回归方程:

这个公式挺巧妙,但是我们手上并没有过去病人的得病概率,只有一组y。那么如何将这个公式与我们的真实标签y相联系起来,并求解这个公式中的参数呢?对于这种形式的回归,我们通常使用极大似然估计去求解,令每个样本属于其真实标记的概率越大越好。什么意思呢,当一个真实值y=1时,我们希望上面的结果尽可能大,当y=0时,我们希望下面的结果尽可能大。我们可以把这两个式子写成一个通项:

\[p(y_{i}|x_{i};\omega,b)= y_{i}*p_{1}(x_{i}) + (1-y_{i})*p_{0}(x_{i}) \]

这里的\(p_{1}\)和\(p_{0}\) 分别为上面两个式子的简写。
通过极大似然估计,我们可以得到“最有可能产生我们手上这组样本的参数”,我们认为这是对真实参数的一个良好估计,可以用来构建我们的模型。极大似然估计的方法属于是概率统计中比较巧妙但是基础的内容(概率统计的思想总是很巧妙),这里就不作过多介绍了。

标签:逻辑,概率,回归线,大白话,回归,样本,拟合,我们
From: https://www.cnblogs.com/maninfirer/p/18186231

相关文章

  • 逻辑斯特回归原理及Python实现
    逻辑回归(LogisticRegression),又称为logistic回归分析,是一种广义的线性回归模型,通常用于解决分类问题。虽然名字里有“回归”,但实际上它属于机器学习中的监督学习方法。逻辑回归最初用于解决二分类问题,它也可以通过一些技巧扩展到多分类问题。在实际应用中,我们通常使用给定的训......
  • 【视频】多元线性回归模型原理讲解与R语言实例
    原文链接:https://tecdat.cn/?p=36149原文出处:拓端数据部落公众号分析师:XueYang近年来,随着计量经济学和统计学的快速发展,回归模型作为一种有效的数据分析工具,被广泛应用于金融市场的分析中。回归模型能够通过建立变量之间的数学关系,揭示变量之间的相互作用机制,并预测未来趋势。......
  • python学习----谁在说谎逻辑运算
    if__name__=='__main__':Li=[0,1]forainLi:forbinLi:forcinLi:zhang=(b==0)li=(c==0)wang=(a+b==0)if(zhang+li+wang==2anda+b+c=......
  • 为 jsencrypt 增加私钥加密公钥解密的方法逻辑
    首先声明,使用RSA非对称加密,正常的使用情景是公钥加密、私钥解密。因为正常使用情景下,公钥是公开的,如果将私钥加密的数据发出去,使用公钥解密,其实理论上并没有起到加密的作用。私钥加密、公钥解密的使用场景是在于防篡改,确定私钥发来的数据是正确的。其实某种程度来说,确实就没......
  • 一篇文章掌握Python中多种表达式的使用:算术表达式、字符串表达式、列表推导式、字典推
    Python中的表达式可以包含各种元素,如变量、常量、运算符、函数调用等。以下是Python表达式的一些分类及其详细例子:1.算术表达式算术表达式涉及基本的数学运算,如加、减、乘、除等。#加法表达式sum=3+5#结果为8#乘法表达式product=4*6#结果为24#复......
  • 关系代数与逻辑优化规则 (一): 定义
    作者:zhuwenzhuang,2024.05.08.阅读前假设读者熟悉数据库使用,了解SQL的语法和关系算子的大概含义,能通过EXPLAIN命令查看数据库执行计划.0前言数据库优化器的查询优化(QueryOptimization)指在查询等价的前提下,将代价更高的查询转化为代价更低的查询的过程.查询......
  • Linux系列---【使用lvm对xfs类型逻辑卷进行缩容】
    使用lvm对xfs类型逻辑卷进行缩容1.确定需要缩容的逻辑卷的类型是否是xfsdf-Th2.备份逻辑卷对应的目录原数据#/tmp/home.dump:为备份后存放的位置,/home:为需要备份的目录xfsdump-f/tmp/home.dump/home#1.输入session名:home_session#2.输入media:home_media#3.查看......
  • 【机器学习】第三节-回归分析
    目录一、线性回归1.一元线性回归2.二元线性回归3.多元线性回归4.总结二、逻辑回归一、线性回归1.一元线性回归\[f(x)=ax+b\]均方误差最小化(最小二乘法)即找到一条直线,使所有样本到直线上的欧式距离之和最小\[min\sum_{i=1}^{m}(f(x_i)-y_i)^2=min\sum_{i=1}{m}(y_i-wx_i-b......
  • Scopus & SciVal 研究选题的逻辑化构造
    主讲人:付强,爱思唯尔科研管理部特聘讲师。主要内容为:1. 高效文献发现与分析功能。2. 案例分享:如何辅助选题 ——从大领域入手锚定具体问题和方向。3. 逻辑化构筑自己的课题网络。https://www.bilibili.com/video/BV1y3411p7nz/?vd_source=3ad05e655a5ea14063a9fd1c0dcdee3e......
  • MLP实现波士顿房屋价格回归任务
    1.数据集波士顿房屋价格.csv文件,文件中的数据有可能不完整,部分数据如下:CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,LSTAT,MEDV0.00632,18,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,4.98,240.02731,0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,9.14,21.60.02......