目录
5.3.2 对数回归的方法 logit regression
6 和机器学习的sigmoid函数(也叫逻辑函数)的关系(待完善)
1 先从一个例题出来,预期值和现实值的差异怎么评价?
1.1 这样一个问题
SPSS,还有戏说统计那本数上都有
一个关于员工其实的数据例子,其中假设有这么一些数据
整体员工里,黑人和白人的比例,60:40
经理员工里,黑人和白人的比例,4:20那么我们简单一看,就知道这两者比例不一样,那么这两者差距够大吗?是否可以作为黑人被歧视的证据之一呢?
1.2 我们的一般分析
- 第1:我们先有现在的这个现实数据了,但是我们不知道是否合理
- 第2:我们假设每个人都是平等的有成为经理的可能性。
- 先假设前提55开,也就是每个黑人和白人都是50%可能成为经理
- 那么假设员工人数里,就是合理现状,往下推论
- 现实的世界:SUM=24, 经理的现状4/20
- 按50%推测世界:(60*0.5=30) / (20*0.5=10)=3:1 ,SUM里应该分布是18/6
- 实际的和我们推测的数据差异很大,从而说明有问题,应然和实然差距太远
1.3 用到的关键点1
现实值,和预期值的差异,就是关键!
- 现实值VS预期值,对比
- 现实的世界 / 实然的世界:
- 按50%推测世界/ 应然的世界:
1.4 但是差距多远,算是远呢?
- 这就需要用到假设检验了
- 假设检验的方法就是,一般设定原假设,两者没差异H0。
- 然后给定一个我们能接受的显著度比如5%,双边检验。如果我们检验出来的值对应的概率,大于5%,我们就接受原接受。
- 如果对应的概率小于我们设定的显著度,那我们认为:在H0的假设下,现实已经发生的是小概率事件,不应该发生,从而拒绝原假设。
2 极大似然估计
2.1 极大似然估计的目的
上面引出的问题:预期值和现实值的差异怎么评价,就是极大似然估计要解决的问题
2.1.1 极大似然估计要解决什么问题?
- 极大似然估计要解决什么问题?:是用来判断预期值和现实值之前的差距,从而去推测过去应该是什么样子!
2.1.2 极大似然估计的原则:
- 极大似然估计的原则:现实一定是对应过去发生最大的概率的分支!
- 如果按照H0假设,推测发现已经存在的现实,并不是最大概率(小于显著度),那么就拒绝原假设!
2.2 什么是极大似然估计?
2.2.1 定义
定义:在现实已经发生的基础上,去回溯到过去,推测过去的某个时刻,自然量和因变量是什么样的关系时,现实的发生概率最大?这个推测过程,就是极大似然估计
简单定义:
- 过去最大概率对应的那个分支,极有可能就是现实!
- 现实就是,过去发生的各种可能里概率最大的那种情况!
2.2.2 似然率,likehood
- 现在的可能性—针对是未来,概率,probility
- 过去的可能性—针对是过去,似然率,likehood
2.3 如何理解
可以认为是一个类似坐上时光机去回溯,或者就是思想试验的东西
这个思想试验,是一个模型,就是认为现在往回去倒推,过去自变量和因变量的关系,现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也,那就错了。这个就是极大似然估计。
2.4 如何落地?具体用什么来验证极大似然估计? K2检验
见下面
3 K2检验 (K^2检验,K^2显著度检验)
3.1 K2检验
- chi-square test of independence
- K2检验和 自由度 高度相关
- K2就是chi-square,也就是 “ chi 的平方值 ”
3.2 K2值de公式
- K2=Σ(观察值-预期值)^2/预期值
- K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En
3.3 K2值de判断逻辑
- 需要查表,根据当前的df+概率值的 二维交叉表,可以查到当前的K2值,在指定的df下,其发生的概率大多是多大,如果是小概率的事件,就拒绝。因为极大概率不会发生!
- 这也就是极大似然估计的逻辑。
3.4 具体步骤
- K2值是作为一个查表数值
- 去一个 df*概率的二维交叉表里去差K2数值在那一列!(df决定了行,df和K2共同决定了列!)
- 这样反查概率。
- 用概率率来判断,如果概率很小,证明是小概率事件,发生可能性很小,拒绝H0假设!
3.5 K2值表
3.5.1 K2分布表
- 横轴,行:自由度,DF
- 纵轴,列:概率
- 表中的值,K2值
3.5.2 特点
- 自由度df越大,自由的单元格就更多,表里同样概率对应的K2值就会更大
- 反过来说,也就是出现较大K2值的概率就越大
3.6 K2分布的曲线
3.6.1 曲线图形
- 横轴表示K2值,x
- 纵轴表示概率值,f(x)
- 不同的曲线表示不同df对应的 K2-概率曲线--也就是图上的K参数
- 看经典的K2的曲线。
- 自由度比较小的时候,单调下降
- 自由度比较大之后就开始接近正态分布的钟形曲线了,超过20接近正态
- T值检验T值也和自由度有关系,但关系比较松散不用太关心。
- 因为T检验一般检验连续变量,连续变量自由度很容易超过20,一般不考虑这个限制。
- 但是K2分布,一定要看自由度DF
- 一般自由度越大的K2曲线,K2的值,均值都会更大。
3.6.2 特点
可以看到变化
- 1 前面k=1 k=2的事后,是个完全单调下降的曲线,从df=3开始就开始接近正态分布,
- 2 自由度越大,越接近于正态分布
- 3 在自由度比较大时,比如df大于8,大于20,都可以比较多条曲线,就是同样的K2值(平行于纵轴的竖线)与对应的不同曲线的相交点,DF越大的曲线对应的概率越大。
- 反过来说,就是比较不同的自由度,自由度越大的曲线,对应同样的K2值,其对应的纵轴的概率会越大!
3.7 K2检验有2个要素
- 自由度
- K2值
3.8 K2检验的过程
3.8.1 K2值独立检验
- 先检验,算出来了确定的K2值的结果下,来判断,
- 如果自由度小,K2一般越大,越表示发生的概率小。
- 因而根据最大似然估计,推测 现在不可能是小概率发生,从而用K2检验拒绝了原来的假设。
- 极大似然估计认为,现在一定是 在过去那个事件点发生的概率最大!
4 对数回归
4.1 什么叫对数回归 logit regression
- 对数回归,即发生率的自然对数回归.
- 是以过去的可能性/概率为因变量(/结果)的回归分析
这里面有很多子概念,下面逐个拆解
- 过去的可能性/概率probility=似然率 likehood
- 发生率
- 发生率的对然对数回归
- 为什么要用对数回归
4.1.1 似然率,likehood
- 现在的可能性—针对是未来,概率,probility
- 过去的可能性—针对是过去,似然率,likehood
4.1.2 从概率到→发生率
- 我们这里不直接衡量,过去事情的发生率α,而是衡量其发生率
- 发生率=某个事件发生的概率/此事件不发生的概率
- α/(1-α)
4.1.3 发生率的对然对数回归
- 发生率的对然对数回归
- Ln(α/(1-α))
- 这个才是对数回归中,概率的测量单位: 发生率的自然对数。
5 为什么要用对数回归?
因为线性回归经常会遇到问题
5.1 线性回归的局限性
有时候用线性回归会出现 负数系数,负数截距等,而这是逻辑上不可能的情况
- 比如上学年数是收入的负相关系数,截距也为负等等
- 还会出现概率超过1情况
- 等等逻辑上很怪异的情况
5.1.1 具体举个例子
比如现实中的成绩只有 合格,不合格两档次,而且又没有具体的分数,我们需要分析人们及格的概率,需要怎么做呢?如果我们这么设计
5.2 什么原因引起的?
线性回归遇到问题的原因
- 原因1:如果纯都是定量数据就没问题,但是一旦里面混入了定性/定类数据,就有了问题
- 比如分析模型里有,年龄,成绩,这种定比数据,还有男女,是否经理这种定类数据都作为自变量时就有可能出现这样的情况
- 原因2:本身变量之间的关系就很复杂,不适合用线性关系来描述
- 原因3:其他
5.3 怎么解决?
5.3.1 解决办法
1 对数回归是方法之一:用对数函数处理后,结果还可以用线性表示
2 其他方法
5.3.2 对数回归的方法 logit regression
- 其实还是用的线性回归,只是用对数函数做了中转。
- 因为必须改成曲线回归
- 如何做曲线回归,很难
- 而用对数,可以变换成其他直线回归
5.3.3 概率转化为发生率后,发生率的变化不对称
概率转化为发生率后,发生率的变化不对称。但是发生率的自然对数。Log of it =p/(1-p) 却是对称的,正是利用了对数函数的这一效果。
- 概率,转化为发生率后,发生率的变化不对称。
- 发生率不对称,因为是比率,分母分子变化不对等
- 0.9/0.1=9 变化大,发生率变化小
- 0.99/0.01=99
- 0.999/0.001=999
- 0.9999/0.0001=9999 微量变化小,反而发生率变化很大。
- 转化为发生率的自然对数。
- Log of it =ln(p/(1-p))
- e=2.718
- 所以用自然对数,变成稳定的-4.5~4.5之间了
6 和机器学习的sigmoid函数(也叫逻辑函数)的关系(待完善)
【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)-腾讯云开发者社区-腾讯云在KNN算法中直接可以得出预测结果,但是如果想输出预测结果,还要输出预测结果的概率,这时候就需要使用逻辑回归解决问题。https://cloud.tencent.com/developer/article/2450449https://zhuanlan.zhihu.com/p/696212659https://zhuanlan.zhihu.com/p/696212659
标签:似然,logit,概率,发生率,回归,检验,K2 From: https://blog.csdn.net/xuemanqianshan/article/details/143327448