首页 > 其他分享 >SPSS26统计分析笔记——7 回归分析

SPSS26统计分析笔记——7 回归分析

时间:2024-09-26 15:19:02浏览次数:9  
标签:xk 统计分析 frac SPSS26 回归 回归方程 笔记 beta hat

1 回归方程

        回归方程一般表达式: y = f ( x 1 , x 2 , ⋯   , x n ) + ε y = f({x_1},{x_2}, \cdots ,{x_n}) + \varepsilon y=f(x1​,x2​,⋯,xn​)+ε
         ε \varepsilon ε随机误差,独立于自变量的随机变量,一般假设其均值为0的正态分布,即 ε N ˜ ( 0 , σ 2 ) \varepsilon \~N(0,{\sigma ^2}) εN˜(0,σ2)。
        根据 f f f的形式,回归方程可以分为线性回归方程和非线性回归方程。
        线性回归方程表达式: y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n + ε y = {\beta _0} + {\beta _1}{x_1} + {\beta _2}{x_2} + \cdots + {\beta _n}{x_n} + \varepsilon y=β0​+β1​x1​+β2​x2​+⋯+βn​xn​+ε
         β 0 {\beta _0} β0​常数项、 β 1 , β 2 , ⋯   , β n {\beta _1},{\beta _2}, \cdots ,{\beta _n} β1​,β2​,⋯,βn​回归系数、 ε \varepsilon ε随机误差;
         n = 1 n = 1 n=1时为一元线性回归, n ⩾ 2 n \geqslant 2 n⩾2时为多元线性回归。

2 一元线性回归方程

        回归方程: y = β 0 + β 1 x + ε y = {\beta _0} + {\beta _1}x + \varepsilon y=β0​+β1​x+ε
        估计回归方程: y ^ = β ^ 0 + β ^ 1 x \hat y = {\hat \beta _0} + {\hat \beta _1}x y^​=β^​0​+β^​1​x
        最小二乘法估算 β ^ 0 {\hat \beta _0} β^​0​和 β ^ 1 {\hat \beta _1} β^​1​: β ^ 1 = ∑ i = 1 n ( y i − y ˉ ) ( x i − x ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 {\hat \beta _1} = \frac{{\sum\limits_{i = 1}^n {({y_i} - \bar y)({x_i} - \bar x)} }}{{\sum\limits_{i = 1}^n {{{({x_i} - \bar x)}^2}} }} β^​1​=i=1∑n​(xi​−xˉ)2i=1∑n​(yi​−yˉ​)(xi​−xˉ)​ β ^ 0 = y ˉ − β ^ 1 x ˉ {\hat \beta _0} = \bar y - {\hat \beta _1}\bar x β^​0​=yˉ​−β^​1​xˉ
        回归模型的有效性检验: F = S S R 1 S S E n − 2 F = \frac{{\frac{{SSR}}{1}}}{{\frac{{SSE}}{{n - 2}}}} F=n−2SSE​1SSR​​
        SSR回归平方和;
        SSE误差平方和;
        n样本数;
        回归系数的显著性检验:
         β ^ 0 {\hat \beta _0} β^​0​通过t检验: t = β ^ 0 − β 0 S E ( β ^ 0 ) t = \frac{{{{\hat \beta }_0} - {\beta _0}}}{{SE({{\hat \beta }_0})}} t=SE(β^​0​)β^​0​−β0​​
         S E ( β ^ 0 ) SE({\hat \beta _0}) SE(β^​0​)为 β ^ 0 {\hat \beta _0} β^​0​的标准差;
         β ^ 1 {\hat \beta _1} β^​1​通过t检验: t = β ^ 1 − β 1 S E ( β ^ 1 ) t = \frac{{{{\hat \beta }_1} - {\beta _1}}}{{SE({{\hat \beta }_1})}} t=SE(β^​1​)β^​1​−β1​​
         S E ( β ^ 1 ) SE({\hat \beta _1}) SE(β^​1​)为 β ^ 1 {\hat \beta _1} β^​1​的标准差;
        在t检验中,我们通常假设 β 0 = 0 , β 1 = 0 {\beta _0} = 0,{\beta _1} = 0 β0​=0,β1​=0来进行检验,即我们检验回归系数是否显著不同于零。
        决定系数 R 2 {R^2} R2: R 2 = S S R S S T = 1 − S S E S S T ∈ [ 0 , 1 ] {R^2} = \frac{{SSR}}{{SST}} = 1 - \frac{{SSE}}{{SST}} \in [0,1] R2=SSTSSR​=1−SSTSSE​∈[0,1]
        多重判定系数 R n 2 R_n^2 Rn2​:
R n 2 = 1 − ( 1 − R 2 ) n − 1 n − k − 1 R_n^2 = 1 - (1 - {R^2})\frac{{n - 1}}{{n - k - 1}} Rn2​=1−(1−R2)n−k−1n−1​
在这里插入图片描述

3 多元线性回归方程

        回归方程: y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n + ε y = {\beta _0} + {\beta _1}{x_1} + {\beta _2}{x_2} + \cdots + {\beta _n}{x_n} + \varepsilon y=β0​+β1​x1​+β2​x2​+⋯+βn​xn​+ε
        估计回归方程: y ^ = β ^ 0 + β ^ 1 x 1 + β ^ 2 x 2 + ⋯ + β ^ n x n + ε \hat y = {\hat \beta _0} + {\hat \beta _1}{x_1} + {\hat \beta _2}{x_2} + \cdots + {\hat \beta _n}{x_n} + \varepsilon y^​=β^​0​+β^​1​x1​+β^​2​x2​+⋯+β^​n​xn​+ε
        回归模型的有效性检验: F = S S R k S S E n − k − 2 F = \frac{{\frac{{SSR}}{k}}}{{\frac{{SSE}}{{n - k - 2}}}} F=n−k−2SSE​kSSR​​
        SSR回归平方和;
        SSE误差平方和;
        n样本数;
        k自变量个数
        回归系数的显著性检验:
         β i {\beta _i} βi​通过t检验: t = β ^ i − β i S E ( β ^ i ) t = \frac{{{{\hat \beta }_i} - {\beta _i}}}{{SE({{\hat \beta }_i})}} t=SE(β^​i​)β^​i​−βi​​
        决定系数 R 2 {R^2} R2: R 2 = S S R S S T = 1 − S S E S S T ∈ [ 0 , 1 ] {R^2} = \frac{{SSR}}{{SST}} = 1 - \frac{{SSE}}{{SST}} \in [0,1] R2=SSTSSR​=1−SSTSSE​∈[0,1]
        多重判定系数 R n 2 R_n^2 Rn2​: R n 2 = 1 − ( 1 − R 2 ) n − 1 n − k − 1 R_n^2 = 1 - (1 - {R^2})\frac{{n - 1}}{{n - k - 1}} Rn2​=1−(1−R2)n−k−1n−1​
在这里插入图片描述

4 二元Logistic回归

在这里插入图片描述
        Odds优势(发生比):事件发生的概率与事件不发生的概率比值; O d d s = p 1 − p Odds = \frac{p}{{1 - p}} Odds=1−pp​
        Or优势比:事件在a情况下的发生比与事件在b情况下的发生比的比值; O R = p 1 1 − p 1 p 2 1 − p 2 OR = \frac{{\frac{{{p_1}}}{{1 - {p_1}}}}}{{\frac{{{p_2}}}{{1 - {p_2}}}}} OR=1−p2​p2​​1−p1​p1​​​
        方程参数的估计与验证
        (1)模型参数的估计与验证
        逻辑回归方程参数估算方法:最大似然估计
        回归系数的验证:wald验证、似然比验证
        wald验证:样本规模加大,统计量W服从自由度为1的卡方分布
W = ( β ^ j S E β ^ j ) 2 W = {\left( {\frac{{{{\hat \beta }_j}}}{{S{E_{{{\hat \beta }_j}}}}}} \right)^2} W=(SEβ^​j​​β^​j​​)2
         β ^ j {\hat \beta _j} β^​j​各个估算的回归系数;
         S E β ^ j S{E_{{{\hat \beta }_j}}} SEβ^​j​​为 β ^ j {\hat \beta _j} β^​j​标准差;
        wald验证缺陷是当回归系数的绝对值很大,标准误差就会迅速膨胀,导致W的统计量变小,导致认为自变量对y事件发生的可能性无影响。
        似然比验证:令模型1有j个自变量,即 x 1 , x 2 , ⋯   , x k , ⋯   , x j {x_1},{x_2}, \cdots ,{x_k}, \cdots ,{x_j} x1​,x2​,⋯,xk​,⋯,xj​,模型2含有模型1中除了 x k {x_k} xk​之外的所有变量,那么两个模型的对数似然值乘以-2的结果之差近似服从卡方分布,于是我们可以构造似然比检验统计量: L . R . = ( − 2 L L ^ 2 ) − ( − 2 L L ^ 1 ) = − 2 L n ( L ^ 2 L ^ 1 ) L.R. = ( - 2L{\hat L_2}) - ( - 2L{\hat L_1}) = - 2Ln(\frac{{{{\hat L}_2}}}{{{{\hat L}_1}}}) L.R.=(−2LL^2​)−(−2LL^1​)=−2Ln(L^1​L^2​​)
        当自变量 x k {x_k} xk​显著有效时, L ^ 1 {\hat L_1} L^1​显著大于 L ^ 2 {\hat L_2} L^2​,则 L . R . L.R. L.R.为很大的正数;相反,当自变量 x k {x_k} xk​没有显著性有效时,则 L ^ 1 {\hat L_1} L^1​近似等于 L ^ 2 {\hat L_2} L^2​,而 L . R . L.R. L.R.近似为零。所以 L . R . L.R. L.R.越大, 自变量 x k {x_k} xk​越显著。
        (2)拟合优度
        对于模型的整体,可以利用下列三个指标进行判断,第一个是 − 2 L L ^ s - 2L{\hat L_s} −2LL^s​,第二是 C o x S n e l l    R 2 CoxSnell\;{R^2} CoxSnellR2和 N a g e l k e r k e    R 2 Nagelkerke\;{R^2} NagelkerkeR2,第三是 H o s m e r − L e m e s h o w Hosmer - Lemeshow Hosmer−Lemeshow拟合优度。
        1) − 2 L L ^ s - 2L{\hat L_s} −2LL^s​
         − 2 L L ^ s - 2L{\hat L_s} −2LL^s​是指 L ^ s {\hat L_s} L^s​最大似然值 L L ^ s L{\hat L_s} LL^s​的对数乘以-2的统计量,它的取值从0到正无穷,越接近0拟合越好。
        2) C o x S n e l l    R 2 CoxSnell\;{R^2} CoxSnellR2和 N a g e l k e r k e    R 2 Nagelkerke\;{R^2} NagelkerkeR2
        线性回归中的指标 R 2 {R^2} R2可以用来表示模型的拟合优度,逻辑回归模型也有一个类似 R 2 {R^2} R2的指标。 R 2 {R^2} R2是指回归平方和与总平方和的比值。类似的,可以将 − 2 L L ^ 0 - 2L{\hat L_0} −2LL^0​(即只含常数参数模型的最大似然值 L L ^ 0 L{\hat L_0} LL^0​乘以-2)作为类似线性方程中的总平方和,而 − 2 L L ^ s - 2L{\hat L_s} −2LL^s​类似于误差平方和,那么可以构造 C o x S n e l l    R 2 CoxSnell\;{R^2} CoxSnellR2指标: R 2 = 1 − ( L ^ 0 L ^ s ) 2 n {R^2} = 1 - {\left( {\frac{{{{\hat L}_0}}}{{{{\hat L}_s}}}} \right)^{\frac{2}{n}}} R2=1−(L^s​L^0​​)n2​
        上式计算出来的 R 2 {R^2} R2的最大值小于1,经调整后,得到了 N a g e l k e r k e    R 2 Nagelkerke\;{R^2} NagelkerkeR2指标: R a d j 2 = R 2 R max ⁡ 2 = 1 − ( L ^ 0 L ^ s ) 2 n 1 − ( L ^ 0 ) 2 n R_{adj}^2 = \frac{{{R^2}}}{{R_{\max }^2}} = \frac{{1 - {{\left( {\frac{{{{\hat L}_0}}}{{{{\hat L}_s}}}} \right)}^{\frac{2}{n}}}}}{{1 - {{\left( {{{\hat L}_0}} \right)}^{\frac{2}{n}}}}} Radj2​=Rmax2​R2​=1−(L^0​)n2​1−(L^s​L^0​​)n2​​
         R a d j 2 R_{adj}^2 Radj2​越接近1说明模型的拟合优度越好。
        3) H o s m e r − L e m e s h o w Hosmer - Lemeshow Hosmer−Lemeshow拟合优度
         H o s m e r − L e m e s h o w Hosmer - Lemeshow Hosmer−Lemeshow的检验思路是根据预测概率值将数据分成大致相同规模的10个组, 将观测数据按其预测概率做升序排列,第一组是估计概率最小的观测数据,最后一组是估计概率最大的观测数据,则其指标可以写为: H L = ∑ g = 1 G ( y g − n g p ^ g ) n g p ^ g ( 1 − p ^ g ) HL = \sum\limits_{g = 1}^G {\frac{{\left( {{y_g} - {n_g}{{\hat p}_g}} \right)}}{{{n_g}{{\hat p}_g}(1 - {{\hat p}_g})}}} HL=g=1∑G​ng​p^​g​(1−p^​g​)(yg​−ng​p^​g​)​
        G为分组数,G不超过10;
         n g {n_g} ng​为第g组的样本数;
         p ^ g {\hat p_g} p^​g​为第g组的预测事件概率;
         y g {y_g} yg​为第g组事件的观测数据。
        HL服从自由度为G-2的卡方分布,可以通过卡方进行检验。如果卡方值大于显著水平,模型拟合良好;否则拟合不好。
        (3)回归系数解释
        一般线性回归方程中,对于某个自变量 x k {x_k} xk​,回归系数 β k {\beta _k} βk​的含义是,在其他变量不变的情况下,其每增加一个单位,因变量y可以增加 β k {\beta _k} βk​个单位,同样的,在逻辑回归模型中,对于某个自变量 x k {x_k} xk​,在其他变量不变的情况下,其每增加一个单位,因变量的增加量可以写为: ln ⁡ ( p ( x k + 1 ) 1 − p ( x k + 1 ) ) − ln ⁡ ( p x k 1 − p x k ) = β k \ln \left( {\frac{{{p_{({x_k} + 1)}}}}{{1 - {p_{({x_k} + 1)}}}}} \right) - \ln \left( {\frac{{{p_{xk}}}}{{1 - {p_{xk}}}}} \right) = {\beta _k} ln(1−p(xk​+1)​p(xk​+1)​​)−ln(1−pxk​pxk​​)=βk​ ln ⁡ [ ( p ( x k + 1 ) 1 − p ( x k + 1 ) ) ( p x k 1 − p x k ) ] = β k \ln \left[ {\frac{{\left( {\frac{{{p_{({x_k} + 1)}}}}{{1 - {p_{({x_k} + 1)}}}}} \right)}}{{\left( {\frac{{{p_{xk}}}}{{1 - {p_{xk}}}}} \right)}}} \right] = {\beta _k} ln ​(1−pxk​pxk​​)(1−p(xk​+1)​p(xk​+1)​​)​ ​=βk​
        两边取对数,发生比OR: [ ( p ( x k + 1 ) 1 − p ( x k + 1 ) ) ( p x k 1 − p x k ) ] = O R = e β k \left[ {\frac{{\left( {\frac{{{p_{({x_k} + 1)}}}}{{1 - {p_{({x_k} + 1)}}}}} \right)}}{{\left( {\frac{{{p_{xk}}}}{{1 - {p_{xk}}}}} \right)}}} \right] = OR = {e^{{\beta _k}}} ​(1−pxk​pxk​​)(1−p(xk​+1)​p(xk​+1)​​)​ ​=OR=eβk​
        如果 x x x为连续变量,我们可以解释为,其每增加一个单位,发生比OR会增加 e β k {e^{{\beta _k}}} eβk​个单位;如果 x x x为二分变量,我们可以解释为,当 x x x从0变为1时,事件的发生比OR变化 e β k {e^{{\beta _k}}} eβk​个单位。
在这里插入图片描述

5 曲线回归

        曲线回归的模型形式: y = β 0 + β 1 x + β 2 x 2 + ⋯ + β n x n + ε y = {\beta _0} + {\beta _1}x + {\beta _2}{x^2} + \cdots + {\beta _n}{x^n} + \varepsilon y=β0​+β1​x+β2​x2+⋯+βn​xn+ε
        曲线回归是一种用于分析因变量与自变量之间非线性关系的统计方法。与线性回归不同,曲线回归通过拟合一条曲线(而非直线)来更好地描述变量之间的复杂关系。常见的曲线回归模型包括多项式回归、对数回归、指数回归和幂函数回归等。曲线回归虽然看起来涉及到非线性关系,但它通常仍然被视为一种线性回归,因为在回归系数上是线性的。
        线性于参数,非线性于自变量:曲线回归模型在参数上是线性的,但在自变量上可能是非线性的。这意味着模型可以写成线性回归的形式,尽管自变量可能以非线性形式出现。
        曲线回归可以通过常规的最小二乘法来求解,即通过最小化残差平方和来估计回归系数: R S S = ∑ i = 1 n ( y i − ( β 0 + β 1 x i + β 2 x i 2 + ⋯   ) ) 2 RSS = {\sum\limits_{i = 1}^n {\left( {{y_i} - ({\beta _0} + {\beta _1}{x_i} + {\beta _2}x_i^2 + \cdots )} \right)} ^2} RSS=i=1∑n​(yi​−(β0​+β1​xi​+β2​xi2​+⋯))2
        曲线回归的核心特征是:虽然自变量可能以非线性方式出现,但模型中的系数可以用线性最小二乘法来估计。
在这里插入图片描述

6 非线性回归

        非线性回归模型的基本形式为: y = f ( x , β ) + ε y = f(x,\beta ) + \varepsilon y=f(x,β)+ε
        由于模型的非线性,无法像线性回归那样直接通过最小二乘法求解参数。非线性回归通常使用非线性最小二乘法来估计模型中的参数

标签:xk,统计分析,frac,SPSS26,回归,回归方程,笔记,beta,hat
From: https://blog.csdn.net/m0_64111363/article/details/142369089

相关文章

  • html基础笔记
    行级元素和块级元素<!--行内块级元素--><!--1、能设置宽高--><!--2、能呆在一行--><!--常见的行内块级元素:img表单inputtextareaselect--><!--块级元素--><!--1、能设置宽高--><!--2、不和其他元素呆在同一行,霸占一行--><!--常见的块级元素:divpull......
  • Arthas学习笔记
    一、运行环境操作系统:centos7.9Java版本:jdk1.8.201arthas版本:3.6.9二、安装Arthas并attach一个进程curl-Ohttps://alibaba.github.io/arthas/arthas-boot.jarcurl-Ohttps://alibaba.github.io/arthas/arthas-demo.jarjava-jararthas-demo.jar#先启动Javademo进程......
  • FFmpeg开发笔记(五十三)移动端的国产直播录制工具EasyPusher
    EasyPusher是一款国产的RTSP直播录制推流客户端工具,它支持Windows、Linux、Android、iOS等操作系统。EasyPusher采用RTSP推流协议,其中安卓版EasyPusher的Github托管地址为https://github.com/EasyDarwin/EasyPusher-Android。不过EasyPusher有好几年没更新了,尤其安卓版的EasyPusher......
  • 【java笔记】 5 接口使用举例
    //导入Swing库中的消息对话框组件importjavax.swing.*;//定义一个Circle类,该类实现了ShapeInterface接口publicclassCircleimplementsShapeInterface{//定义一个私有变量radius来保存圆的半径privatedoubleradius;//默认构造函数,初始化一个半径为0的圆p......
  • prometheus学习笔记之服务发现kubernetes_sd_configs
    一、prometheus的服务发现机制prometheus默认是采用pull方式拉取监控数据的,也就是定时去目标主机上抓取metrics数据,每一个被抓取的目标需要暴露一个HTTP接口,prometheus通过这个暴露的接口就可以获取到相应的指标数据,这种方式需要由目标服务决定采集的目标有哪些,通过配......
  • prometheus学习笔记之其他常用服务自动发现
    一、consul_sd_configsConsulSD配置允许从Consul的CatalogAPI检索抓取目标1.部署Consul 安装参考文档:https://developer.hashicorp.com/consul/install#linux,确认自己的操作系统和安装环境及版本,根据文档下载并安装unzip-qconsul_1.12.2_linux_amd64.zip#由于下载比较慢,直......
  • prometheus学习笔记之kube-state-metrics
    一、kube-state-metrics简介Kube-state-metrics:通过监听APIServer生成有关资源对象的状态指标,比如Deployment、Node、Pod,需要注意的是kube-state-metrics只是简单的提供一个metrics数据,并不会存储这些指标数据,所以我们可以使用Prometheus来抓取这些数据然后存储,主要......
  • prometheus学习笔记之基于三方exporter实现监控
    一、redis_exporter通过redis_exporter监控redis服务状态git地址:https://github.com/oliver006/redis_exporterdocker地址:https://hub.docker.com/r/oliver006/redis_exporter实验环境:redisk8部署prometheus二进制部署1.redis_exporter使用简解二进制部署prometheus配置方式......
  • prometheus学习笔记之prometheus联邦集群
    一、简介对于大部分监控规模而言,我们只需要在每一个数据中心安装一个PrometheusServer实例,就可以在各个数据中心处理上千规模的集群。同时将PrometheusServer部署到不同的数据中心可以避免网络配置的复杂性。在每个数据中心部署单独的PrometheusServer,用于采集当前数据中心监......
  • prometheus学习笔记之prometheus存储系统
    一、prometheus本地存储系统1.本地存储架构默认情况下,prometheus将采集到的数据存储在本地的TSDB数据库中,路径默认为prometheus安装目录的data目录,数据写入过程为先把数据写入wal日志并放在内存,然后2小时后将内存数据保存至一个新的block块,同时再把新采集的数据......