首页 > 其他分享 >应用广义线性模型二|二响应广义线性模型

应用广义线性模型二|二响应广义线性模型

时间:2024-06-08 22:32:22浏览次数:19  
标签:log 模型 响应 beta 广义 线性 exp hat

系列文章目录

文章目录


2响应模型中响应变量的哑变量编码的维数是1,是值域为 { 0 , 1 } \{0,1\} {0,1}的变量。将这个哑变量编码记为 Y Y Y,则k响应模型具体为:
E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)
称之为二响应广义线性模型,简称二响应模型,进一步称 Z = Z ( X ) Z=Z(X) Z=Z(X)为二响应模型的设计向量, β \beta β为模型参数。

设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1​,x2​,x3​,x1​x2​,x1​x3​,x2​x3​)中包含了所有的主效应项和所有的2阶交互作用项。

一、二响应模型的不同表达方式和响应函数

响应函数 h h h:
为了确保条件概率位于0和1之间,响应函数的值域为 [ 0 , 1 ] [0,1] [0,1]。为了研究方便,响应函数总是被要求为严格单增连续分布函数,在这样的假设下,响应函数 h h h是可逆函数,称: g = h − 1 g=h^{-1} g=h−1为二响应模型的连接函数。

二响应模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)的不同表达方式:

  • 因为 E ( Y ∣ X ) = P ( Y = 1 ∣ X ) E(Y|X)=P(Y=1|X) E(Y∣X)=P(Y=1∣X),所以二响应模型可以表示为以下两种形式:
    • P ( Y = 1 ∣ X ) = h ( Z β ) P(Y=1|X)=h(Z\beta) P(Y=1∣X)=h(Zβ)
    • Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) Y∼B(1,h(Zβ))
  • 用连接函数表示:
    • g ( E ( Y ∣ X ) ) = Z β g(E(Y|X))=Z\beta g(E(Y∣X))=Zβ

二响应逻辑回归模型:(逻辑回归模型或logit模型)
当响应函数和连接函数分别是逆逻辑函数和逻辑函数时,即:
i l o g i t ( x ) ≜ e x p ( x ) 1 + e x p ( x ) 和  l o g i t ( x ) ≜ l o g ( x 1 − x ) ilogit(x) \triangleq \frac{exp(x)}{1+exp(x)} 和\ logit(x)\triangleq log(\frac{x}{1-x}) ilogit(x)≜1+exp(x)exp(x)​和 logit(x)≜log(1−xx​)
二响应模型就成为了二响应逻辑回归模型:(简称为逻辑回归模型或logit模型)
E ( Y ∣ X ) = e x p ( Z β ) 1 + e x p ( Z β ) E(Y|X)=\frac{exp(Z\beta)}{1+exp(Z\beta)} E(Y∣X)=1+exp(Zβ)exp(Zβ)​

正态分布概率模型或proit模型:
当响应函数和连接函数分别是:
h ( x ) = Φ ( x ) 和  g ( t ) = Φ − 1 ( t ) h(x)=\Phi(x)和\ g(t)=\Phi^{-1}(t) h(x)=Φ(x)和 g(t)=Φ−1(t)
模型就成为了正态分布概率模型或proit模型:
E ( Y ∣ X ) = Φ ( Z β ) E(Y|X)=\Phi(Z\beta) E(Y∣X)=Φ(Zβ)

极小值分布概率模型或chaglog模型:
当响应函数和连接函数分别是:
h ( x ) = 1 − exp ⁡ ( − exp ⁡ ( x ) ) 和  g ( t ) = log ⁡ ( − log ⁡ ( 1 − t ) ) h(x)=1-\exp(-\exp(x))和\ g(t)=\log(-\log(1-t)) h(x)=1−exp(−exp(x))和 g(t)=log(−log(1−t))
模型就成为了极小值分布概率模型或chaglog模型:
E ( Y ∣ X ) = 1 − exp ⁡ ( − e x p ( Z β ) ) E(Y|X)=1-\exp(-exp(Z\beta)) E(Y∣X)=1−exp(−exp(Zβ))

这三个响应函数曲线的差异十分明显:
在这里插入图片描述但是这三个响应函数可以通过平移和刻度变换相互逼近。因此,当设计向量含有常数项时,逻辑回归模型、正态分布模型和极小值分布模型拟合样本观测数据的效果差不多。
在这里插入图片描述

二、二响应模型的性质

(一)二响应变量的条件数学期望与方差

已知二响应模型可以表示为: Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) Y∼B(1,h(Zβ)),因此根据二项分布的性质可以得到:
E ( Y ∣ X ) = h ( Z β ) ,   V a r ( Y ∣ X ) = h ( Z β ) ( 1 − h ( Z β ) ) E(Y|X)=h(Z\beta),\ Var(Y|X)=h(Z\beta)(1-h(Z\beta)) E(Y∣X)=h(Zβ), Var(Y∣X)=h(Zβ)(1−h(Zβ))

(二)二响应模型参数的极大似然估计

对于变量 ( Y , X ) (Y,X) (Y,X)的独立观测样本 ( Y i , X i ) (Y_i,X_i) (Yi​,Xi​), 1 ≤ i ≤ n 1\leq i \leq n 1≤i≤n,每个样本点都满足二响应模型,即:
P ( Y i = 1 ∣ X i ) = h ( Z i β ) ,   P ( Y i = 0 ∣ X i ) = 1 − h ( Z i β ) P(Y_i=1|X_i)=h(Z_i\beta),\ P(Y_i=0|X_i)=1-h(Z_i\beta) P(Yi​=1∣Xi​)=h(Zi​β), P(Yi​=0∣Xi​)=1−h(Zi​β)
进而可以得到第 i i i项观测的个体似然函数:
L i ( β ) ≜ h ( Z i β ) Y i ( 1 − h ( Z i β ) ) 1 − Y i L_i(\beta)\triangleq h(Z_i\beta)^{Y_i}(1-h(Z_i\beta))^{1-Y_i} Li​(β)≜h(Zi​β)Yi​(1−h(Zi​β))1−Yi​
第 i i i项观测的对数似然函数:
l i ( β ) ≜ Y i log ⁡ h ( Z i β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z i β ) ) l_i(\beta)\triangleq Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta)) li​(β)≜Yi​logh(Zi​β)+(1−Yi​)log(1−h(Zi​β))
进而得到参数 β \beta β的对数似然函数:
l ( β ) ≜ ∑ i = 1 n ( Y i log ⁡ h ( Z i β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z i β ) ) ) l(\beta)\triangleq \sum_{i=1}^n(Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta))) l(β)≜i=1∑n​(Yi​logh(Zi​β)+(1−Yi​)log(1−h(Zi​β)))
模型参数的似然估计即为:
β ^ = arg max ⁡ l ( β ) \hat{\beta}=\argmax l(\beta) β^​=argmaxl(β)

显然,对数似然函数由样本所决定,因此它的最大值点也完全由样本所决定,即似然估计 β ^ \hat{\beta} β^​是一个统计量。

(三)二响应模型的优势

优势(Odds):一个事件发生的概率与其不发生的概率的比值。
二响应模型中的优势与解释变量的取值有关,他在x点的值为:
O ( x ) ≜ P ( Y = 1 ∣ X = x ) P ( Y = 0 ∣ X = x ) = P ( Y = 1 ∣ X = x ) 1 − P ( Y = 1 ∣ X = x ) O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=\frac{P(Y=1|X=x)}{1-P(Y=1|X=x)} O(x)≜P(Y=0∣X=x)P(Y=1∣X=x)​=1−P(Y=1∣X=x)P(Y=1∣X=x)​
因此二响应模型的优势为:
O ( x ) ≜ h ( z β ) 1 − h ( z β ) O(x)\triangleq \frac{h(z\beta)}{1-h(z\beta)} O(x)≜1−h(zβ)h(zβ)​

对于逻辑回归型来说,优势为:
O ( x ) ≜ P ( Y = 1 ∣ X = x ) P ( Y = 0 ∣ X = x ) = e x p ( z β ) O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=exp(z\beta) O(x)≜P(Y=0∣X=x)P(Y=1∣X=x)​=exp(zβ)
因此解释变量 x ( 1 ) x^{(1)} x(1)和 x ( 2 ) x^{(2)} x(2)的优势比为:
O ( x ( 1 ) ) O ( x ( 2 ) ) = e x p ( ( z ( 1 ) − z ( 2 ) ) β ) \frac{O(x^{(1)})}{O(x^{(2)})}=exp((z^{(1)}-z^{(2)})\beta) O(x(2))O(x(1))​=exp((z(1)−z(2))β)
因此在逻辑回归模型中, e x p ( ( z ( 1 ) − z ( 2 ) ) β ) exp((z^{(1)}-z^{(2)})\beta) exp((z(1)−z(2))β)是 x ( 1 ) x^{(1)} x(1)和 x ( 2 ) x^{(2)} x(2)的的优势比,或等价地, x ( 1 ) x^{(1)} x(1)的优势是 x ( 2 ) x^{(2)} x(2)优势的 e x p ( ( z ( 1 ) − z ( 2 ) ) β ) exp((z^{(1)}-z^{(2)})\beta) exp((z(1)−z(2))β)倍。其他二响应模型中, x ( 1 ) x^{(1)} x(1)和 x ( 2 ) x^{(2)} x(2)的优势比的计算更为复杂,这是人们喜欢用逻辑回归模型拟合二响应变量样本观测数据的一个原因

三、二响应模型参数的假设检验

二响应模型中模型参数的假设检验问题: H 0 : C β = ξ H_0:C\beta=\xi H0​:Cβ=ξ

  • C C C是已知的 s × t s\times t s×t行满秩矩阵,称为限制矩阵
  • β = ( β 1 , . . . , β t ) T \beta=(\beta_1,...,\beta_t)^T β=(β1​,...,βt​)T是模型参数

(一)对数似然比检验方法

对数似然比统计量与原假设之间的关系:

  • 模型参数 β \beta β的限制似然估计量: β ~ = arg max ⁡ β : C β = ξ l ( β ) \tilde{\beta}=\argmax_{\beta:C\beta=\xi} l(\beta) β~​=argmaxβ:Cβ=ξ​l(β)
  • 对数似然比统计量: λ ( Y , X ) = − 2 ( l ( β ~ − ( β ^ ) ) \lambda(Y,X)=-2(l(\tilde{\beta}-(\hat{\beta})) λ(Y,X)=−2(l(β~​−(β^​))
    • β ^ \hat{\beta} β^​是极大似然估计量
    • ( Y , X ) (Y,X) (Y,X)为样本

λ ( Y , X ) = − 2 log ⁡ ( L ( β ~ ) L ( β ^ ) ) = 2 log ⁡ ( L ( β ^ ) L ( β ~ ) ) \lambda(Y,X)=-2\log(\frac{L(\tilde{\beta})}{L(\hat{\beta})})=2\log(\frac{L(\hat{\beta})}{L(\tilde{\beta})}) λ(Y,X)=−2log(L(β^​)L(β~​)​)=2log(L(β~​)L(β^​)​)
显然满足限制条件 H 0 H_0 H0​的似然函数局部最大值 β ~ \tilde{\beta} β~​应该小于全局最大值 β ^ \hat{\beta} β^​,全局最大值越接近限制最大值,就越有利于限制条件 H 0 H_0 H0​的成立。即 λ ( X , Y ) \lambda(X,Y) λ(X,Y)越大,越不利于原假设。

检验方法:
当 H 0 H_0 H0​成立时, λ ( X , Y ) ∼ a χ 2 ( r ) \lambda(X,Y)\overset{\text{a}}{\sim} \chi^2(r) λ(X,Y)∼aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > λ ( y , x ) ) p=P(\xi>\lambda(y,x)) p=P(ξ>λ(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0​的证据

(二)Wald统计量

Wald统计量为 C β ^ C\hat{\beta} Cβ^​与 C β = ξ C\beta=\xi Cβ=ξ之间距离的加权平均:
W ( Y , X ) = ( C β ^ − ξ ) T ( C ( F ( β ^ ) ) − 1 C T ) − 1 ( C β ^ − ξ ) W(Y,X)=(C\hat{\beta}-\xi)^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}(C\hat{\beta}-\xi) W(Y,X)=(Cβ^​−ξ)T(C(F(β^​))−1CT)−1(Cβ^​−ξ)

  • β ^ \hat{\beta} β^​是极大似然估计量
  • F − 1 ( β ^ ) F^{-1}(\hat{\beta}) F−1(β^​)为Fisher信息矩阵的逆矩阵
  • ( Y , X ) (Y,X) (Y,X)为样本

当原假设成立时,Wald统计:
W ( Y , X ) = ( β ^ − β ) C T ( C ( F ( β ^ ) ) − 1 C T ) − 1 C ( β ^ − β ) W(Y,X)=(\hat{\beta}-\beta)C^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}C(\hat{\beta}-\beta) W(Y,X)=(β^​−β)CT(C(F(β^​))−1CT)−1C(β^​−β)
是似然估计与真实参数 β \beta β的距离,这个距离越大越不利于原假设。

检验方法:
当 H 0 H_0 H0​成立时, W ( Y , X ) ∼ a χ 2 ( r ) W(Y,X)\overset{\text{a}}{\sim} \chi^2(r) W(Y,X)∼aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > W ( y , x ) ) p=P(\xi>W(y,x)) p=P(ξ>W(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0​的证据

(三)得分统计量

得分统计量:
U ( Y , X ) = s ( β ~ ) F − 1 ( β ~ ) ( s ( β ~ ) ) T U(Y,X)=s(\tilde{\beta})F^{-1}(\tilde{\beta})(s(\tilde{\beta}))^T U(Y,X)=s(β~​)F−1(β~​)(s(β~​))T

  • s s s为得分函数
  • β ~ \tilde{\beta} β~​为限制极大似然估计
  • F − 1 ( β ~ ) F^{-1}(\tilde{\beta}) F−1(β~​)为Fisher信息矩阵的逆矩阵在限制极大似然估计点处的值

一般情况下得分统计量越小, s ( β ~ ) s(\tilde{\beta}) s(β~​)与0越接近,导致 β ~ \tilde{\beta} β~​与似然方程的解 β ^ \hat{\beta} β^​越接近,从而 H 0 H_0 H0​成立的可能性越大。
检验方法:
当 H 0 H_0 H0​成立时, U ( Y , X ) ∼ a χ 2 ( r ) U(Y,X)\overset{\text{a}}{\sim} \chi^2(r) U(Y,X)∼aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > W ( y , x ) ) p=P(\xi>W(y,x)) p=P(ξ>W(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0​的证据

(四)模型参数分量是否为0的检验

实际应用时会经常关心模型参数的第 i i i分量 β i \beta_i βi​是否为0,如果为0,就说明响应变量与设计向量的第 i i i个分量没有关系,否则响应变量就与设计向量的第i个分量有关系。
H 0 : β i = 0 H_0:\beta_i=0 H0​:βi​=0
这个假设检验问题可以使用似然比统计、Wald统计量或得分统计量来简答,但是也有更简单的统计量:
T i ( X , Y ) = β ^ i a i i T_i(X,Y)=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}} Ti​(X,Y)=aii​ ​β^​i​​
其中, a i i a_{ii} aii​为 F ( β ^ ) ) − 1 F(\hat{\beta}))^{-1} F(β^​))−1的对角线上的第i个元素。并且在一般情况下, ∣ T i ( X , Y ) ∣ |T_i(X,Y)| ∣Ti​(X,Y)∣越大,越不利于原假设。

检验方法:
当 H 0 H_0 H0​成立时,即 β i = 0 \beta_i=0 βi​=0时, T i = β ^ i a i i ∼ a N ( 0 , 1 ) T_i=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}}\overset{\text{a}}{\sim} N(0,1) Ti​=aii​ ​β^​i​​∼aN(0,1),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ∣ ξ ∣ > ∣ T i ( x , y ) ∣ ) p=P(|\xi|>|T_i(x,y)|) p=P(∣ξ∣>∣Ti​(x,y)∣)

  • 如果p小于 α \alpha α,则拒绝原假设,即 β i ≠ 0 \beta_i\neq 0 βi​=0,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设 β i = 0 \beta_i=0 βi​=0,即没有发现不利于 H 0 H_0 H0​的证据

(五)四种检验统计量的特点与应用

  • 对数似然比统计量同时依赖于似然估计量和限制似然估计量,其值的计算量大
  • Wald统计量仅依赖于无限制似然估计量 β ^ \hat{\beta} β^​,其值的计算量小,适用于前推式变量筛选
  • 得分统计量仅依赖于限制似然估计量 β ~ \tilde{\beta} β~​,计算量较小,常用于后推式变量筛选
  • 统计量 T i T_i Ti​用于解答假设检验问题

四、二响应模型的拟合优度统计量

(一)样本观测数据的表示方法

  • 不分组样本观测数据(不分组数据): ( Y , X ) (Y,X) (Y,X)的原始观测数据 ( y i , x i ) , i = 1 , . . . , n (y_i,x_i),i=1,...,n (yi​,xi​),i=1,...,n
  • 分组相应均值数据(分组数据):当观测数据的解释变量中仅有 g g g个不同取值 v 1 , . . . , v g v_1,...,v_g v1​,...,vg​时,可用将样本观测数据表示为 ( n k , y k ˉ , v k ) , k = 1 , . . . , g (n_k,\bar{y_k},v_k),k=1,...,g (nk​,yk​ˉ​,vk​),k=1,...,g
    • n k n_k nk​为数据中 v k v_k vk​的频数
    • y k ˉ \bar{y_k} yk​ˉ​为数据中解释变量为 v i v_i vi​的响应变量的算术平均值

(二)皮尔逊统计量

皮尔逊统计量是衡量二响应广义线性模型拟合效果的指标之一:
χ 2 = ∑ k = 1 g n k ( Y k ˉ − h ( Z ( v k ) β ^ ) ) 2 h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) ∼ a χ 2 ( g − p ) \chi^2=\sum_{k=1}^g\frac{n_k(\bar{Y_k}-h(Z(v_k)\hat{\beta}))^2}{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}\overset{\text{a}}{\sim} \chi^2(g-p) χ2=k=1∑g​h(Z(vk​)β^​)(1−h(Z(vk​)β^​))nk​(Yk​ˉ​−h(Z(vk​)β^​))2​∼aχ2(g−p)
其中:
Y k ˉ = 1 n k ∑ i = 1 n 1 { v k } ( X i ) Y i , 1 ≤ k ≤ g \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i,1\leq k\leq g Yk​ˉ​=nk​1​i=1∑n​1{vk​}​(Xi​)Yi​,1≤k≤g
在皮尔逊统计量中, Y k ˉ − h ( Z ( v k ) β ^ ) \bar{Y_k}-h(Z(v_k)\hat{\beta}) Yk​ˉ​−h(Z(vk​)β^​)是频率与概率估计值之差, D ^ ( Y k ˉ ) = h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) n k \hat{D}(\bar{Y_k})=\frac{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}{n_k} D^(Yk​ˉ​)=nk​h(Z(vk​)β^​)(1−h(Z(vk​)β^​))​是 D ( Y k ˉ ) D(\bar{Y_k}) D(Yk​ˉ​)的估计值,显然: ( Y ˉ k − h ( Z ( v k ) β ^ ) ) 2 D ^ ( Y k ˉ ) \frac{(\bar{Y}_k-h(Z(v_k)\hat{\beta}))^2}{\hat{D}(\bar{Y_k})} D^(Yk​ˉ​)(Yˉk​−h(Z(vk​)β^​))2​越小,说明用 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk​)β^​)估计 P ( Y ∣ X = v k ) P(Y|X=v_k) P(Y∣X=vk​)的效果越好。因此可以用其和 χ 2 \chi^2 χ2来衡量广义线性模型的拟合效果:皮尔逊统计量 χ 2 \chi^2 χ2越小,拟合的效果越好。

对于分组数据,皮尔逊计量要求各个 n k n_k nk​都很大的情况效果才会好,当 n i n_i ni​很小,甚至等于1的情况,皮尔逊统计量比较模型的效果会很差。

(三)偏差统计量

当解释变量可能取值为 v 1 , . . . , v g v_1,...,v_g v1​,...,vg​时, 1 = ∑ k = 1 g 1 { v k } ( X i ) 1=\sum_{k=1}^g1_{\{v_k\}}(X_i) 1=∑k=1g​1{vk​}​(Xi​),因此对数似然函数可以表达为:
l ( β ) = ∑ i = 1 n ∑ k = 1 g 1 { v k } ( X i ) ( Y i log ⁡ h ( Z ( X i ) β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z ( X i ) β ) ) ) = ∑ i = 1 n ∑ k = 1 g 1 { v k } ( X i ) ( Y i log ⁡ h ( Z ( v k ) β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z ( v k ) β ) ) ) \begin{aligned} l(\beta)=&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(X_i)\beta)+(1-Y_i)\log (1-h(Z(X_i)\beta)))\\ =&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(v_k)\beta)+(1-Y_i)\log (1-h(Z(v_k)\beta)))\\ \end{aligned} l(β)==​i=1∑n​k=1∑g​1{vk​}​(Xi​)(Yi​logh(Z(Xi​)β)+(1−Yi​)log(1−h(Z(Xi​)β)))i=1∑n​k=1∑g​1{vk​}​(Xi​)(Yi​logh(Z(vk​)β)+(1−Yi​)log(1−h(Z(vk​)β)))​

记 n k = ∑ i = 1 n 1 { v k } ( X i ) ,   Y k ˉ = 1 n k ∑ i = 1 n 1 { v k } ( X i ) Y i n_k=\sum_{i=1}^n1_{\{v_k\}}(X_i),\ \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i nk​=∑i=1n​1{vk​}​(Xi​), Yk​ˉ​=nk​1​∑i=1n​1{vk​}​(Xi​)Yi​,则可以用分组样本将似然函数表达为:
l ( β ) = ∑ k = 1 g n k ( Y k ˉ log ⁡ h ( Z ( v k ) β ) + ( 1 − Y k ˉ ) log ⁡ ( 1 − h ( Z ( v k ) β ) ) ) l(\beta)=\sum_{k=1}^gn_k(\bar{Y_k}\log h(Z(v_k)\beta)+(1-\bar{Y_k})\log (1-h(Z(v_k)\beta))) l(β)=k=1∑g​nk​(Yk​ˉ​logh(Z(vk​)β)+(1−Yk​ˉ​)log(1−h(Z(vk​)β)))
记: f i ( u ) = ( Y k ˉ log ⁡ u + ( 1 − Y k ˉ ) log ⁡ ( 1 − u ) ) , u ∈ ( 0 , 1 ) , 1 ≤ i ≤ g f_i(u)=(\bar{Y_k}\log u+(1-\bar{Y_k})\log (1-u)),u\in(0,1),1\leq i\leq g fi​(u)=(Yk​ˉ​logu+(1−Yk​ˉ​)log(1−u)),u∈(0,1),1≤i≤g,则有:
d f i ( u ) d u = Y ˉ i u + 1 − Y ˉ i 1 − u = Y ˉ i − u u ( 1 − u ) \frac{df_i(u)}{du}=\frac{\bar{Y}_i}{u}+\frac{1-\bar{Y}_i}{1-u}=\frac{\bar{Y}_i-u}{u(1-u)} dudfi​(u)​=uYˉi​​+1−u1−Yˉi​​=u(1−u)Yˉi​−u​
所以 f i ( u ) ≤ f i ( Y ˉ i ) , u ∈ ( 0 , 1 ) f_i(u)\leq f_i(\bar{Y}_i),u\in(0,1) fi​(u)≤fi​(Yˉi​),u∈(0,1)。

由于 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk​)β^​)和 Y k ˉ \bar{Y_k} Yk​ˉ​都是概率 P ( Y = 1 ∣ X = v i ) P(Y=1|X=v_i) P(Y=1∣X=vi​)的估计,并且:
lim ⁡ n i → ∞ Y ˉ i = P ( Y = 1 ∣ X = v i ) \lim_{n_i\rightarrow ∞}\bar{Y}_i=P(Y=1|X=v_i) ni​→∞lim​Yˉi​=P(Y=1∣X=vi​)
因此当 n i n_i ni​充分大时, f i ( Y i ˉ ) − f i ( h ( Z ( v i ) β ^ ) f_i(\bar{Y_i})-f_i(h(Z(v_i)\hat{\beta}) fi​(Yi​ˉ​)−fi​(h(Z(vi​)β^​)越小,用 Z ( v i ) β ^ Z(v_i)\hat{\beta} Z(vi​)β^​估计 P ( Y = 1 ∣ X = v i ) P(Y=1|X=v_i) P(Y=1∣X=vi​)的效果越好。因此人们常用偏差统计量:
D ( X , Y ) ≜ − 2 ∑ i = 1 g n i ( f i ( h ( Z ( v i ) β ^ ) ) − f i ( Y ˉ i ) ) D(X,Y)\triangleq-2\sum_{i=1}^gn_i(f_i(h(Z(v_i)\hat{\beta}))-f_i(\bar{Y}_i)) D(X,Y)≜−2i=1∑g​ni​(fi​(h(Z(vi​)β^​))−fi​(Yˉi​))
来衡量模型的拟合效果,偏差统计量的值越小,拟合效果也就越好。

五、全模型与子模型

设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1​,x2​,x3​,x1​x2​,x1​x3​,x2​x3​)中包含了所有的主效应项和所有的2阶交互作用项。

若设计向量 V ~ \tilde{V} V~是设计向量 V V V的子向量,则称 V V V所对应模型为 V ~ \tilde{V} V~所对应模型的全模型或父模型,称 V ~ \tilde{V} V~所对应模型为 V V V所对应模型的子模型。如二响应逻辑回归模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 3 , x 1 x 3 ) α logit(E(Y|X))=(1,x_3,x_1x_3)\alpha logit(E(Y∣X))=(1,x3​,x1​x3​)α是全模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) β logit(E(Y|X))=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3)\beta logit(E(Y∣X))=(1,x1​,x2​,x3​,x1​x2​,x1​x3​,x2​x3​)β的子模型。当全模型的模型参数一些分量为0时,全模型就变为子模型。

在选择使用全模型还是子模型拟合数据时,可以通过全模型参数的假设检验问题来进行探索:
H 0 : β 1 = β 2 = β 1 , 2 = β 2 , 3 = 0 H_0:\beta_1=\beta_2=\beta_{1,2}=\beta_{2,3}=0 H0​:β1​=β2​=β1,2​=β2,3​=0

事实上,当模型参数估计的多个分量的p值都超过显著水平时,直接在设计向量中剔除这些分量所得的子模型的你和效果可能会很差。

变量选择问题:

  • AIC准则: A I C = 2 p − 2 l ( β ^ ) AIC=2p-2l(\hat{\beta}) AIC=2p−2l(β^​),在子模型中选择AIC值最小的模型拟合数据。对于全模型,人们常用逐步回归法选择最优子模型。
    • 令设计向量 Z = ( 1 , Z 1 , . . . , Z k ) Z=(1,Z_1,...,Z_k) Z=(1,Z1​,...,Zk​),计算模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)的AIC的值 a n o n e a_{none} anone​
    • 对于 1 ≤ i ≤ k 1\leq i\leq k 1≤i≤k,删除 Z Z Z的第 i + 1 i+1 i+1分量得子向量: Z ( i ) = ( 1 , Z 1 , . . . , Z i − 1 , Z i + 1 , Z k ) Z^{(i)}=(1,Z_1,...,Z_{i-1},Z_{i+1},Z_k) Z(i)=(1,Z1​,...,Zi−1​,Zi+1​,Zk​),计算模型 E ( Y ∣ X ) = h ( Z ( i ) β ( i ) ) E(Y|X)=h(Z^{(i)}\beta^{(i)}) E(Y∣X)=h(Z(i)β(i))的AIC的值 a i a_{i} ai​
    • 若 a n o n e ≤ m i n { a 1 , . . . a k } a_{none}\leq min\{a_1,...a_k\} anone​≤min{a1​,...ak​},结束运算;否则,寻找 a 1 , . . . a k a_1,...a_k a1​,...ak​中最小者 a m a_m am​,令 k = k − 1 , Z = Z ( m ) k=k-1,Z=Z^{(m)} k=k−1,Z=Z(m),跳转到第一步
  • 另外也可以通过假设检验来考察最优子模型与全模型间是否有差异。

一般来说,最优逻辑回归模型的选择思路可以是:从设计向量出发,利用逐步回归方法获取最优子模型,通过一个分类变量的哑变量编码拓展最优子模型的设计向量,用拓展设计向量替代,重复上述过程,得到最终选择模型。

六、响应变量的预报

依据均方误差准则,应该用条件期望预报随机变量的值,但是二响应线性回归模型的条件期望的值是小数,实际应用中希望得到的预报却应该为0或1,因此需要通过一些特殊方式来实现响应变量的预报。

(一)阈值

核心思想: 通过 Y ^ c = 1 { h ( Z ( x ) β ) > c } \hat{Y}_c=1_{\{h(Z(x)\beta)>c\}} Y^c​=1{h(Z(x)β)>c}​来预报响应变量,称c为阈值。

阈值的确定:

  • 根据极大似然的原理得到预报规则:如果 P ( Y = 1 ∣ X = x ) ≥ P ( Y = 1 ∣ X = x ) P(Y=1|X=x)\geq P(Y=1|X=x) P(Y=1∣X=x)≥P(Y=1∣X=x),就预报响应变量的值为1,否则预报为0,因此极大似然预报公式即为:
    Y ^ c = 1 { h ( Z ( x ) β ) > 0.5 } \hat{Y}_c=1_{\{h(Z(x)\beta)>0.5\}} Y^c​=1{h(Z(x)β)>0.5}​

Y ^ c \hat{Y}_c Y^c​的预报效果:

  • 总体误报率: E ( ∣ Y ^ c − Y ∣ ) E(|\hat{Y}_c-Y|) E(∣Y^c​−Y∣)的值越小,说明预报效果越好。
  • 样本预报率: f = 1 n ∑ i = 1 n ∣ Y i − Y ^ i ∣ f=\frac{1}{n}\sum_{i=1}^n|Y_i-\hat{Y}_i| f=n1​∑i=1n​∣Yi​−Y^i​∣
  • 误报率与响应变量 Y 1 , . . . , Y n Y_1,...,Y_n Y1​,...,Yn​中1的比例有关,因此不宜用这一指标衡量预报效果。

(二)ROC曲线

二响应广义线性模型常常关心预报值1是否为误报,即真值1和0是否能够被正确预报出来。

  • TP:n次预报中真值为1预报值也为1的预报次数
  • FN:n次预报中真值为1预报值为0的预报次数
  • FP:n次预报中真值为0预报值为1的预报次数
  • TN:n次预报中真值为0预报值也为0的预报次数

T P R ≜ T P T P + F N ,   F P R ≜ F P F P + T N TPR\triangleq \frac{TP}{TP+FN},\ FPR\triangleq \frac{FP}{FP+TN} TPR≜TP+FNTP​, FPR≜FP+TNFP​

  • TPR是真值1被预报成功的频率,称为真正类率,我们希望它尽可能大
  • FPR是真值0被预报成1的频率,称为假正类率,我们希望它越小越好

标签:log,模型,响应,beta,广义,线性,exp,hat
From: https://blog.csdn.net/weixin_47748259/article/details/139362822

相关文章

  • 【报错解决】深度学习模型训练时cuda内存足够但测试时反而报错cuda out of memory
    报错描述报错的代码如下:model=reader(config=args,encoder=encoder)#初始化模型model.to('cuda')#把模型放到gpu上model.load_state_dict(torch.load(join(args.checkpoint_path,'best_ckpt_model1.pkl')))#加载模型参数model=torch.nn.DataParallel(model)#并行化......
  • C++ OpenCV 图像分类魔法:探索神奇的模型与代码
    ⭐️我叫忆_恒心,一名喜欢书写博客的研究生......
  • 想转行做大模型?AI产品经理们,先看看这份指南
    前言作为一个产品经理,你可能已经熟悉了一些常见的AI技术和应用,比如机器学习、深度学习、自然语言处理、计算机视觉等。但是,你是否了解什么是大模型?大模型又有什么特点和优势?为什么大模型会成为AI领域的一个重要趋势?如果你想转行做大模型,你需要具备哪些基本素质和技能?你又该......
  • 关于继承djangon内置模型AbstractUser用户认证authenticate一直返回None
    为了想要使用django内置的auth_user表字段,但是有些字段没有,想要定制于是我们可以:首先导入:fromdjango.contrib.auth.modelsimportUser,AbstractUserfromdjango.dbimportmodels然后这么写:classUserInfo(AbstractUser):"""用户信息"""nid=m......
  • FastAPI-5:Pydantic、类型提示和模型预览
    5Pydantic、类型提示和模型FastAPI主要基于Pydantic。它使用模型(Python对象类)来定义数据结构。这些模型在FastAPI应用程序中被大量使用,是编写大型应用程序时的真正优势。5.1类型提示在许多计算机语言中,变量直接指向内存中的值。这就要求程序员声明它的类型,以便确定值的大小......
  • 数据结构(C语言严蔚敏版)——第二章 线性表
    前言:    对这一章节的学习,我深有体会,只有把链表这一重点弄清楚,才算开始真正的正式学习数据结构,刚开始学习链表的朋友可能会感到有点绕脑,但是当你掌握链表以后,你会发现其实原来学习编程还是很有意思的,慢慢在学习中找到成就感,不断收获。   当然,这章的重点还是在......
  • AI: 未来AIGC大模型产品的发展方向探讨
    近年来,人工智能生成内容(AIGC,ArtificialIntelligenceGeneratedContent)市场引发了广泛关注。随着技术的不断进步,越来越多的科技公司开始竞相争夺这一市场。本文将深入探讨未来AIGC大模型产品可能的发展方向。一、个性化和定制化未来的大模型产品将更加注重个性化和定制......
  • 网络篇:网络工作方式复杂?您需要细致了解网络分层模型。
       上一篇文章提到过,网络是机器间的通信方式,那么,为了高效稳定地完成工作,网络具体是如何实现的呢?为了解决这个问题,我们需要认识网络分层模型。   在一家员工很多的工厂里,我们是工厂的主人,怎样才能组织员工很好地完成一项工作呢?最容易想到的办法是将员工划分到不同......
  • 数学模型:操作系统中FCFS、SJF、HRRN算法的平均周转时间比较 c语言
    摘 要研究目的:比较操作系统中进程调度FCFS、SJF、HRRN算法的平均周转时间和带权周转时间的大小关系。研究方法:在建模分析时,分别举4个进程的例子,1个进程用两个字母分别表示到达时间和执行时间。分两种极端情况,一种是每个进程到达时cpu还在执行之前的进程,这种结果为T(FCFS)>T......
  • 本地部署GLM-4-9B清华智谱开源大模型方法和对话效果体验
    GLM-4-9B是清华大学和智谱AI推出的最新一代预训练模型GLM-4系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B及其人类偏好对齐的版本GLM-4-9B-Chat均表现出较高的性能,其通用能力评测结果甚至超越了Llama-3-8B开源大模型,多模态版本也与GPT-4版本齐......