系列文章目录
文章目录
2响应模型中响应变量的哑变量编码的维数是1,是值域为
{
0
,
1
}
\{0,1\}
{0,1}的变量。将这个哑变量编码记为
Y
Y
Y,则k响应模型具体为:
E
(
Y
∣
X
)
=
h
(
Z
β
)
E(Y|X)=h(Z\beta)
E(Y∣X)=h(Zβ)
称之为二响应广义线性模型,简称二响应模型,进一步称
Z
=
Z
(
X
)
Z=Z(X)
Z=Z(X)为二响应模型的设计向量,
β
\beta
β为模型参数。
设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1,x2,x3,x1x2,x1x3,x2x3)中包含了所有的主效应项和所有的2阶交互作用项。
一、二响应模型的不同表达方式和响应函数
响应函数
h
h
h:
为了确保条件概率位于0和1之间,响应函数的值域为
[
0
,
1
]
[0,1]
[0,1]。为了研究方便,响应函数总是被要求为严格单增连续分布函数,在这样的假设下,响应函数
h
h
h是可逆函数,称:
g
=
h
−
1
g=h^{-1}
g=h−1为二响应模型的连接函数。
二响应模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)的不同表达方式:
- 因为
E
(
Y
∣
X
)
=
P
(
Y
=
1
∣
X
)
E(Y|X)=P(Y=1|X)
E(Y∣X)=P(Y=1∣X),所以二响应模型可以表示为以下两种形式:
- P ( Y = 1 ∣ X ) = h ( Z β ) P(Y=1|X)=h(Z\beta) P(Y=1∣X)=h(Zβ)
- Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) Y∼B(1,h(Zβ))
- 用连接函数表示:
- g ( E ( Y ∣ X ) ) = Z β g(E(Y|X))=Z\beta g(E(Y∣X))=Zβ
二响应逻辑回归模型:(逻辑回归模型或logit模型)
当响应函数和连接函数分别是逆逻辑函数和逻辑函数时,即:
i
l
o
g
i
t
(
x
)
≜
e
x
p
(
x
)
1
+
e
x
p
(
x
)
和
l
o
g
i
t
(
x
)
≜
l
o
g
(
x
1
−
x
)
ilogit(x) \triangleq \frac{exp(x)}{1+exp(x)} 和\ logit(x)\triangleq log(\frac{x}{1-x})
ilogit(x)≜1+exp(x)exp(x)和 logit(x)≜log(1−xx)
二响应模型就成为了二响应逻辑回归模型:(简称为逻辑回归模型或logit模型)
E
(
Y
∣
X
)
=
e
x
p
(
Z
β
)
1
+
e
x
p
(
Z
β
)
E(Y|X)=\frac{exp(Z\beta)}{1+exp(Z\beta)}
E(Y∣X)=1+exp(Zβ)exp(Zβ)
正态分布概率模型或proit模型:
当响应函数和连接函数分别是:
h
(
x
)
=
Φ
(
x
)
和
g
(
t
)
=
Φ
−
1
(
t
)
h(x)=\Phi(x)和\ g(t)=\Phi^{-1}(t)
h(x)=Φ(x)和 g(t)=Φ−1(t)
模型就成为了正态分布概率模型或proit模型:
E
(
Y
∣
X
)
=
Φ
(
Z
β
)
E(Y|X)=\Phi(Z\beta)
E(Y∣X)=Φ(Zβ)
极小值分布概率模型或chaglog模型:
当响应函数和连接函数分别是:
h
(
x
)
=
1
−
exp
(
−
exp
(
x
)
)
和
g
(
t
)
=
log
(
−
log
(
1
−
t
)
)
h(x)=1-\exp(-\exp(x))和\ g(t)=\log(-\log(1-t))
h(x)=1−exp(−exp(x))和 g(t)=log(−log(1−t))
模型就成为了极小值分布概率模型或chaglog模型:
E
(
Y
∣
X
)
=
1
−
exp
(
−
e
x
p
(
Z
β
)
)
E(Y|X)=1-\exp(-exp(Z\beta))
E(Y∣X)=1−exp(−exp(Zβ))
这三个响应函数曲线的差异十分明显:
但是这三个响应函数可以通过平移和刻度变换相互逼近。因此,当设计向量含有常数项时,逻辑回归模型、正态分布模型和极小值分布模型拟合样本观测数据的效果差不多。
二、二响应模型的性质
(一)二响应变量的条件数学期望与方差
已知二响应模型可以表示为:
Y
∼
B
(
1
,
h
(
Z
β
)
)
Y\sim B(1,h(Z\beta))
Y∼B(1,h(Zβ)),因此根据二项分布的性质可以得到:
E
(
Y
∣
X
)
=
h
(
Z
β
)
,
V
a
r
(
Y
∣
X
)
=
h
(
Z
β
)
(
1
−
h
(
Z
β
)
)
E(Y|X)=h(Z\beta),\ Var(Y|X)=h(Z\beta)(1-h(Z\beta))
E(Y∣X)=h(Zβ), Var(Y∣X)=h(Zβ)(1−h(Zβ))
(二)二响应模型参数的极大似然估计
对于变量
(
Y
,
X
)
(Y,X)
(Y,X)的独立观测样本
(
Y
i
,
X
i
)
(Y_i,X_i)
(Yi,Xi),
1
≤
i
≤
n
1\leq i \leq n
1≤i≤n,每个样本点都满足二响应模型,即:
P
(
Y
i
=
1
∣
X
i
)
=
h
(
Z
i
β
)
,
P
(
Y
i
=
0
∣
X
i
)
=
1
−
h
(
Z
i
β
)
P(Y_i=1|X_i)=h(Z_i\beta),\ P(Y_i=0|X_i)=1-h(Z_i\beta)
P(Yi=1∣Xi)=h(Ziβ), P(Yi=0∣Xi)=1−h(Ziβ)
进而可以得到第
i
i
i项观测的个体似然函数:
L
i
(
β
)
≜
h
(
Z
i
β
)
Y
i
(
1
−
h
(
Z
i
β
)
)
1
−
Y
i
L_i(\beta)\triangleq h(Z_i\beta)^{Y_i}(1-h(Z_i\beta))^{1-Y_i}
Li(β)≜h(Ziβ)Yi(1−h(Ziβ))1−Yi
第
i
i
i项观测的对数似然函数:
l
i
(
β
)
≜
Y
i
log
h
(
Z
i
β
)
+
(
1
−
Y
i
)
log
(
1
−
h
(
Z
i
β
)
)
l_i(\beta)\triangleq Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta))
li(β)≜Yilogh(Ziβ)+(1−Yi)log(1−h(Ziβ))
进而得到参数
β
\beta
β的对数似然函数:
l
(
β
)
≜
∑
i
=
1
n
(
Y
i
log
h
(
Z
i
β
)
+
(
1
−
Y
i
)
log
(
1
−
h
(
Z
i
β
)
)
)
l(\beta)\triangleq \sum_{i=1}^n(Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta)))
l(β)≜i=1∑n(Yilogh(Ziβ)+(1−Yi)log(1−h(Ziβ)))
模型参数的似然估计即为:
β
^
=
arg max
l
(
β
)
\hat{\beta}=\argmax l(\beta)
β^=argmaxl(β)
显然,对数似然函数由样本所决定,因此它的最大值点也完全由样本所决定,即似然估计 β ^ \hat{\beta} β^是一个统计量。
(三)二响应模型的优势
优势(Odds):一个事件发生的概率与其不发生的概率的比值。
二响应模型中的优势与解释变量的取值有关,他在x点的值为:
O
(
x
)
≜
P
(
Y
=
1
∣
X
=
x
)
P
(
Y
=
0
∣
X
=
x
)
=
P
(
Y
=
1
∣
X
=
x
)
1
−
P
(
Y
=
1
∣
X
=
x
)
O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=\frac{P(Y=1|X=x)}{1-P(Y=1|X=x)}
O(x)≜P(Y=0∣X=x)P(Y=1∣X=x)=1−P(Y=1∣X=x)P(Y=1∣X=x)
因此二响应模型的优势为:
O
(
x
)
≜
h
(
z
β
)
1
−
h
(
z
β
)
O(x)\triangleq \frac{h(z\beta)}{1-h(z\beta)}
O(x)≜1−h(zβ)h(zβ)
对于逻辑回归型来说,优势为:
O
(
x
)
≜
P
(
Y
=
1
∣
X
=
x
)
P
(
Y
=
0
∣
X
=
x
)
=
e
x
p
(
z
β
)
O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=exp(z\beta)
O(x)≜P(Y=0∣X=x)P(Y=1∣X=x)=exp(zβ)
因此解释变量
x
(
1
)
x^{(1)}
x(1)和
x
(
2
)
x^{(2)}
x(2)的优势比为:
O
(
x
(
1
)
)
O
(
x
(
2
)
)
=
e
x
p
(
(
z
(
1
)
−
z
(
2
)
)
β
)
\frac{O(x^{(1)})}{O(x^{(2)})}=exp((z^{(1)}-z^{(2)})\beta)
O(x(2))O(x(1))=exp((z(1)−z(2))β)
因此在逻辑回归模型中,
e
x
p
(
(
z
(
1
)
−
z
(
2
)
)
β
)
exp((z^{(1)}-z^{(2)})\beta)
exp((z(1)−z(2))β)是
x
(
1
)
x^{(1)}
x(1)和
x
(
2
)
x^{(2)}
x(2)的的优势比,或等价地,
x
(
1
)
x^{(1)}
x(1)的优势是
x
(
2
)
x^{(2)}
x(2)优势的
e
x
p
(
(
z
(
1
)
−
z
(
2
)
)
β
)
exp((z^{(1)}-z^{(2)})\beta)
exp((z(1)−z(2))β)倍。其他二响应模型中,
x
(
1
)
x^{(1)}
x(1)和
x
(
2
)
x^{(2)}
x(2)的优势比的计算更为复杂,这是人们喜欢用逻辑回归模型拟合二响应变量样本观测数据的一个原因
三、二响应模型参数的假设检验
二响应模型中模型参数的假设检验问题: H 0 : C β = ξ H_0:C\beta=\xi H0:Cβ=ξ
- C C C是已知的 s × t s\times t s×t行满秩矩阵,称为限制矩阵
- β = ( β 1 , . . . , β t ) T \beta=(\beta_1,...,\beta_t)^T β=(β1,...,βt)T是模型参数
(一)对数似然比检验方法
对数似然比统计量与原假设之间的关系:
- 模型参数 β \beta β的限制似然估计量: β ~ = arg max β : C β = ξ l ( β ) \tilde{\beta}=\argmax_{\beta:C\beta=\xi} l(\beta) β~=argmaxβ:Cβ=ξl(β)
- 对数似然比统计量:
λ
(
Y
,
X
)
=
−
2
(
l
(
β
~
−
(
β
^
)
)
\lambda(Y,X)=-2(l(\tilde{\beta}-(\hat{\beta}))
λ(Y,X)=−2(l(β~−(β^))
- β ^ \hat{\beta} β^是极大似然估计量
- ( Y , X ) (Y,X) (Y,X)为样本
λ
(
Y
,
X
)
=
−
2
log
(
L
(
β
~
)
L
(
β
^
)
)
=
2
log
(
L
(
β
^
)
L
(
β
~
)
)
\lambda(Y,X)=-2\log(\frac{L(\tilde{\beta})}{L(\hat{\beta})})=2\log(\frac{L(\hat{\beta})}{L(\tilde{\beta})})
λ(Y,X)=−2log(L(β^)L(β~))=2log(L(β~)L(β^))
显然满足限制条件
H
0
H_0
H0的似然函数局部最大值
β
~
\tilde{\beta}
β~应该小于全局最大值
β
^
\hat{\beta}
β^,全局最大值越接近限制最大值,就越有利于限制条件
H
0
H_0
H0的成立。即
λ
(
X
,
Y
)
\lambda(X,Y)
λ(X,Y)越大,越不利于原假设。
检验方法:
当
H
0
H_0
H0成立时,
λ
(
X
,
Y
)
∼
a
χ
2
(
r
)
\lambda(X,Y)\overset{\text{a}}{\sim} \chi^2(r)
λ(X,Y)∼aχ2(r),其中
r
=
r
a
n
k
(
C
)
r=rank(C)
r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p
=
P
(
ξ
>
λ
(
y
,
x
)
)
p=P(\xi>\lambda(y,x))
p=P(ξ>λ(y,x))
- 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
- 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据
(二)Wald统计量
Wald统计量为
C
β
^
C\hat{\beta}
Cβ^与
C
β
=
ξ
C\beta=\xi
Cβ=ξ之间距离的加权平均:
W
(
Y
,
X
)
=
(
C
β
^
−
ξ
)
T
(
C
(
F
(
β
^
)
)
−
1
C
T
)
−
1
(
C
β
^
−
ξ
)
W(Y,X)=(C\hat{\beta}-\xi)^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}(C\hat{\beta}-\xi)
W(Y,X)=(Cβ^−ξ)T(C(F(β^))−1CT)−1(Cβ^−ξ)
- β ^ \hat{\beta} β^是极大似然估计量
- F − 1 ( β ^ ) F^{-1}(\hat{\beta}) F−1(β^)为Fisher信息矩阵的逆矩阵
- ( Y , X ) (Y,X) (Y,X)为样本
当原假设成立时,Wald统计:
W
(
Y
,
X
)
=
(
β
^
−
β
)
C
T
(
C
(
F
(
β
^
)
)
−
1
C
T
)
−
1
C
(
β
^
−
β
)
W(Y,X)=(\hat{\beta}-\beta)C^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}C(\hat{\beta}-\beta)
W(Y,X)=(β^−β)CT(C(F(β^))−1CT)−1C(β^−β)
是似然估计与真实参数
β
\beta
β的距离,这个距离越大越不利于原假设。
检验方法:
当
H
0
H_0
H0成立时,
W
(
Y
,
X
)
∼
a
χ
2
(
r
)
W(Y,X)\overset{\text{a}}{\sim} \chi^2(r)
W(Y,X)∼aχ2(r),其中
r
=
r
a
n
k
(
C
)
r=rank(C)
r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p
=
P
(
ξ
>
W
(
y
,
x
)
)
p=P(\xi>W(y,x))
p=P(ξ>W(y,x))
- 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
- 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据
(三)得分统计量
得分统计量:
U
(
Y
,
X
)
=
s
(
β
~
)
F
−
1
(
β
~
)
(
s
(
β
~
)
)
T
U(Y,X)=s(\tilde{\beta})F^{-1}(\tilde{\beta})(s(\tilde{\beta}))^T
U(Y,X)=s(β~)F−1(β~)(s(β~))T
- s s s为得分函数
- β ~ \tilde{\beta} β~为限制极大似然估计
- F − 1 ( β ~ ) F^{-1}(\tilde{\beta}) F−1(β~)为Fisher信息矩阵的逆矩阵在限制极大似然估计点处的值
一般情况下得分统计量越小,
s
(
β
~
)
s(\tilde{\beta})
s(β~)与0越接近,导致
β
~
\tilde{\beta}
β~与似然方程的解
β
^
\hat{\beta}
β^越接近,从而
H
0
H_0
H0成立的可能性越大。
检验方法:
当
H
0
H_0
H0成立时,
U
(
Y
,
X
)
∼
a
χ
2
(
r
)
U(Y,X)\overset{\text{a}}{\sim} \chi^2(r)
U(Y,X)∼aχ2(r),其中
r
=
r
a
n
k
(
C
)
r=rank(C)
r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p
=
P
(
ξ
>
W
(
y
,
x
)
)
p=P(\xi>W(y,x))
p=P(ξ>W(y,x))
- 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
- 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据
(四)模型参数分量是否为0的检验
实际应用时会经常关心模型参数的第
i
i
i分量
β
i
\beta_i
βi是否为0,如果为0,就说明响应变量与设计向量的第
i
i
i个分量没有关系,否则响应变量就与设计向量的第i个分量有关系。
H
0
:
β
i
=
0
H_0:\beta_i=0
H0:βi=0
这个假设检验问题可以使用似然比统计、Wald统计量或得分统计量来简答,但是也有更简单的统计量:
T
i
(
X
,
Y
)
=
β
^
i
a
i
i
T_i(X,Y)=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}}
Ti(X,Y)=aii
β^i
其中,
a
i
i
a_{ii}
aii为
F
(
β
^
)
)
−
1
F(\hat{\beta}))^{-1}
F(β^))−1的对角线上的第i个元素。并且在一般情况下,
∣
T
i
(
X
,
Y
)
∣
|T_i(X,Y)|
∣Ti(X,Y)∣越大,越不利于原假设。
检验方法:
当
H
0
H_0
H0成立时,即
β
i
=
0
\beta_i=0
βi=0时,
T
i
=
β
^
i
a
i
i
∼
a
N
(
0
,
1
)
T_i=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}}\overset{\text{a}}{\sim} N(0,1)
Ti=aii
β^i∼aN(0,1),其中
r
=
r
a
n
k
(
C
)
r=rank(C)
r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p
=
P
(
∣
ξ
∣
>
∣
T
i
(
x
,
y
)
∣
)
p=P(|\xi|>|T_i(x,y)|)
p=P(∣ξ∣>∣Ti(x,y)∣)
- 如果p小于 α \alpha α,则拒绝原假设,即 β i ≠ 0 \beta_i\neq 0 βi=0,这种拒绝犯错误的概率不会超过 α \alpha α
- 否则就接受原假设 β i = 0 \beta_i=0 βi=0,即没有发现不利于 H 0 H_0 H0的证据
(五)四种检验统计量的特点与应用
- 对数似然比统计量同时依赖于似然估计量和限制似然估计量,其值的计算量大
- Wald统计量仅依赖于无限制似然估计量 β ^ \hat{\beta} β^,其值的计算量小,适用于前推式变量筛选
- 得分统计量仅依赖于限制似然估计量 β ~ \tilde{\beta} β~,计算量较小,常用于后推式变量筛选
- 统计量 T i T_i Ti用于解答假设检验问题
四、二响应模型的拟合优度统计量
(一)样本观测数据的表示方法
- 不分组样本观测数据(不分组数据): ( Y , X ) (Y,X) (Y,X)的原始观测数据 ( y i , x i ) , i = 1 , . . . , n (y_i,x_i),i=1,...,n (yi,xi),i=1,...,n
- 分组相应均值数据(分组数据):当观测数据的解释变量中仅有
g
g
g个不同取值
v
1
,
.
.
.
,
v
g
v_1,...,v_g
v1,...,vg时,可用将样本观测数据表示为
(
n
k
,
y
k
ˉ
,
v
k
)
,
k
=
1
,
.
.
.
,
g
(n_k,\bar{y_k},v_k),k=1,...,g
(nk,ykˉ,vk),k=1,...,g
- n k n_k nk为数据中 v k v_k vk的频数
- y k ˉ \bar{y_k} ykˉ为数据中解释变量为 v i v_i vi的响应变量的算术平均值
(二)皮尔逊统计量
皮尔逊统计量是衡量二响应广义线性模型拟合效果的指标之一:
χ
2
=
∑
k
=
1
g
n
k
(
Y
k
ˉ
−
h
(
Z
(
v
k
)
β
^
)
)
2
h
(
Z
(
v
k
)
β
^
)
(
1
−
h
(
Z
(
v
k
)
β
^
)
)
∼
a
χ
2
(
g
−
p
)
\chi^2=\sum_{k=1}^g\frac{n_k(\bar{Y_k}-h(Z(v_k)\hat{\beta}))^2}{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}\overset{\text{a}}{\sim} \chi^2(g-p)
χ2=k=1∑gh(Z(vk)β^)(1−h(Z(vk)β^))nk(Ykˉ−h(Z(vk)β^))2∼aχ2(g−p)
其中:
Y
k
ˉ
=
1
n
k
∑
i
=
1
n
1
{
v
k
}
(
X
i
)
Y
i
,
1
≤
k
≤
g
\bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i,1\leq k\leq g
Ykˉ=nk1i=1∑n1{vk}(Xi)Yi,1≤k≤g
在皮尔逊统计量中,
Y
k
ˉ
−
h
(
Z
(
v
k
)
β
^
)
\bar{Y_k}-h(Z(v_k)\hat{\beta})
Ykˉ−h(Z(vk)β^)是频率与概率估计值之差,
D
^
(
Y
k
ˉ
)
=
h
(
Z
(
v
k
)
β
^
)
(
1
−
h
(
Z
(
v
k
)
β
^
)
)
n
k
\hat{D}(\bar{Y_k})=\frac{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}{n_k}
D^(Ykˉ)=nkh(Z(vk)β^)(1−h(Z(vk)β^))是
D
(
Y
k
ˉ
)
D(\bar{Y_k})
D(Ykˉ)的估计值,显然:
(
Y
ˉ
k
−
h
(
Z
(
v
k
)
β
^
)
)
2
D
^
(
Y
k
ˉ
)
\frac{(\bar{Y}_k-h(Z(v_k)\hat{\beta}))^2}{\hat{D}(\bar{Y_k})}
D^(Ykˉ)(Yˉk−h(Z(vk)β^))2越小,说明用
h
(
Z
(
v
k
)
β
^
)
h(Z(v_k)\hat{\beta})
h(Z(vk)β^)估计
P
(
Y
∣
X
=
v
k
)
P(Y|X=v_k)
P(Y∣X=vk)的效果越好。因此可以用其和
χ
2
\chi^2
χ2来衡量广义线性模型的拟合效果:皮尔逊统计量
χ
2
\chi^2
χ2越小,拟合的效果越好。
对于分组数据,皮尔逊计量要求各个 n k n_k nk都很大的情况效果才会好,当 n i n_i ni很小,甚至等于1的情况,皮尔逊统计量比较模型的效果会很差。
(三)偏差统计量
当解释变量可能取值为
v
1
,
.
.
.
,
v
g
v_1,...,v_g
v1,...,vg时,
1
=
∑
k
=
1
g
1
{
v
k
}
(
X
i
)
1=\sum_{k=1}^g1_{\{v_k\}}(X_i)
1=∑k=1g1{vk}(Xi),因此对数似然函数可以表达为:
l
(
β
)
=
∑
i
=
1
n
∑
k
=
1
g
1
{
v
k
}
(
X
i
)
(
Y
i
log
h
(
Z
(
X
i
)
β
)
+
(
1
−
Y
i
)
log
(
1
−
h
(
Z
(
X
i
)
β
)
)
)
=
∑
i
=
1
n
∑
k
=
1
g
1
{
v
k
}
(
X
i
)
(
Y
i
log
h
(
Z
(
v
k
)
β
)
+
(
1
−
Y
i
)
log
(
1
−
h
(
Z
(
v
k
)
β
)
)
)
\begin{aligned} l(\beta)=&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(X_i)\beta)+(1-Y_i)\log (1-h(Z(X_i)\beta)))\\ =&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(v_k)\beta)+(1-Y_i)\log (1-h(Z(v_k)\beta)))\\ \end{aligned}
l(β)==i=1∑nk=1∑g1{vk}(Xi)(Yilogh(Z(Xi)β)+(1−Yi)log(1−h(Z(Xi)β)))i=1∑nk=1∑g1{vk}(Xi)(Yilogh(Z(vk)β)+(1−Yi)log(1−h(Z(vk)β)))
记
n
k
=
∑
i
=
1
n
1
{
v
k
}
(
X
i
)
,
Y
k
ˉ
=
1
n
k
∑
i
=
1
n
1
{
v
k
}
(
X
i
)
Y
i
n_k=\sum_{i=1}^n1_{\{v_k\}}(X_i),\ \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i
nk=∑i=1n1{vk}(Xi), Ykˉ=nk1∑i=1n1{vk}(Xi)Yi,则可以用分组样本将似然函数表达为:
l
(
β
)
=
∑
k
=
1
g
n
k
(
Y
k
ˉ
log
h
(
Z
(
v
k
)
β
)
+
(
1
−
Y
k
ˉ
)
log
(
1
−
h
(
Z
(
v
k
)
β
)
)
)
l(\beta)=\sum_{k=1}^gn_k(\bar{Y_k}\log h(Z(v_k)\beta)+(1-\bar{Y_k})\log (1-h(Z(v_k)\beta)))
l(β)=k=1∑gnk(Ykˉlogh(Z(vk)β)+(1−Ykˉ)log(1−h(Z(vk)β)))
记:
f
i
(
u
)
=
(
Y
k
ˉ
log
u
+
(
1
−
Y
k
ˉ
)
log
(
1
−
u
)
)
,
u
∈
(
0
,
1
)
,
1
≤
i
≤
g
f_i(u)=(\bar{Y_k}\log u+(1-\bar{Y_k})\log (1-u)),u\in(0,1),1\leq i\leq g
fi(u)=(Ykˉlogu+(1−Ykˉ)log(1−u)),u∈(0,1),1≤i≤g,则有:
d
f
i
(
u
)
d
u
=
Y
ˉ
i
u
+
1
−
Y
ˉ
i
1
−
u
=
Y
ˉ
i
−
u
u
(
1
−
u
)
\frac{df_i(u)}{du}=\frac{\bar{Y}_i}{u}+\frac{1-\bar{Y}_i}{1-u}=\frac{\bar{Y}_i-u}{u(1-u)}
dudfi(u)=uYˉi+1−u1−Yˉi=u(1−u)Yˉi−u
所以
f
i
(
u
)
≤
f
i
(
Y
ˉ
i
)
,
u
∈
(
0
,
1
)
f_i(u)\leq f_i(\bar{Y}_i),u\in(0,1)
fi(u)≤fi(Yˉi),u∈(0,1)。
由于
h
(
Z
(
v
k
)
β
^
)
h(Z(v_k)\hat{\beta})
h(Z(vk)β^)和
Y
k
ˉ
\bar{Y_k}
Ykˉ都是概率
P
(
Y
=
1
∣
X
=
v
i
)
P(Y=1|X=v_i)
P(Y=1∣X=vi)的估计,并且:
lim
n
i
→
∞
Y
ˉ
i
=
P
(
Y
=
1
∣
X
=
v
i
)
\lim_{n_i\rightarrow ∞}\bar{Y}_i=P(Y=1|X=v_i)
ni→∞limYˉi=P(Y=1∣X=vi)
因此当
n
i
n_i
ni充分大时,
f
i
(
Y
i
ˉ
)
−
f
i
(
h
(
Z
(
v
i
)
β
^
)
f_i(\bar{Y_i})-f_i(h(Z(v_i)\hat{\beta})
fi(Yiˉ)−fi(h(Z(vi)β^)越小,用
Z
(
v
i
)
β
^
Z(v_i)\hat{\beta}
Z(vi)β^估计
P
(
Y
=
1
∣
X
=
v
i
)
P(Y=1|X=v_i)
P(Y=1∣X=vi)的效果越好。因此人们常用偏差统计量:
D
(
X
,
Y
)
≜
−
2
∑
i
=
1
g
n
i
(
f
i
(
h
(
Z
(
v
i
)
β
^
)
)
−
f
i
(
Y
ˉ
i
)
)
D(X,Y)\triangleq-2\sum_{i=1}^gn_i(f_i(h(Z(v_i)\hat{\beta}))-f_i(\bar{Y}_i))
D(X,Y)≜−2i=1∑gni(fi(h(Z(vi)β^))−fi(Yˉi))
来衡量模型的拟合效果,偏差统计量的值越小,拟合效果也就越好。
五、全模型与子模型
设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1,x2,x3,x1x2,x1x3,x2x3)中包含了所有的主效应项和所有的2阶交互作用项。
若设计向量 V ~ \tilde{V} V~是设计向量 V V V的子向量,则称 V V V所对应模型为 V ~ \tilde{V} V~所对应模型的全模型或父模型,称 V ~ \tilde{V} V~所对应模型为 V V V所对应模型的子模型。如二响应逻辑回归模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 3 , x 1 x 3 ) α logit(E(Y|X))=(1,x_3,x_1x_3)\alpha logit(E(Y∣X))=(1,x3,x1x3)α是全模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) β logit(E(Y|X))=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3)\beta logit(E(Y∣X))=(1,x1,x2,x3,x1x2,x1x3,x2x3)β的子模型。当全模型的模型参数一些分量为0时,全模型就变为子模型。
在选择使用全模型还是子模型拟合数据时,可以通过全模型参数的假设检验问题来进行探索:
H
0
:
β
1
=
β
2
=
β
1
,
2
=
β
2
,
3
=
0
H_0:\beta_1=\beta_2=\beta_{1,2}=\beta_{2,3}=0
H0:β1=β2=β1,2=β2,3=0
事实上,当模型参数估计的多个分量的p值都超过显著水平时,直接在设计向量中剔除这些分量所得的子模型的你和效果可能会很差。
变量选择问题:
- AIC准则:
A
I
C
=
2
p
−
2
l
(
β
^
)
AIC=2p-2l(\hat{\beta})
AIC=2p−2l(β^),在子模型中选择AIC值最小的模型拟合数据。对于全模型,人们常用逐步回归法选择最优子模型。
- 令设计向量 Z = ( 1 , Z 1 , . . . , Z k ) Z=(1,Z_1,...,Z_k) Z=(1,Z1,...,Zk),计算模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)的AIC的值 a n o n e a_{none} anone
- 对于 1 ≤ i ≤ k 1\leq i\leq k 1≤i≤k,删除 Z Z Z的第 i + 1 i+1 i+1分量得子向量: Z ( i ) = ( 1 , Z 1 , . . . , Z i − 1 , Z i + 1 , Z k ) Z^{(i)}=(1,Z_1,...,Z_{i-1},Z_{i+1},Z_k) Z(i)=(1,Z1,...,Zi−1,Zi+1,Zk),计算模型 E ( Y ∣ X ) = h ( Z ( i ) β ( i ) ) E(Y|X)=h(Z^{(i)}\beta^{(i)}) E(Y∣X)=h(Z(i)β(i))的AIC的值 a i a_{i} ai
- 若 a n o n e ≤ m i n { a 1 , . . . a k } a_{none}\leq min\{a_1,...a_k\} anone≤min{a1,...ak},结束运算;否则,寻找 a 1 , . . . a k a_1,...a_k a1,...ak中最小者 a m a_m am,令 k = k − 1 , Z = Z ( m ) k=k-1,Z=Z^{(m)} k=k−1,Z=Z(m),跳转到第一步
- 另外也可以通过假设检验来考察最优子模型与全模型间是否有差异。
一般来说,最优逻辑回归模型的选择思路可以是:从设计向量出发,利用逐步回归方法获取最优子模型,通过一个分类变量的哑变量编码拓展最优子模型的设计向量,用拓展设计向量替代,重复上述过程,得到最终选择模型。
六、响应变量的预报
依据均方误差准则,应该用条件期望预报随机变量的值,但是二响应线性回归模型的条件期望的值是小数,实际应用中希望得到的预报却应该为0或1,因此需要通过一些特殊方式来实现响应变量的预报。
(一)阈值
核心思想: 通过 Y ^ c = 1 { h ( Z ( x ) β ) > c } \hat{Y}_c=1_{\{h(Z(x)\beta)>c\}} Y^c=1{h(Z(x)β)>c}来预报响应变量,称c为阈值。
阈值的确定:
- 根据极大似然的原理得到预报规则:如果
P
(
Y
=
1
∣
X
=
x
)
≥
P
(
Y
=
1
∣
X
=
x
)
P(Y=1|X=x)\geq P(Y=1|X=x)
P(Y=1∣X=x)≥P(Y=1∣X=x),就预报响应变量的值为1,否则预报为0,因此极大似然预报公式即为:
Y ^ c = 1 { h ( Z ( x ) β ) > 0.5 } \hat{Y}_c=1_{\{h(Z(x)\beta)>0.5\}} Y^c=1{h(Z(x)β)>0.5}
Y ^ c \hat{Y}_c Y^c的预报效果:
- 总体误报率: E ( ∣ Y ^ c − Y ∣ ) E(|\hat{Y}_c-Y|) E(∣Y^c−Y∣)的值越小,说明预报效果越好。
- 样本预报率: f = 1 n ∑ i = 1 n ∣ Y i − Y ^ i ∣ f=\frac{1}{n}\sum_{i=1}^n|Y_i-\hat{Y}_i| f=n1∑i=1n∣Yi−Y^i∣
- 误报率与响应变量 Y 1 , . . . , Y n Y_1,...,Y_n Y1,...,Yn中1的比例有关,因此不宜用这一指标衡量预报效果。
(二)ROC曲线
二响应广义线性模型常常关心预报值1是否为误报,即真值1和0是否能够被正确预报出来。
- TP:n次预报中真值为1预报值也为1的预报次数
- FN:n次预报中真值为1预报值为0的预报次数
- FP:n次预报中真值为0预报值为1的预报次数
- TN:n次预报中真值为0预报值也为0的预报次数
T P R ≜ T P T P + F N , F P R ≜ F P F P + T N TPR\triangleq \frac{TP}{TP+FN},\ FPR\triangleq \frac{FP}{FP+TN} TPR≜TP+FNTP, FPR≜FP+TNFP
- TPR是真值1被预报成功的频率,称为真正类率,我们希望它尽可能大
- FPR是真值0被预报成1的频率,称为假正类率,我们希望它越小越好