1 回归方程
回归方程一般表达式:
y
=
f
(
x
1
,
x
2
,
⋯
,
x
n
)
+
ε
y = f({x_1},{x_2}, \cdots ,{x_n}) + \varepsilon
y=f(x1,x2,⋯,xn)+ε
ε
\varepsilon
ε随机误差,独立于自变量的随机变量,一般假设其均值为0的正态分布,即
ε
N
˜
(
0
,
σ
2
)
\varepsilon \~N(0,{\sigma ^2})
εN˜(0,σ2)。
根据
f
f
f的形式,回归方程可以分为线性回归方程和非线性回归方程。
线性回归方程表达式:
y
=
β
0
+
β
1
x
1
+
β
2
x
2
+
⋯
+
β
n
x
n
+
ε
y = {\beta _0} + {\beta _1}{x_1} + {\beta _2}{x_2} + \cdots + {\beta _n}{x_n} + \varepsilon
y=β0+β1x1+β2x2+⋯+βnxn+ε
β
0
{\beta _0}
β0常数项、
β
1
,
β
2
,
⋯
,
β
n
{\beta _1},{\beta _2}, \cdots ,{\beta _n}
β1,β2,⋯,βn回归系数、
ε
\varepsilon
ε随机误差;
n
=
1
n = 1
n=1时为一元线性回归,
n
⩾
2
n \geqslant 2
n⩾2时为多元线性回归。
2 一元线性回归方程
回归方程:
y
=
β
0
+
β
1
x
+
ε
y = {\beta _0} + {\beta _1}x + \varepsilon
y=β0+β1x+ε
估计回归方程:
y
^
=
β
^
0
+
β
^
1
x
\hat y = {\hat \beta _0} + {\hat \beta _1}x
y^=β^0+β^1x
最小二乘法估算
β
^
0
{\hat \beta _0}
β^0和
β
^
1
{\hat \beta _1}
β^1:
β
^
1
=
∑
i
=
1
n
(
y
i
−
y
ˉ
)
(
x
i
−
x
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
{\hat \beta _1} = \frac{{\sum\limits_{i = 1}^n {({y_i} - \bar y)({x_i} - \bar x)} }}{{\sum\limits_{i = 1}^n {{{({x_i} - \bar x)}^2}} }}
β^1=i=1∑n(xi−xˉ)2i=1∑n(yi−yˉ)(xi−xˉ)
β
^
0
=
y
ˉ
−
β
^
1
x
ˉ
{\hat \beta _0} = \bar y - {\hat \beta _1}\bar x
β^0=yˉ−β^1xˉ
回归模型的有效性检验:
F
=
S
S
R
1
S
S
E
n
−
2
F = \frac{{\frac{{SSR}}{1}}}{{\frac{{SSE}}{{n - 2}}}}
F=n−2SSE1SSR
SSR回归平方和;
SSE误差平方和;
n样本数;
回归系数的显著性检验:
β
^
0
{\hat \beta _0}
β^0通过t检验:
t
=
β
^
0
−
β
0
S
E
(
β
^
0
)
t = \frac{{{{\hat \beta }_0} - {\beta _0}}}{{SE({{\hat \beta }_0})}}
t=SE(β^0)β^0−β0
S
E
(
β
^
0
)
SE({\hat \beta _0})
SE(β^0)为
β
^
0
{\hat \beta _0}
β^0的标准差;
β
^
1
{\hat \beta _1}
β^1通过t检验:
t
=
β
^
1
−
β
1
S
E
(
β
^
1
)
t = \frac{{{{\hat \beta }_1} - {\beta _1}}}{{SE({{\hat \beta }_1})}}
t=SE(β^1)β^1−β1
S
E
(
β
^
1
)
SE({\hat \beta _1})
SE(β^1)为
β
^
1
{\hat \beta _1}
β^1的标准差;
在t检验中,我们通常假设
β
0
=
0
,
β
1
=
0
{\beta _0} = 0,{\beta _1} = 0
β0=0,β1=0来进行检验,即我们检验回归系数是否显著不同于零。
决定系数
R
2
{R^2}
R2:
R
2
=
S
S
R
S
S
T
=
1
−
S
S
E
S
S
T
∈
[
0
,
1
]
{R^2} = \frac{{SSR}}{{SST}} = 1 - \frac{{SSE}}{{SST}} \in [0,1]
R2=SSTSSR=1−SSTSSE∈[0,1]
多重判定系数
R
n
2
R_n^2
Rn2:
R
n
2
=
1
−
(
1
−
R
2
)
n
−
1
n
−
k
−
1
R_n^2 = 1 - (1 - {R^2})\frac{{n - 1}}{{n - k - 1}}
Rn2=1−(1−R2)n−k−1n−1
3 多元线性回归方程
回归方程:
y
=
β
0
+
β
1
x
1
+
β
2
x
2
+
⋯
+
β
n
x
n
+
ε
y = {\beta _0} + {\beta _1}{x_1} + {\beta _2}{x_2} + \cdots + {\beta _n}{x_n} + \varepsilon
y=β0+β1x1+β2x2+⋯+βnxn+ε
估计回归方程:
y
^
=
β
^
0
+
β
^
1
x
1
+
β
^
2
x
2
+
⋯
+
β
^
n
x
n
+
ε
\hat y = {\hat \beta _0} + {\hat \beta _1}{x_1} + {\hat \beta _2}{x_2} + \cdots + {\hat \beta _n}{x_n} + \varepsilon
y^=β^0+β^1x1+β^2x2+⋯+β^nxn+ε
回归模型的有效性检验:
F
=
S
S
R
k
S
S
E
n
−
k
−
2
F = \frac{{\frac{{SSR}}{k}}}{{\frac{{SSE}}{{n - k - 2}}}}
F=n−k−2SSEkSSR
SSR回归平方和;
SSE误差平方和;
n样本数;
k自变量个数
回归系数的显著性检验:
β
i
{\beta _i}
βi通过t检验:
t
=
β
^
i
−
β
i
S
E
(
β
^
i
)
t = \frac{{{{\hat \beta }_i} - {\beta _i}}}{{SE({{\hat \beta }_i})}}
t=SE(β^i)β^i−βi
决定系数
R
2
{R^2}
R2:
R
2
=
S
S
R
S
S
T
=
1
−
S
S
E
S
S
T
∈
[
0
,
1
]
{R^2} = \frac{{SSR}}{{SST}} = 1 - \frac{{SSE}}{{SST}} \in [0,1]
R2=SSTSSR=1−SSTSSE∈[0,1]
多重判定系数
R
n
2
R_n^2
Rn2:
R
n
2
=
1
−
(
1
−
R
2
)
n
−
1
n
−
k
−
1
R_n^2 = 1 - (1 - {R^2})\frac{{n - 1}}{{n - k - 1}}
Rn2=1−(1−R2)n−k−1n−1
4 二元Logistic回归
Odds优势(发生比):事件发生的概率与事件不发生的概率比值;
O
d
d
s
=
p
1
−
p
Odds = \frac{p}{{1 - p}}
Odds=1−pp
Or优势比:事件在a情况下的发生比与事件在b情况下的发生比的比值;
O
R
=
p
1
1
−
p
1
p
2
1
−
p
2
OR = \frac{{\frac{{{p_1}}}{{1 - {p_1}}}}}{{\frac{{{p_2}}}{{1 - {p_2}}}}}
OR=1−p2p21−p1p1
方程参数的估计与验证
(1)模型参数的估计与验证
逻辑回归方程参数估算方法:最大似然估计
回归系数的验证:wald验证、似然比验证
wald验证:样本规模加大,统计量W服从自由度为1的卡方分布
W
=
(
β
^
j
S
E
β
^
j
)
2
W = {\left( {\frac{{{{\hat \beta }_j}}}{{S{E_{{{\hat \beta }_j}}}}}} \right)^2}
W=(SEβ^jβ^j)2
β
^
j
{\hat \beta _j}
β^j各个估算的回归系数;
S
E
β
^
j
S{E_{{{\hat \beta }_j}}}
SEβ^j为
β
^
j
{\hat \beta _j}
β^j标准差;
wald验证缺陷是当回归系数的绝对值很大,标准误差就会迅速膨胀,导致W的统计量变小,导致认为自变量对y事件发生的可能性无影响。
似然比验证:令模型1有j个自变量,即
x
1
,
x
2
,
⋯
,
x
k
,
⋯
,
x
j
{x_1},{x_2}, \cdots ,{x_k}, \cdots ,{x_j}
x1,x2,⋯,xk,⋯,xj,模型2含有模型1中除了
x
k
{x_k}
xk之外的所有变量,那么两个模型的对数似然值乘以-2的结果之差近似服从卡方分布,于是我们可以构造似然比检验统计量:
L
.
R
.
=
(
−
2
L
L
^
2
)
−
(
−
2
L
L
^
1
)
=
−
2
L
n
(
L
^
2
L
^
1
)
L.R. = ( - 2L{\hat L_2}) - ( - 2L{\hat L_1}) = - 2Ln(\frac{{{{\hat L}_2}}}{{{{\hat L}_1}}})
L.R.=(−2LL^2)−(−2LL^1)=−2Ln(L^1L^2)
当自变量
x
k
{x_k}
xk显著有效时,
L
^
1
{\hat L_1}
L^1显著大于
L
^
2
{\hat L_2}
L^2,则
L
.
R
.
L.R.
L.R.为很大的正数;相反,当自变量
x
k
{x_k}
xk没有显著性有效时,则
L
^
1
{\hat L_1}
L^1近似等于
L
^
2
{\hat L_2}
L^2,而
L
.
R
.
L.R.
L.R.近似为零。所以
L
.
R
.
L.R.
L.R.越大, 自变量
x
k
{x_k}
xk越显著。
(2)拟合优度
对于模型的整体,可以利用下列三个指标进行判断,第一个是
−
2
L
L
^
s
- 2L{\hat L_s}
−2LL^s,第二是
C
o
x
S
n
e
l
l
R
2
CoxSnell\;{R^2}
CoxSnellR2和
N
a
g
e
l
k
e
r
k
e
R
2
Nagelkerke\;{R^2}
NagelkerkeR2,第三是
H
o
s
m
e
r
−
L
e
m
e
s
h
o
w
Hosmer - Lemeshow
Hosmer−Lemeshow拟合优度。
1)
−
2
L
L
^
s
- 2L{\hat L_s}
−2LL^s
−
2
L
L
^
s
- 2L{\hat L_s}
−2LL^s是指
L
^
s
{\hat L_s}
L^s最大似然值
L
L
^
s
L{\hat L_s}
LL^s的对数乘以-2的统计量,它的取值从0到正无穷,越接近0拟合越好。
2)
C
o
x
S
n
e
l
l
R
2
CoxSnell\;{R^2}
CoxSnellR2和
N
a
g
e
l
k
e
r
k
e
R
2
Nagelkerke\;{R^2}
NagelkerkeR2
线性回归中的指标
R
2
{R^2}
R2可以用来表示模型的拟合优度,逻辑回归模型也有一个类似
R
2
{R^2}
R2的指标。
R
2
{R^2}
R2是指回归平方和与总平方和的比值。类似的,可以将
−
2
L
L
^
0
- 2L{\hat L_0}
−2LL^0(即只含常数参数模型的最大似然值
L
L
^
0
L{\hat L_0}
LL^0乘以-2)作为类似线性方程中的总平方和,而
−
2
L
L
^
s
- 2L{\hat L_s}
−2LL^s类似于误差平方和,那么可以构造
C
o
x
S
n
e
l
l
R
2
CoxSnell\;{R^2}
CoxSnellR2指标:
R
2
=
1
−
(
L
^
0
L
^
s
)
2
n
{R^2} = 1 - {\left( {\frac{{{{\hat L}_0}}}{{{{\hat L}_s}}}} \right)^{\frac{2}{n}}}
R2=1−(L^sL^0)n2
上式计算出来的
R
2
{R^2}
R2的最大值小于1,经调整后,得到了
N
a
g
e
l
k
e
r
k
e
R
2
Nagelkerke\;{R^2}
NagelkerkeR2指标:
R
a
d
j
2
=
R
2
R
max
2
=
1
−
(
L
^
0
L
^
s
)
2
n
1
−
(
L
^
0
)
2
n
R_{adj}^2 = \frac{{{R^2}}}{{R_{\max }^2}} = \frac{{1 - {{\left( {\frac{{{{\hat L}_0}}}{{{{\hat L}_s}}}} \right)}^{\frac{2}{n}}}}}{{1 - {{\left( {{{\hat L}_0}} \right)}^{\frac{2}{n}}}}}
Radj2=Rmax2R2=1−(L^0)n21−(L^sL^0)n2
R
a
d
j
2
R_{adj}^2
Radj2越接近1说明模型的拟合优度越好。
3)
H
o
s
m
e
r
−
L
e
m
e
s
h
o
w
Hosmer - Lemeshow
Hosmer−Lemeshow拟合优度
H
o
s
m
e
r
−
L
e
m
e
s
h
o
w
Hosmer - Lemeshow
Hosmer−Lemeshow的检验思路是根据预测概率值将数据分成大致相同规模的10个组, 将观测数据按其预测概率做升序排列,第一组是估计概率最小的观测数据,最后一组是估计概率最大的观测数据,则其指标可以写为:
H
L
=
∑
g
=
1
G
(
y
g
−
n
g
p
^
g
)
n
g
p
^
g
(
1
−
p
^
g
)
HL = \sum\limits_{g = 1}^G {\frac{{\left( {{y_g} - {n_g}{{\hat p}_g}} \right)}}{{{n_g}{{\hat p}_g}(1 - {{\hat p}_g})}}}
HL=g=1∑Gngp^g(1−p^g)(yg−ngp^g)
G为分组数,G不超过10;
n
g
{n_g}
ng为第g组的样本数;
p
^
g
{\hat p_g}
p^g为第g组的预测事件概率;
y
g
{y_g}
yg为第g组事件的观测数据。
HL服从自由度为G-2的卡方分布,可以通过卡方进行检验。如果卡方值大于显著水平,模型拟合良好;否则拟合不好。
(3)回归系数解释
一般线性回归方程中,对于某个自变量
x
k
{x_k}
xk,回归系数
β
k
{\beta _k}
βk的含义是,在其他变量不变的情况下,其每增加一个单位,因变量y可以增加
β
k
{\beta _k}
βk个单位,同样的,在逻辑回归模型中,对于某个自变量
x
k
{x_k}
xk,在其他变量不变的情况下,其每增加一个单位,因变量的增加量可以写为:
ln
(
p
(
x
k
+
1
)
1
−
p
(
x
k
+
1
)
)
−
ln
(
p
x
k
1
−
p
x
k
)
=
β
k
\ln \left( {\frac{{{p_{({x_k} + 1)}}}}{{1 - {p_{({x_k} + 1)}}}}} \right) - \ln \left( {\frac{{{p_{xk}}}}{{1 - {p_{xk}}}}} \right) = {\beta _k}
ln(1−p(xk+1)p(xk+1))−ln(1−pxkpxk)=βk
ln
[
(
p
(
x
k
+
1
)
1
−
p
(
x
k
+
1
)
)
(
p
x
k
1
−
p
x
k
)
]
=
β
k
\ln \left[ {\frac{{\left( {\frac{{{p_{({x_k} + 1)}}}}{{1 - {p_{({x_k} + 1)}}}}} \right)}}{{\left( {\frac{{{p_{xk}}}}{{1 - {p_{xk}}}}} \right)}}} \right] = {\beta _k}
ln
(1−pxkpxk)(1−p(xk+1)p(xk+1))
=βk
两边取对数,发生比OR:
[
(
p
(
x
k
+
1
)
1
−
p
(
x
k
+
1
)
)
(
p
x
k
1
−
p
x
k
)
]
=
O
R
=
e
β
k
\left[ {\frac{{\left( {\frac{{{p_{({x_k} + 1)}}}}{{1 - {p_{({x_k} + 1)}}}}} \right)}}{{\left( {\frac{{{p_{xk}}}}{{1 - {p_{xk}}}}} \right)}}} \right] = OR = {e^{{\beta _k}}}
(1−pxkpxk)(1−p(xk+1)p(xk+1))
=OR=eβk
如果
x
x
x为连续变量,我们可以解释为,其每增加一个单位,发生比OR会增加
e
β
k
{e^{{\beta _k}}}
eβk个单位;如果
x
x
x为二分变量,我们可以解释为,当
x
x
x从0变为1时,事件的发生比OR变化
e
β
k
{e^{{\beta _k}}}
eβk个单位。
5 曲线回归
曲线回归的模型形式:
y
=
β
0
+
β
1
x
+
β
2
x
2
+
⋯
+
β
n
x
n
+
ε
y = {\beta _0} + {\beta _1}x + {\beta _2}{x^2} + \cdots + {\beta _n}{x^n} + \varepsilon
y=β0+β1x+β2x2+⋯+βnxn+ε
曲线回归是一种用于分析因变量与自变量之间非线性关系的统计方法。与线性回归不同,曲线回归通过拟合一条曲线(而非直线)来更好地描述变量之间的复杂关系。常见的曲线回归模型包括多项式回归、对数回归、指数回归和幂函数回归等。曲线回归虽然看起来涉及到非线性关系,但它通常仍然被视为一种线性回归,因为在回归系数上是线性的。
线性于参数,非线性于自变量:曲线回归模型在参数上是线性的,但在自变量上可能是非线性的。这意味着模型可以写成线性回归的形式,尽管自变量可能以非线性形式出现。
曲线回归可以通过常规的最小二乘法来求解,即通过最小化残差平方和来估计回归系数:
R
S
S
=
∑
i
=
1
n
(
y
i
−
(
β
0
+
β
1
x
i
+
β
2
x
i
2
+
⋯
)
)
2
RSS = {\sum\limits_{i = 1}^n {\left( {{y_i} - ({\beta _0} + {\beta _1}{x_i} + {\beta _2}x_i^2 + \cdots )} \right)} ^2}
RSS=i=1∑n(yi−(β0+β1xi+β2xi2+⋯))2
曲线回归的核心特征是:虽然自变量可能以非线性方式出现,但模型中的系数可以用线性最小二乘法来估计。
6 非线性回归
非线性回归模型的基本形式为:
y
=
f
(
x
,
β
)
+
ε
y = f(x,\beta ) + \varepsilon
y=f(x,β)+ε
由于模型的非线性,无法像线性回归那样直接通过最小二乘法求解参数。非线性回归通常使用非线性最小二乘法来估计模型中的参数