转载:写给你的金融时间序列分析:回归篇
- 写给你的金融时间序列分析:回归篇 - 微信公众平台
- https://mp.weixin.qq.com/s/WDcAYD3gAqKBKoW0LsLg8g
- 时间序列回归分析并非是简单地将两个序列进行回归处理,而是一个需要精心设计和仔细考量的过程。
- 2024-06-28 16:30:44
作者: 石川,北京量信投资管理有限公司创始合伙人,清华大学学士、硕士,麻省理工学院博士。[《因子投资:方法与实践》](http://mp.weixin.qq.com/s?__biz=MzIyMDEwNDk1Mg &mid=2650880462&idx=1&sn=4e52c94e4f5199886857e98bfffc4501&chksm=8c248859bb53014f2c7745dabb522fdce6bbcaffc277d33d2888ba060c5c2f894e7631a04fd5&scene=21#wechat_redirect)领衔作者,[《机器学习与资产定价》](http://mp.weixin.qq.com/s?__biz=MzIyMDEwNDk1Mg &mid=2650881931&idx=1&sn=c1b7351a386b4427d072dbf913e571d8&chksm=8c248e1cbb53070a38c1317d623e879bdf0b25a3ea4859631b2d8080f6b90f2b667eeccff341&scene=21#wechat_redirect)译者。
封面来源:www.pexels.com
未经授权,严禁转载。
摘要
时间序列回归分析并非是简单地将两个序列进行回归处理,而是一个需要精心设计和仔细考量的过程,每一步都涉及到对数据特性的深入理解和对模型假设的严格检验。
0 引言
本文继续拓展《写给你的时间序列分析》系列。系列的前序文章,即:
主要是针对单一时间序列的检验和建模。本文则介绍多个时间序列之间的回归问题。
在时间序列模型中,最简单的模型是静态模型(static model):
$$
y_t = \beta_0 + \beta_1 x_t + u_t, t = 1, 2, \ldots, n.
$$
在该模型中,“静态”意味着模型考虑的是 $y$ 和 $x$ 之间的同期关系(比如做多因子时序回归检验)。与之相对应的是有限分布滞后模型(finite distributed lag model,FDL)。例如,一个$q$阶FDL模型为:
$$
y_t = \alpha_0 + \delta_0 x_t + \delta_1 x_{t-1} + \cdots + \delta_q x_{t-q} + u_t,
$$
式中 $\delta_0$ 为当期的 $x$ 对 $y$ 的影响,它被称为 impact propensity;而全部系数之和,即 $\delta_0 + \cdots + \delta_q$,则称为 long-run propensity。
不同于截面回归,时间回归的难点在于各种(自、他)相关性的处理:包括解释变量的自相关性、随机扰动(error)的自相关性;前、后不同时期解释变量和 error 的协相关性等。因此,在通过回归分析时间序列时需要格外小心,避免得到错误的统计推断结果。
本文的主要内容包括,有限样本下OLS估计量的性质、大样本下OLS估计量的渐近性质,error 自相关性和偏稳态误差、error 异方差性问题、伪回归、调整及其推断以及误差修正模型。本文的 technique 部分主要参考了 Wooldridge 的神书《Introductory Econometrics: A Modern Approach》,特此说明。
1 Finite Sample Properties of OLS
在有限样本下,OLS的核心假设包括:
假设一(Linear in parameters) :总体中$x$和$y$满足线性关系:
$$
y_t = \beta_0 + \beta_1 x_{1t} + \cdots + \beta_k x_{kt} + u_t.
$$
假设二(No perfect collinearity) :解释变量之间不存在完美的共线性。
假设三(Zero conditional mean) :$\mathbb{E}[u_t|X] = 0, t = 1, 2, \cdots, n$。这意味着所有解释变量都是外生的,即任何解释变量,在任何时刻都和$u_t$不相关。
为了加强理解,我们再对假设三做一些说明。首先,这个假设中最重要的就是$u_t$和任何时刻的任何$x_{it}$都是不相关的。因此,$X$是严格外生的。如果$u_t$和$X$不相关且$\mathbb{E}[u_t] = 0$,则该条件设自动成立。在上述三条假设下,OLS估计量是无偏的,即$\mathbb{E}[\hat{\beta}j] = \beta_j, j = 0, 1, \cdots, k$。然而,如果$u_t$仅和同期的解释变量$x, \forall j$之间满足$\mathbb{E}[u_t|x_{tj}] = 0, \forall j$,则称$x_{tj}$是同期外生的。它对于假设三而言是一种放松。在同期外生假设下,OLS估计量是一致的,但(对于有限样本来说)不是一定是无偏的。
除上述三条假设外,再考虑下面两个假设:
假设四(Homoskedasticity) :同方差,即
$$
\text{var}(u_t|X) = \text{var}(u_t), t = 1, 2, \cdots, n.
$$
假设五(No serial correlation) :$\text{corr}(u_t, u_s|X) = 0, \forall t \neq s$。该假设是关于$u_t$ error自相关性的。它对解释变量的自相关性不做任何假设。(解释变量存在自相关性也是时序回归模型的特点之一。)
上述全部五条假设正是时序回归模型的Gauss-Markov假设。当这些假设均成立时,
$$
\text{var}(\hat{\beta}_j) = \frac{\sigma2}{SST_j(1-R_j2)}, j = 1, \cdots, k,
$$
其中 $SST_j$ 是 $x_{tj}$ 的 total sum of squares,$R_j^2$ 是把 $x_j$ 对其他解释变量回归的 R-squared。 此外,以下这个常见的 error 方差估计量也是无偏的:
$$
\hat{\sigma}^2 = \frac{SSR}{n-k-1},
$$
其中 $n$ 是观测数,$k$ 是解释变量的个数。且 Gauss-Markov 定理指出,在上述五条假设都满足下,OLS 是 BLUE。
此外,和截面回归一样,如果要进行统计推断,就必须假设 error 的分布。这就引出了第六条假设,即 $u_t$ 和解释变量 $X$ 完全独立,且满足 iid 正态分布 $N(0, \sigma^2)$。全部六条假设构成了时序回归的 Classical Linear Model (CLS) assumptions。在这些假设下,我们可以像截面回归一样,使用 t-statistic 来检验单一解释变量的回归系数,用 F-statistic 来同时检验多个解释变量的回归系数。
2 Asymptotic Properties of OLS
2.1 平稳性和相关性
对于绝大多数实际问题而言,前一节的 Gauss-Markov 假设都太严苛了,难以满足 (特别是解释变量序列外生)。因此,比起考察有限样本下 OLS 估计量的渐近性,我们自然更关心大样本下 OLS 估计量的渐近性质。不过理论的是,对于时序回归模型而言,我们往往很难有足够多的样本。(比如用月频数据检验一个多因子模型,那么每年才有12个样本,50年也才有600个样本。) 不幸的是,时序回顾的大样本分析比截面数据分析复杂得多。我们需要格外小心数据的特性。为此,我们首先来回顾平稳性和相关性的概念。
如果随机过程 $x_t : t = 1, 2, \cdots$ 在任意时刻的分布是一样的, 就说它满足平稳性。严格的平稳性是非常强的假设。通常,如果 $E[x_t]$ 和 $\text{var}(x_t)$ 不随时间变化,且 $\text{cov}(x_t, x_{t-h})$ 不随 $h$ 变化, 我们就说它是协方差平稳的 (covariance stationary process)。在直观上, 平稳性的要求不难理解: 如果我们希望通过回归分析来解释两个变量之间的关系, 则需要这种关系在时间上是稳定的。如果不仅仅有关于时间内存在的一个 realization (比如"历史无法重现"), 那么虽然无法指望能通过时序回归模型挖掘出一些之间的规律关系。
对于一个平稳序列, 如果 $x_t$ 和 $x_{t-h}$ 随 $h$ 的增加而呈递减趋势的, 那么我们称它满足相关性。
对于上面提到的协方差平稳过程, 如果 $\text{corr}(x_t, x_{t-h})$ 随 $h$ 的增加而递减趋近于 0, 则它也称为遍历相关性 (trend-stationary process)。
2.2 渐近性质
一旦平稳性和弱相关性得到满足,大数定律和中心极限定理就可以适用,因此在大样本下可以获得 OLS 估计量的一些良好性质,从而帮助分析 $x_t$ 和 $y_t$ 之间的关系。下面我们来看看大样本下,OLS 估计量的渐近性质。首先来看假设:
假设一(Linear in parameters) :这一条和前一节的假设一相同。除此之外,我们假设 ${x_t, y_t}$ 满足平稳性和弱相关性。
假设二(No perfect collinearity) :解释变量之间不存在完美的共线性。
假设三(Zero conditional mean) :$\mathbb{E}[u_t|x_t] = 0, t = 1, 2, \cdots, n$。相比于前一节中的假设三,此处把它松松到期外生,即 $u_t$ 和解释变量 $x_t$ 的独立性了。相比于严格外生,这一条要弱很多,只限制同期的相关性,而对于 $u_t$ 和任何时刻的解释变量之间的关系不做任何假定。平稳性满足时,如果 $\mathbb{E}[u_t|x_{t-h}] = 0$ 对某一期 $h$ 成立,则它对所有的 $t = 1, 2, \cdots, n$ 都成立。然而,这条假设下允许 $t$ 期的 $u_t$ 影响未来的解释变量 $x_{t+h}$。
当以上三条假设均满足时,OLS 估计量是一致的,即 $\text{plim}(\hat{\beta}_j) = \beta_j, j = 0, 1, \cdots, k$。需要注意的是,由于上述假设放松了解释变量的外生性,因此我们只能在大样本下得到 OLS 估计量的一致性,而无法得出无偏性。
接下来,和本文第 1 节一样,再加上假设四和假设五:
假设四(Homoskedasticity) :同方差,即
$$
\text{var}(u_t|X) = \text{var}(u_t), t = 1, 2, \cdots, n.
$$
假设五(No serial correlation) :$\text{corr}(u_t, u_s|x_t, x_s) = 0, \forall t \ne s$。
当上述五个假设都满足时,OLS 估计量在大样本下表现出很好的渐近性质:(1)OLS 估计量满足渐近正态分布;(2)所有相关的 t-statistic 和 F-statistic 都是渐近成立的;(3)OLS 是渐近有效的,即它的方差相比于其他估计量的方差更低。
3 Error Serial Correlation
由以上介绍可知,error 存在自相关并不影响 OLS 估计量的无偏性。然而,它会影响 $\hat{\beta}$ 的方差的估计。在这种情况下,所有相应的 test(例如 t-test, F-test)哪怕在大样本下也没有好的渐近性质。因此,对于统计推断而言,检验并应对 error 的自相关性十分必要。
3.1 自相关性检验
一般来说,我们可以检验 error 是否满足 AR(1) 过程。此时,取决于解释变量是否严格外生,又分为两种情况。首先假设解释变量严格外生,则可以通过如下的步骤检验:
Step 1: 用 $y_t$ 对 $x_t$ 时序回归,得到残差序列 ${\hat{u}_t}$。
Step 2: 用 $\hat{u}t$ 对 $\hat{u}$ 时序回归,即 $\hat{u}t = \rho \hat{u} + e_t, t = 2, \cdots, n$。
Step 3: 考察回归系数 $\rho$ 的 t-statistic,并进行统计推断。如果拒绝原假设 $H_0 : \rho = 0$,则说明 error 存在自相关性。
值得一提的是,上述第二步中的自回归模型中假设了 $e_t$ 满足同方差。如果 $e_t$ 不满足该性质,可以使用 Breusch-Pagan test 来检验异方差性(见本文第 4 节)。如果存在异方差,则可以计算 $\rho$ 的 heteroskedasticity-robust standard error,从而得到 heteroskedasticity-robust t-statistic。
除了上述方法外,另一个常见的检验是 Durbin-Watson Test (DW Test, 比如 Python 的 OLS 回归结果会返回 DW test 的值)。该统计量为:
$$
DW = \frac{\sum_{t=2}^n (\hat{u}t - \hat{u})2}{\sum_{t=1}n \hat{u}_t^2}
$$
通常情况下,$\rho$ 和 $DW$ 统计量近似满足如下关系:$DW \approx 2(1 - \hat{\rho})$。因此,如果 $DW$ 统计量接近 2,则说明 error 没有自相关性。
接下来看看解释变量不是完全外生的情况。在这种情况下,上述检验不再有效(及时在大样本下也是如此),因此不能使用。此时,可以将上述三步走中的第二步改为如下的回归模型:
$$
\hat{u}t = \beta_0 + \beta_1 x + \cdots + \beta_k x_{kt} + \rho \hat{u}_{t-1} + e_t,
$$
即使用 $\hat{u}t$ 对 $x_t$ 以及 $\hat{u}$ 进行时序回归。之后,便可以对 $\rho$ 进行常规的统计推断。此外,上述检验也可以方便地拓展到残差满足 $AR(q)$ 的情况,即在第二步考虑如下回归模型:
$$
\hat{u}t = \beta_0 + \beta_1 x + \cdots + \beta_k x_{kt} + \rho_1 \hat{u}{t-1} + \cdots + \rho_q \hat{u} + e_t, t = 2, \cdots, n.
$$
然后,可以使用 F test 检验 $\rho_1$ 到 $\rho_k$ 是否联合显著。如果异方差存在,则同样可以使用 heteroskedasticity robust F-statistic。此外,也可以使用 Lagrange Multiplier (LM) statistic, 这种检验也称为 Breusch-Godfrey test, 它的检验统计量是 $LM = (n - q) R^2$,其中 $R^2$ 是上述第三步中的 Goodness-of-fit。
3.2 修正 Error 自相关性
如果 error 存在自相关性,我们可以对它进行处理。假设 error 是一个 AR(1) 过程且 $\rho$ 已知:
$$
u_t = \rho u_{t-1} + e_t, \forall t = 1, 2, \cdots.
$$
由上述模型可知 $\text{var}(u_t) = \sigma_e^2 / (1 - \rho^2)$。由于 $\rho$ 已知,因此对原始的时序列模型变形可得(为了简化数学公式,假设只有一个解释变量,多解释变量的情况可以非常容易的扩展):
$$
y_t - \rho y_{t-1} = (1 - \rho) \beta_0 + \beta_1 (x_t - \rho x_{t-1}) + e_t, t \ge 2 \
(1 - \rho2) y_1 = (1 - \rho2) \beta_0 + (1 - \rho2) x_1 + (1 - \rho2) u_1
$$
上述变形后得到的估计量为 GLS 估计量,它是 BLUE,因此 t test 和 F test 都可以正常使用。 GLS 估计量中假设 $\rho$ 已知。然而,在实际问题中,处理不是不切实际的,因此只能对 $\rho$ 进行估计,得到 $\hat{\rho}$。在这种情况下,上述 GLS 变成 feasible GLS (FGLS)。假设 error 满足某个参数未知的 AR(1) 过程,则 FGLS 的步骤为:
Step 1: 用 $y_t$ 对 $x_t$ 时序回归,得到残差序列 ${\hat{u}_t}$。
Step 2: 用 $\hat{u}t$ 对 $\hat{u}$ 时序回归,即 $\hat{u}t = \rho \hat{u} + e_t, t = 2, \cdots, n$。
Step 3: 考虑如下回归模型(注意:该模型没有截距项):
$$
\hat{y}_t = \hat{\beta}_0 \hat{x}_0 + \beta_1 \hat{x}_1 + \cdots + \beta_k \hat{x}_k + error_t,
$$
其中:
$$
\hat{x}0 = (1 - \hat{\rho}), \forall t \ge 2; \
\hat{x} = (1 - \hat{\rho}2); \
\hat{x}{1j} = x - \hat{\rho} x_{t-1,j}, \forall t \ge 2; \
\hat{x}{1j} = (1 - \hat{\rho}2) x; \
\hat{y}t = y_t - \hat{\rho} y, t \ge 2; \
\hat{y}_1 = (1 - \hat{\rho}2) y_1.
$$
在这个回归模型中,t test 和 F test 都在大样本下是渐近有效的。
上述模型看上去如此复杂是因为 $\rho = 1$ 是第一个点,因此没法去消除 error 自相关性的影响,所以对它进行了特殊处理。上述这个考虑了时序上的第一个点的 FGLS 也被称为 Prais-Winsten estimation。此外,也可以舍弃第一个点,那么上述回归将从 $t = 2$ 开始,表达式也会更加简单,它被称为 Cochrane-Orcutt estimation。对于很多经济学问题,时序样本点很是宝贵,因此通常会舍弃第一个点而采用 PW estimation。
无论 $\rho = 1$ 与否,即无论我们用 GLS 还是 FGLS 还是修正了残差自相关性,上述的核心假设都是解释变量是完全外生的。当这个假设得以满足时,FGLS estimator 即为一致性。换句话说,倘若不能将 FGLS 可能还不如 OLS 好使。最近几年来,人们更倾向于仍然使用 OLS,但此时即便存在自相关性,也会需要进行 serial correlation-robust inference。
3.3 Serial Correlation-Robust Inference for OLS
考虑如下时序回归模型:
$$
y_t = \beta_0 + \beta_1 x_{1t} + \cdots + \beta_k x_{kt} + u_t.
$$
为了方便讨论,假设我们关心 $\beta_1$ 并希望得到它的 serial correlation-robust standard error。为此,可以采取如下步骤:
Step 1: 进行 OLS 回归,得到 $\hat{\beta}_1$ 的 standard error,记为 “s.e.( $\hat{\beta}_1$ )”,同时得到 $\hat{u}$ 以及残差序列 ${\hat{u}_t}, t = 1, 2, \cdots, n$。
Step 2: 以 $x_{1t}$ 为被解释变量(因为我们关心的是 $\beta_1$),以其他 $x_{2t}, x_{3t}, \cdots, x_{kt}$ 为自变量,构造如下回归模型:
$$
x_{1t} = \delta_0 + \delta_2 x_{2t} + \cdots + \delta_k x_{kt} + \hat{r}_t.
$$
Step 3: 利用 OLS 得到 $\hat{u}_t^2$ 的残差序列 ${\hat{\nu}_t}$。用该序列和 ${u_t}$ 序列相乘得到新的序列
$$
{\hat{a}_t = \hat{\nu}_t \hat{u}_t}, t = 1, 2, \cdots, n.
$$
Step 4: 选定希望考虑的自相关 lags $g$,计算变量 $\hat{\nu}$(有没有想起 Newey-West):
$$
\hat{\nu} = \sum_{t=1}^n \hat{a}t^2 + 2 \sum^g \left[ 1 - \frac{h}{g+1} \right] \left( \sum_{t=h+1}^n \hat{a}t \hat{a} \right).
$$
Step 5: 使用以下公式得到 $\hat{\beta}_1$ 的 serial correlation-robust standard error:
$$
\text{s.e.}(\hat{\beta}_1) = \left( \frac{\text{“s.e.}(\hat{\beta}_1)”}{\hat{\sigma}} \right)^2 \sqrt{\hat{\nu}}.
$$
通常情况下,如果 error 确实存在自相关性,那么上述得到的 standard error 会大于 OLS 的 standard error。当 error 自相关非常严重时,使用上述方法得到的 standard error 往往非常大,导致回归系数不再显著。在实践中,如果能够合理地认为解释变量是完全外生的话,则建议使用 FGLS;反之,如果我们对解释变量的外生性存在非常强烈的疑问时,可以选择 OLS + serial correlation-robust standard error。
4 Heteroskedasticity
异方差意味着 error 的波动随 $x$ 发生变化。例如,在我们以收益率为被解释变量进行时序回归时,几乎可以肯定 error 存在异方差性。为此,可以使用 Breusch-Pagan test 来检验异方差。不过需要注意的是,该检验的前提是必须保证 error 没有自相关性。所以,通常为了检验异方差,也要先检验自相关性。
Breusch-Pagan test 的步骤总结如下:
Step 1: 通过 OLS 估计原始回归模型,得到残差序列 ${\hat{u}_t}$:
$$
y_t = \hat{\beta}_0 + \hat{\beta}1 x + \cdots + \hat{\beta}k x + \hat{u}_t.
$$
Step 2: 使用 $\hat{u}^2$ 作为被解释变量,并考虑如下回归模型,计算其 R-squared,记为 $R_{\hat{u}2}2$:
$$
\hat{u}^2 = \delta_0 + \delta_1 x_{1t} + \cdots + \delta_k x_{kt} + e_t.
$$
Step 3: 构建 F-statistic 或 LM-statistic 如下:
$$
\text{F-statistic} = \frac{R_{\hat{u}2}2 / k}{(1 - R_{\hat{u}2}2) / (n - k - 1)} \sim F_{k, n - k - 1},
$$
$$
\text{LM-statistic} = n R_{\hat{u}2}2 \sim \chi_k^2.
$$
Step 4: 根据 F-statistic 或 LM-statistic 判断是否拒绝原假设(原假设是没有异方差)。如果存在异方差,那么它虽然不会影响回归系数的无偏性,但是会影响 standard errors,因此应使用 heteroskedasticity-robust standard errors。
5 伪回归
5.1 I(1) 序列
从上面的论述可知,大样本下 OLS 满足良好渐近性质的关键条件是时间序列满足平稳性和弱相关性。对于有些时间序列,其前后满足强相关性(比如股票价格),这时就应该进行必要的处理。不满足弱相关性的一个例子是随机游走(Random Walk):$y_t = y_{t-1} + e_t$,其中 $e_t$ 是 iid 的白噪声。从这个模型中可以推出 $y_t = e_t + e_{t-1} + \cdots + e_1 + y_0$,因此 $\mathbb{E}[y_t] = \mathbb{E}[y_0]$,这意味着不管 t 多大,0 时刻的取值 $y_0$ 都对 $y_t$ 有着无法磨灭的影响。更进一步的可以推出:
$$
\mathbb{E}[y_{t+h} | y_t] = y_t, \forall h \ge 1,
$$
$$
\text{corr}(y_t, y_{t+h}) = \sqrt{\frac{t}{t+h}}.
$$
随机游走是一个特殊的 unit root process。更一般的情况下,$y_t = y_{t-1} + e_t$ 中的 $e_t$ 可以不是 iid,而是某个 AR 或者 MA 过程。在这种更一般的情况下,random walk 的一些性质不再满足。然而不变的是,$y_t$ 序列之间的相关影响依然不能随时间间隔的增大而消除,因此它依然是不平稳的。Unit root process 的整阶阶数为 1,因此是一个 $I(1)$ 序列。而一个平稳序列的单位根阶数应是 0,又称为 $I(0)$ 序列。
满足强相关性的时间序列是 $I(0)$。如果解释变量和被解释变量都是 $I(0)$,则可以直接进行时序回归。而对于 $I(1)$ 的序列,通常的做法是通过一阶差分,把它转化成 $I(0)$ 的序列,然后再进行回归分析。
5.2 伪回归
如果贸然对两个 $I(1)$ 序列进行时序回归分析,则有可能落入伪回归 (spurious regression) 的陷阱。伪回归指的是自变量和因变量之间本来没有任何关系,但由于某种原因,回归分析却显示出它们之间存在统计意义上的相关性,让人误以为两者之间有关系,这种相关性称作伪关系 (spurious relationship)。
来看下面这个例子。假设 ${x_t}$ 和 ${y_t}$ 是两个从零开始的随机游走:
$$
x_0 = 0 \
x_t = x_{t-1} + a_t, \
y_0 = 0 \
y_t = y_{t-1} + e_t,
$$
其中 $a_t$ 和 $e_t$ 是两个独立的白噪声,满足 $N(0, 1)$。由上述定义可知,${x_t}$ 和 ${y_t}$ 两个时间序列也是相互独立的。然而,如果我们对它们回归模型 $y_t = \beta_0 + \beta_1 x_t + u_t$ 会怎样呢?以下给出了一个模拟的例子。可以看到两个时间序列回归下 R-squared 很高,而回归系数 $\hat{\beta}_1$ 的 t-statistic 甚至超过 13。
伪回归是因为两个 $I(1)$ 序列的时序回归很容易出问题,从而回归分析误显示出它们之间存在统计关系。我们称两个 $I(1)$ 序列之间存在协整关系 (cointegration),如果它们的线性组合是一个 $I(0)$ 序列。协整关系保证了虽然两个 $I(1)$ 序列本身是非平稳的,但是它们之间存在某种稳定的长期关系。检验协整关系的方法包括 Engle-Granger 二步法和 Johansen 检验等。
然而事实是,by design 这两个序列之间是相互独立的。那么,下面这种解释有没有可能:“由于噪声,这两个序列之间相互独立或许是假设检验中的小概率事件”?如果这个解释成立,那么如果我们进行大量的随机模拟,并以 2.0 作为 t-statistic 绝对值的阈值,那么应该仅在 5% 的随机模拟中看到两者的相关性。不幸的是,模拟结果否决了上述猜想。在模拟的 500 次实验中,t-statistic 绝对值超过 2.0 的情况出现比例超过 70%(下图展示了 t-statistic 绝对值的分布)显然,回归模型所发现的二者之间的关系是虚假的。这个现象最初被 Granger and Newbold (1974) 发现,他们将其称为伪回归。
当我们用 $y_t$ 对 $x_t$ 回归时,究竟发生了什么呢?对于模型 $y_t = \beta_0 + \beta_1 x_t + u_t$ 而言,在假设 $\beta_0 = 0$ 下有 $y_t = \beta_1 x_t + u_t$。由于 ${y_t}$ 是从零开始的随机游走,因此假设 $\beta_0 = 0$ 实际上是要求 $u_t = \sum_{j=1}^t e_j$。换言之,在原假设下,模型中的 error term 是一个随机游走 $u_t = \sum_{j=1}^t e_j$。显然无论在有限样本还是大样本下,这个 error 都不满足 Gauss-Markov 假设。
这个例子说明,在进行回归分析之前,应该首先检验时间序列是否满足平稳性。为此,可以考虑使用 Augmented Dickey-Fuller test。对于给定的时间序列,例如 ${y_t}$,该 test 考察如下回归模型:
$$
\Delta y_t = \alpha + \lambda y_{t-1} + \delta_1 \Delta y_{t-1} + \cdots + \delta_p \Delta y_{t-p+1} + e_t,
$$
在上述式中,如果时间序列 ${y_t}$ 存在单位根,则 $\lambda = 0$。ADF 检验的原假设是 $\lambda = 0$,备择假设 $\lambda < 0$。如果 ${y_t}$ 满足平稳性,则 ADF 检验统计量显著为负。因此当该统计量显著为负时,才能在对应的显著性水平下拒绝原假设,接受备择假设(所以可以理解为,检验统计量越负越好)。那么,伪回归现象的存在是否意味着两个 $I(1)$ 时间序列之间无法进行回归分析呢?答案也是否定的。这就要讲述下一个话题:协整。
6 Cointegration
6.1 Cointegration
考虑两个 $I(1)$ 时间序列 ${x_t}$ 和 ${y_t}$。有前面的论述可知,一般情况下,这两个序列的线性组合仍然是一个 $I(1)$ 过程,不满足平稳性。然而,如果存在某个系数,使得 $y_t$ 对 $x_t$ 回归的 error 是一个 $I(0)$ 过程(即满足平稳性),那么就称 ${x_t}$ 和 ${y_t}$ 协整 (cointegration)。
当协整发生时,这两个序列的随机过程能够抵消掉的原因是它们共享某个共同的长期趋势(共同的原因)。在这种情况下,两个序列才可能存在均衡关系。它们的线性组合会相对满足平稳性。协整关系的重要性在于它允许人们使用非平稳数据进行回归分析,同时获得有意义的经济解释和预测。如果我们有两个时间序列,可以通过 Engle-Granger 两步检验检验协整;而当研究对象为多个时间序列时,则可以使用 Johansen 检验。
为了简单起见,以下通过一个例子介绍 Engle-Granger test。
6.2 Engle-Granger Test
对于两个 $I(1)$ 序列 ${x_t}$ 和 ${y_t}$,Engle-Granger 两步法十分简单直观:
Step 1: 用 $y_t$ 对 $x_t$ 回归:
$$
y_t = \beta_0 + \beta_1 x_t + u_t,
$$
并得到残差 $\hat{u}_t$。
Step 2: 对残差 $\hat{u}_t$ 进行 "ADF" 检验,考察其是否满足平稳性。这里之所以在 ADF 上加引号,是因为原始 ADF 是检验单一时间序列是否满足平稳性的,而此处我们的 $\hat{u}_t$ 是两个 $I(1)$ 回归的残差,因此检验 $\hat{u}_t$ 时使用的检验统计量的 critical values 和一般的 ADF 检验稍有区别。为此,应该使用 Phillips and Ouliaris (1990) 给出的 critical values。
下面就用一个例子来介绍一下。我们研究的对象是 AUDUSD 和 NZDUSD 这两个 forex rates,前者是澳大利亚元对美元的汇率,后者是新西兰元对美元的汇率。首先,我们使用 ADF 检验来确认这两个时间序列本身都是 $I(1)$。结果(下表)显示,对于这二者,它们的原始序列都不满足平稳性,而一阶差分均满足平稳性,因此它们都是 $I(1)$。
接下来,进行 Engle-Granger Test。结果显示,回归模型的残差的 ADF 检验拒绝了原假设(p-value = 0.018),意味着残差满足平稳性,因此 AUDUSD 和 NZDUSD 协整。通过绘制残差(下图),我们也确实可以看到,它在一定的区间内平稳运行,呈现出均值回复的特性。
利用残差的均值回复特性,我们可以构造这两个汇率的配对交易策略。其大体思路是:
- 当残差的 Z-Score 大于上阈值时,建立做空头寸,做空残差。
- 当残差的 Z-Score 小于下阈值时,建立做多头寸,做多残差。
- 当残差的 Z-Score 回到均值时,平仓。
以下给出了 1 作为阈值时的回测结果。
最后想要强调的是,这个例子仅仅是为了说明协整在金融市场实际应用中的作用。需要特别注意的是,在上面的回测中,构造协整模型的实证区间和回测的实证区间是一样的,因此对于构造策略而言,在估计回归系数 时存在 look-ahead bias。在实际应用中,应使用滚动窗口和 PIT 数据来进行样本外回测。
6.3 统计推断
即便暂时把 look-ahead bias 的问题放到一边,在上面构造协整的例子中,另一个需要关心的问题是 $\hat{\beta}$ 的统计推断问题(因为我们要依赖它构造残差/价格,从而构造交易策略)。一般来说,即使 $\hat{\beta}$ 是均为零的 $I(0)$,但它通常有自相关性($y_t$ 和 $x_t$ 之间的协整并不影响 $\hat{\beta}$ 的自相关性)。尽管这并不影响估计量的一致性,但由于 $x_{1t}$ 和 $y_t$ 是 $I(1)$,因此常见的统计推断方法对 $\hat{\beta}$ 进行统计推断。为此,通过构造 $x_{1t}$ 的变换,构造新的 error term,考察其统计性质。假设 $\Delta x_t = x_t - x_{t-1}$ 和 $x_t$ 不相关($\forall t, s$)。因此,我们可以回归 $\Delta y_t$ 与 $\Delta x_t$ 的形式式:
$$
u_t = \eta + \phi_0 \Delta x_t + \phi_1 \Delta x_{t-1} + \phi_2 \Delta x_{t-2} + \gamma_1 \Delta x_{t+1} + \gamma_2 \Delta x_{t+2} + e_t,
$$
其中前两个考虑两期为示例。通过上述构造,我们希望新的 error $e_t$ 与式中的每个 $\Delta x_t$ 都不相关。对此,原始的回归模型变换为:
$$
y_t = \alpha_0 + \beta_1 x_t + \phi_0 \Delta x_t + \phi_1 \Delta x_{t-1} + \phi_2 \Delta x_{t-2} + \gamma_1 \Delta x_{t+1} + \gamma_2 \Delta x_{t+2} + e_t.
$$
上述变换的核心是,保证了 $x_{1t}$ 的回归系数依然是 $\beta$,且通过构造,在变换之后的模型中现在是严格外生的,因此可以用常规方法对 $\beta$ 进行统计推断。因此,通过增加 $\Delta x_t$ 解决了 $x_t$ 和 $u_t$ 之间的任何同期内的内生问题,而基于上述模型得到的估计量也被称为 leads and lags estimator。在实际应用中,需要包含多多少 lags 项是一个 empirical choice:每当多添加一项,我们就会失去一个观测样本。很多时候,这个代价对时序列分析而言非常昂贵。
最后,在新的回归模型中,error 依然可能存在自相关性。为此,可以考虑本文第 3 节介绍的方法进行处理或修正。
7 Error Correction Model
构筑在协整关系之上,误差修正模型(Error Correction Model, ECM)是处理非平稳序列的另一个重要工具。协整分析揭示了多个时间序列之间的长期均衡关系,而误差修正模型则希望在此基础上同时捕捉短期动态和长期均衡之间的平衡。
为此,我们从短期动态模型出发:
$$
\Delta y_t = \alpha_0 + \alpha_1 \Delta y_{t-1} + \gamma_0 \Delta x_t + \gamma_1 \Delta x_{t-1} + u_t,
$$
其中 $\Delta y_t$ 和 $\Delta x_t$ 分别表示 $y_t$ 和 $x_t$ 的一阶差分,捕捉了它们的短期波动。当然,我们也可以不考虑滞后项,从而进一步简化该模型:
$$
\Delta y_t = \alpha_0 + \gamma_0 \Delta x_t + u_t.
$$
然而,这个模型没有考虑二者之间的长期均衡关系。如果它们之间满足协整,那么可以在上述模型中引入$s_{t-1} = y_{t-1} - \beta_0 - \beta_1 x_{t-1}$,表示长期均衡关系的偏离,并得到误差修正模型(注意新引入的 term 的 time index 是 $t-1$):
$$
\Delta y_t = \alpha_0 + \gamma_0 \Delta x_t + \delta s_{t-1} + u_t,
$$
将 $s_{t-1} = y_{t-1} - \beta_0 - \beta_1 x_{t-1}$ 代入,模型最终可以写为:
$$
\Delta y_t = \alpha_0 + \gamma_0 \Delta x_t + \delta (y_{t-1} - \beta_0 - \beta_1 x_{t-1}) + u_t,
$$
其中 $\delta$ 是误差修正项的系数。在该模型中,$\gamma_0 \Delta x_t$刻画了 $x_t$对 $y_t$的短期影响,即当期 $x_t$变动对当期 $y_t$变动的影响;$\delta s_{t-1}$则刻画了系统对长期均衡偏离的调整过程。当 $\delta < 0$时,系统会朝向均衡状态调整。换句话说,如果 $y_{t-1}$和 $x_{t-1}$偏离了长期均衡关系,那么该项会促使 $y_t$在未来逐步回归均衡状态,调整速度由 $\delta$决定。
最后,如果我们考察 $AUDUSD$和 $NZDUSD$之间的 ECM 模型结果,则可以看到长期均衡关系的回归系数 $\delta$确实小于零,且高度显著。
8 结语
本文是对《写给你的时间序列分析》系列的一个必要补充。
从本文 cover 的内容可知,时间序列回归分析并非是简单地将两个序列进行回归处理,而是一个需要精心设计和仔细考量的过程。每一步都涉及到对数据特性的深入理解和对模型假设的严格检验。从平稳性检验到误差修正模型的构建,每个环节都至关重要。只有在确保数据满足必要条件的前提下,才能进行可靠的回归分析,避免伪回归和误导性的结论。唯有通过系统的分析方法和严谨的统计推断,我们才有望揭示时间序列数据中的真实关系。
参考文献
Granger, C. W. J. and P. Newbold (1974). Spurious regressions in econometrics. Journal of Econometrics 2(2), 111–120.
Wooldridge, J. M. (2012). Introductory Econometrics: A Modern Approach (5th Ed.). South-Western, Cengage Learning.
免责声明: 入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。
川总写量化
分享量化理论和实证心得
标签:假设,回归,写给,beta,error,序列,转载,hat From: https://www.cnblogs.com/guozz/p/18283816/reprinted-financial-time-sequence-analysis-writte