2.一般回归分析和模型设定
问题1:
- 辨别相关性是不是因果关系
- 统计关系:预测关系
- 经济关系:因果关系
问题2:
- 一般归回分析和线性回归模型
问题3:
- 线性回归模型的系数
coefficients
的经济意义
回归分析是研究变量Y和变量X之间关系的常用工具。
- 用于考察X对Y的影响
- 用X的信息预测Y
2.1.条件概率分布
联合分布函数很适合用来描述变量Y和变量X之间关系。联合分布函数有几个很好的性质:
- 如果\((Y,X')'\)是连续随机向量,X的边际概率密度函数是:$$f_X(x)=\int_{-\infty}^{\infty}f_{XY}(x,y)dy$$
- 再给定\(X=x\),Y的条件概率密度函数是:$$f_{Y|X}(y|x)=\frac{f_{XY}(x,y)}{f_X(x)}$$其中:\(f_X(x) \gt 0\)
如果给定了X,那么我们使用几个关键工具来分析这个关系:
- 条件均值(一阶矩): \(E(Y|x) \equiv E(Y|X=x)\)
- 条件方差(二阶矩): \(var(Y|x) \equiv var(Y|X=x)=E(Y^2|x)-[E(Y|x)]^2\)
- 条件偏度
conditional skewness
(三阶矩): \(S(Y|x)\equiv\frac{E(Y-E(Y|x)^3)|x]}{var(Y|x)^{3/2}}\) - 条件峰度
conditional kurtosis
(四阶矩): \(K(Y|x)\equiv\frac{E(Y-E(Y|x)^4)|x]}{var(Y|x)^{2}}\) - 条件\(\alpha\)-分位数
conditonal α-quantile
\(Q(x,α)\),有\(P[Y \le Q(X,\alpha)|X=x]=\alpha \in (0,1)\)
2.2.条件均值与回归分析
定义2.1 回归函数
Regression Function
条件均值\(E(Y|X)\)称为Y对X的回归函数。
可以得到如下几个性质:
- 定理 2.1 \(E[E(Y|X)]=E(Y)\)
- 定理 2.2 重复期望法则 \(E[G(X,Y)]=E\{E[G(X,Y)|X]\}\)
- \(G(X<Y)\)给定的可测函数
- 假设\(E[G(X<Y)]\)存在
回到最初的问题——如何用X来预测Y?
- 上帝模式:\(G(X)=Y\)
- 但是我们不是上帝,只能假设一个他们之间的函数,比如\(g(X)\)。
那么,如何判断\(g(X)\)接近\(Y\)的程度呢?
定义2.2 均方误
Mean Squared Error(MSE)
假设用函数\(g(X)\)来预测\(Y\),均方误就是:\(MSE(g)=E[Y-g(X)]^2\)
当一个函数的\(MSE\)越小,说明这个函数预测\(Y\)的能力越好。
那什么函数的\(MSE\)最小呢?
- 定理 2.3 MSE最优解是条件均值\(E(Y|X)\),即:$$E(Y|X)=arg \min_{g \in \Bbb F }MSE(g)$$
- 其中,\(\Bbb F\)是所有可测的和平方可积的函数的集合 #todo
还可用平均绝对误差
Mean Absolute Error(MAE)
作为衡量准则,最优解是条件中位数
如何将这些特性用于预测Y呢?
定义 2.3 回归等式
Regression Identity
给定条件均值\(E(Y|X)\),总有$$Y=E(Y|X)+\epsilon$$其中:\(\epsilon\)称为回归扰动项
regression disturbance
,满足\(E(\epsilon|X)=0\)
其中:
- \(\epsilon\):称为噪声,代表随机变量\(Y\)中没有被条件均值\(E(Y|X)\)解释的部分
- \(E(Y|X)\):称为信号,可以根据它用X来预测Y
- 另外,还有一个性质是:\(E[\epsilon h(X)]=0\)
- 意思是:不能用任何形式的函数\(h(X)\)来预测\(\epsilon\)的条件均值,无论线性还是非线性函数。
- 如果\(var(\epsilon|X)=\sigma^2 \gt 0\),称\(\epsilon\)为条件同方差
conditional homoskedasticity
- 如果\(var(\epsilon|X) \ne\sigma^2 \gt 0\),称\(\epsilon\)为条件异方差
conditional heteroskedasticity
上一篇:1前言&导论
标签:设定,函数,epsilon,回归,笔记,计量经济学,条件,var,MSE From: https://www.cnblogs.com/watalo/p/17432930.html