回归分析的任务就是:通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
常见的回归有5类:
- 线性回归
- 0-1回归
- 定序回归
- 计数回归
- 生存回归
其划分的依据是因变量Y的类型
相关性
首先要区分相关性不等于因果性,比如研究表明雪糕销量越高游泳死亡人数就越高,这两个确实是有相关性的,但是并不能说有因果性。
在绝大多数情况下,我们没有能力去探究严格的因果关系,所以只好退而求其次,改成通过回归分析,研究相关关系。
Y
Y也就是因变量,实际应用中,需要研究的那个变量。
X
自变量,用来解释因变量的相关变量
回归分析主要做什么
- 回归分析要去识别并判断:那些X变量是同Y真的相关,哪些不是。这是统计学中重要的领域:变量选择(逐步回归法)
- 那些与Y有关的X,相关关系是正的还是负的
- 确定了有关的X变量后,还想赋予不同X不同的权重,也就是不同的回归系数,进而可以知道不同变量之间的相对重要性。
数据的分类
- 横截面数据:在某一时点收集的不同对象的数据
如:全国各省份2018年GDP的数据
多元线性回归 - 时间序列数据:对同一对象在不同时间连续观察所取得的数据
如:中国历年的GDP
移动平均,指数平滑,ARIMA,GARCH,VAR,协积 - 面板数据:横截面数据与时间序列数据综合起来的一种数据资源
如:2008‐2018年,我国各省份GDP的数据
固定效应和随机效应,静态面板和动态面板
一元线性回归
回归系数的解释
可以看到引入了新的自变量价格后,对回归系数的,影响非常大
原因:遗漏变量导致的内生性
内生性的探究
包含了所有与y相关但未添加到回归模型中的变量,如果这些变量与已经添加的自变量有关,则存在内生性
简单来说,与干扰项相关的变量成为内生变量,与干扰项不相关的变量成为外生变量,
例如一元线性回归中的X解释变量,Y被解释变量,u干扰项,一般来说关系即Y=aX+u,X与Y有关,X与u无关,Y与u有关,那这样的情况即X是内生变量,Y是外生变量
但是有的时候干扰项u会和X有关,解释变量有内生性会导致回归系数估计不准确。
内生性产生的原因
- 遗漏变量
与Y有关的所有变量都需要控制否则会参与到扰动项中,导致内生性 - 双向因果
X与Y相互影响,u直接影响Y,Y再影响到X - 测量误差
解释变量X存在测量误差
内生性的解决
所以怎么解决内生性的问题呢?
逻辑上首先想到的肯定是找出所有的变量,使得所有的解释变量都和扰动项无关,但是这个假设有时候会很强,因为解释变量可能会有很多甚至十几个。
但是是有弱化的方法的,可以通过引入工具变量实现:
内生性的蒙特卡罗模拟
%% 蒙特卡洛对内生性的模拟
times=500;
R=zeros(times,1); % x1与u的相关系数
K=zeros(times,1); % 只对x1回归得到的k值
for i=1:times
n=50;
x1=rand(n,1)*20-10; % [-10,10]的均匀分布
u=normrnd(0,1,n,1); % 扰动项u~N(0,1),构成n行1列的矩阵
% 构建x2与x1的关系(随便构造就行,只是演示)
u1=normrnd(0,5,n,1)-rand(n,1);
x2=0.2*x1+u1;
y=1+2*x1+4*x2+u;
% 然后只用x1来回归,最小二乘法估计
k=(n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1));
K(i)=k;
u=u+4*x2; % 竟然没有+=语法
r=corrcoef(x1,u); % x1和u的相关系数矩阵
R(i)=r(2,1); % 取二行一列
end
plot(R,K,"o");
xlabel("x1和u的相关系数");
ylabel("k值");
可以看到x和u相关系数小的时候,k值的估计还是比较集中的,而x和u的相关性很高的时候,k值的估计就很不稳定了,直接使用求出来的那一个值,肯定是不准确的
回归系数的解释
$Y=\Sigma_{i=1}^{n} \beta_i *X_i$
其实很容易理解,$\beta_i$指:其他自变量不变的情况下,$X_{i}$每增加一个单位,Y就增加$\beta_i$个单位。
也可以通过偏导数来定义和理解,因此多元回归中的回归系数通常也称为偏回归系数,一个叫法而已。
取对数
取对数意味着原被解释变量对解释变量的弹性,反应的是百分比的变化而不是数值的变化。(后面有数学证明过程)
需要取对数的情况(经验法则)
- 市场价值,价格,销售额等取对数
- 以年度量的变量,如受教育年限,工作经历等通常不取对数
- 比例变量,都可以
取对数的好处
- 减弱数据的异方差性(当随机扰动项和模型中的解释变量(自变量)存在某种相关性,就会出现异方差)
- 如果变量本身不符合正态分布,取对数后可能近似服从正态分布
- 经济学意义
四类模型回归系数的解释
-
一元线性回归: y=ax+b+u
-
双对数模型: lny=a+blnx+u
-
单对数模型: y=a+blnx+u
x每增加1%, y变化b/100个单位 -
半对数模型: lny=a+bx+u
x每增加1个单位y变化(100b)%
虚拟变量
如果有定性变量,如性别,地域等,可以加入虚拟变量
但分类的虚拟变量设置
比如需要研究性别对于工资的影响
$ Y_{i}=\beta_{0}+\sigma_{0}Female_{i}+...+\beta_{k}x_{ik}+\mu_{i} $
Female=1表示样本为女性,Female=0表示样本为男性
这里的$\sigma_{0}$其实就是其他变量相同的情况下,男女工资的差异
用0-1变量来设置虚拟变量,思路非常的简单,同时也非常使用,但是如果不止一种分类呢?分类不再是男女,老少这样的两类,而是类似地区这样的多种情况该如何设置虚拟变量呢?
多分类的虚拟变量设置
比如探讨网络贷款中是否存在显著的地域歧视问题
$SUCCESS_{i}=\alpha+\Sigma\beta_{n}Province_{n}+\lambdaControls_{i}+\mu_{i}$
$SUCCESS_{i}$表示第i个人有没有获得贷款,Province是省份的虚拟变量,一共34个省份/地区,以安徽为対照组,其余三十三个省设为虚拟变量,n=1,2,3,4...33,如果第i个样本的人来自第k个省,则$Province_{k}=1$,其余的为0,来自安徽省的话就所有的province=0。
标签:变量,回归,多元,内生性,线性,对数,x1,回归系数 From: https://www.cnblogs.com/hansumsomemer/p/17674348.html为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1
线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确.
比如知道了$y=x_{1}+x_{2}$, $x_{1}=2x_{2}$, 那么y和两个解释变量到底是什么关系呢,$y=x_{1}+x_{2}$可以,$y=1.5x_{1}$岂不是也可以?,这就是难以估计准确的含义