多元线性回归分析1
Introduction
相关性
回归分析用来研究相关性
相关性不等于因果性。
通过回归分析探究数据之间的相关性
因变量Y
要研究的核心变量
自变量X
尝试用X去分析Y的形成机制,进而达到预测Y的目的
回归分析的目的
- 有的变量不相关,需要排除
- 有的变量正相关,有的变量负相关
- 有的变量影响大,有的影响小
数据预处理
不同的X可能会有不同的量纲,因此需要标准化处理,去量纲。得出变量之间的相对重要性。
回归分析的分类
回归分析中的数据
数据的分类
横截面数据Cross Sectional Data
在某一时间点收集到的不同对象的数据
时间序列数据Time series Data
对同一对象在不同时间观察到的数据
面板数据Panel Data
将横截面数据和时间序列数据综合起来。
线性的理解和内生性问题
一元线性回归分析
残差为预测值和真实值的差。损失函数是残差值的平方和
线性的理解
和高中学过的一样,可以对自变量进行换元,换元后能够成线性关系即可。
特别地,如图中给出的最后一个形式,还可以加入交互项
要”换元“,需要进行数据预处理。
用excel进行数据预处理
1.键入函数,需要加个=号
2.选择运算的值。
3.下拉,自动生成其他行的数据。或者拉到右下角。双击黑色十字架
内生性问题
回归系数的解释
截距项没有意义,不用管。
可以看到引入新的变量之后,对于回归系数的影响非常大。所以如果衡量某个Y时遗漏了某些变量,所得的结果差别会非常大
内生性
如果扰动项与所有自变量都不相关,则具有外生性。
否则,将会导致无偏性和一致性。
无偏性:对于估计值,如果该统计量的期望与真实值一致,则满足无偏性
一致性:对于估计值,在样本足够大时,估计值依概率收敛到真实值,则满足一致性
内生性度量
度量内生性,就是用误差项u与x的相关性,判断相关系数的大小。越大则代表越相关,也就是说内生性越大
如该例,如果忽略掉x2的影响,那么按照方程给出,x1的回归系数应该是2,但是由于内生性,测得的值差别很大,并且可以看出误差项与x相关系数很大。
%% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
times = 300; % 蒙特卡洛的次数
R = zeros(times,1); % 用来储存扰动项u和x1的相关系数 初始化
K = zeros(times,1); % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
for i = 1: times
n = 30; % 样本数据量为n
x1 = -10+rand(n,1)*20; % x1在-10和10上均匀分布,大小为30*1 %生成了一个30*1的列向量,rand只能生成0到1
u1 = normrnd(0,5,n,1) - rand(n,1); % 随机生成一组随机数 %normrnd正态分布
x2 = 0.3*x1 + u1; % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数
% 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。
u = normrnd(0,1,n,1); % 扰动项u服从标准正态分布
y = 0.5 + 2 * x1 + 5 * x2 + u ; % 构造y
k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
K(i) = k;
u = 5 * x2 + u; % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2
r = corrcoef(x1,u); % 2*2的相关系数矩阵
R(i) = r(2,1);
end
plot(R,K,'*')
xlabel("x_1和u'的相关系数")
ylabel("k的估计值")
由图像可以看出,相关系数越大时,回归系数越不准确。并且可以验证,当n很大时,保证不了一致性。
解决内生性问题
首先,保证无内生性要求所有解释变量与扰动项不相关,这是一个非常难达成的问题。
但是我们可以弱化该条件,需要把解释变量划分为核心解释变量和控制变量两类。
控制变量:控制住对核心解释变量有影响的变量,要加入回归方程中。
回归系数再解释
什么时候取对数
正态分布便于假设检验
四种模型回归系数解释
虚拟变量X的解释
1.定性变量如何处理:转换成定量变量,如上图改为0或者1.
2.上图中核心解释变量为Female,剩下的是控制变量,为了减少内生性
3.可以认为:delta0是女性和男性的平均工资做差。注意delta0必须具有显著性,即需要和0有显著的差别,否则我们认为男女工资没有什么区别
多分类虚拟变量X的设置
解释:以内蒙古为对照组,即求各个省份成功率做差。
如果各个beta之间是联合显著的,则说明成功率没有什么区别,即没有地域歧视