标签：变量回归多元 x2 实例内生性线性 x1 回归系数

多元线性回归分析1

Introduction

因变量Y

要研究的核心变量

自变量X

尝试用X去分析Y的形成机制，进而达到预测Y的目的

回归分析的目的

有的变量不相关，需要排除
有的变量正相关，有的变量负相关
有的变量影响大，有的影响小

数据预处理

不同的X可能会有不同的量纲，因此需要标准化处理，去量纲。得出变量之间的相对重要性。

回归分析的分类

回归分析中的数据

数据的分类

横截面数据Cross Sectional Data

在某一时间点收集到的不同对象的数据

时间序列数据Time series Data

对同一对象在不同时间观察到的数据

面板数据Panel Data

将横截面数据和时间序列数据综合起来。

线性的理解和内生性问题

一元线性回归分析

残差为预测值和真实值的差。损失函数是残差值的平方和

线性的理解

和高中学过的一样，可以对自变量进行换元，换元后能够成线性关系即可。

特别地，如图中给出的最后一个形式，还可以加入交互项

要”换元“，需要进行数据预处理。

用excel进行数据预处理

1.键入函数，需要加个=号

2.选择运算的值。

3.下拉，自动生成其他行的数据。或者拉到右下角。双击黑色十字架

内生性问题

回归系数的解释

截距项没有意义，不用管。

可以看到引入新的变量之后，对于回归系数的影响非常大。所以如果衡量某个Y时遗漏了某些变量，所得的结果差别会非常大

内生性

如果扰动项与所有自变量都不相关，则具有外生性。

否则，将会导致无偏性和一致性。

无偏性：对于估计值，如果该统计量的期望与真实值一致，则满足无偏性

一致性：对于估计值，在样本足够大时，估计值依概率收敛到真实值，则满足一致性

内生性度量

度量内生性，就是用误差项u与x的相关性，判断相关系数的大小。越大则代表越相关，也就是说内生性越大

如该例，如果忽略掉x2的影响，那么按照方程给出，x1的回归系数应该是2，但是由于内生性，测得的值差别很大，并且可以看出误差项与x相关系数很大。

%% 蒙特卡洛模拟：内生性会造成回归系数的巨大误差
times = 300;  % 蒙特卡洛的次数
R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数    初始化
K = zeros(times,1);  % 用来储存遗漏了x2之后，只用y对x1回归得到的回归系数
for i = 1: times
    n = 30;  % 样本数据量为n
    x1 = -10+rand(n,1)*20;   % x1在-10和10上均匀分布，大小为30*1  %生成了一个30*1的列向量，rand只能生成0到1
    u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数   %normrnd正态分布
    x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定， 因为我们设定了x2要加上u1这个随机数
    % 这里的系数0.3我随便给的，没特殊的意义，你也可以改成其他的测试。
    u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布
    y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造y
    k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
    K(i) = k;
    u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2，所以扰动项要加上5*x2
    r = corrcoef(x1,u);  % 2*2的相关系数矩阵
    R(i) = r(2,1);
end
plot(R,K,'*')
xlabel("x_1和u'的相关系数")
ylabel("k的估计值")

由图像可以看出，相关系数越大时，回归系数越不准确。并且可以验证，当n很大时，保证不了一致性。

解决内生性问题

首先，保证无内生性要求所有解释变量与扰动项不相关，这是一个非常难达成的问题。

但是我们可以弱化该条件，需要把解释变量划分为核心解释变量和控制变量两类。

控制变量：控制住对核心解释变量有影响的变量，要加入回归方程中。

回归系数再解释

什么时候取对数

正态分布便于假设检验

四种模型回归系数解释

虚拟变量X的解释

1.定性变量如何处理：转换成定量变量，如上图改为0或者1.

2.上图中核心解释变量为Female，剩下的是控制变量，为了减少内生性

3.可以认为：delta0是女性和男性的平均工资做差。注意delta0必须具有显著性，即需要和0有显著的差别，否则我们认为男女工资没有什么区别

多分类虚拟变量X的设置

解释：以内蒙古为对照组，即求各个省份成功率做差。

如果各个beta之间是联合显著的，则说明成功率没有什么区别，即没有地域歧视

含有交互项的虚拟变量

标签：变量,回归,多元,x2,实例,内生性,线性,x1,回归系数
From： https://www.cnblogs.com/hyk-blessingsoftware/p/17391123.html

多元线性回归分析实例