首页 > 其他分享 >多元线性回归分析

多元线性回归分析

时间:2023-09-02 22:55:54浏览次数:43  
标签:变量 回归 多元 内生性 线性 对数 x1 回归系数

回归分析的任务就是:通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
常见的回归有5类:

  1. 线性回归
  2. 0-1回归
  3. 定序回归
  4. 计数回归
  5. 生存回归

其划分的依据是因变量Y的类型

相关性

首先要区分相关性不等于因果性,比如研究表明雪糕销量越高游泳死亡人数就越高,这两个确实是有相关性的,但是并不能说有因果性。
在绝大多数情况下,我们没有能力去探究严格的因果关系,所以只好退而求其次,改成通过回归分析,研究相关关系。

Y

Y也就是因变量,实际应用中,需要研究的那个变量。

X

自变量,用来解释因变量的相关变量

回归分析主要做什么

  1. 回归分析要去识别并判断:那些X变量是同Y真的相关,哪些不是。这是统计学中重要的领域:变量选择(逐步回归法)
  2. 那些与Y有关的X,相关关系是正的还是负的
  3. 确定了有关的X变量后,还想赋予不同X不同的权重,也就是不同的回归系数,进而可以知道不同变量之间的相对重要性。

数据的分类

  • 横截面数据:在某一时点收集的不同对象的数据
    如:全国各省份2018年GDP的数据
    多元线性回归
  • 时间序列数据:对同一对象在不同时间连续观察所取得的数据
    如:中国历年的GDP
    移动平均,指数平滑,ARIMA,GARCH,VAR,协积
  • 面板数据:横截面数据与时间序列数据综合起来的一种数据资源
    如:2008‐2018年,我国各省份GDP的数据
    固定效应和随机效应,静态面板和动态面板

一元线性回归

回归系数的解释

可以看到引入了新的自变量价格后,对回归系数的,影响非常大
原因:遗漏变量导致的内生性

内生性的探究

包含了所有与y相关但未添加到回归模型中的变量,如果这些变量与已经添加的自变量有关,则存在内生性
简单来说,与干扰项相关的变量成为内生变量,与干扰项不相关的变量成为外生变量,
例如一元线性回归中的X解释变量,Y被解释变量,u干扰项,一般来说关系即Y=aX+u,X与Y有关,X与u无关,Y与u有关,那这样的情况即X是内生变量,Y是外生变量
但是有的时候干扰项u会和X有关,解释变量有内生性会导致回归系数估计不准确。

内生性产生的原因

  1. 遗漏变量
    与Y有关的所有变量都需要控制否则会参与到扰动项中,导致内生性
  2. 双向因果
    X与Y相互影响,u直接影响Y,Y再影响到X
  3. 测量误差
    解释变量X存在测量误差

内生性的解决

所以怎么解决内生性的问题呢?
逻辑上首先想到的肯定是找出所有的变量,使得所有的解释变量都和扰动项无关,但是这个假设有时候会很强,因为解释变量可能会有很多甚至十几个。
但是是有弱化的方法的,可以通过引入工具变量实现:

内生性的蒙特卡罗模拟

%% 蒙特卡洛对内生性的模拟
times=500;
R=zeros(times,1); % x1与u的相关系数
K=zeros(times,1); % 只对x1回归得到的k值
for i=1:times
    n=50;
    x1=rand(n,1)*20-10; % [-10,10]的均匀分布
    u=normrnd(0,1,n,1);  % 扰动项u~N(0,1),构成n行1列的矩阵
    % 构建x2与x1的关系(随便构造就行,只是演示)
    u1=normrnd(0,5,n,1)-rand(n,1);
    x2=0.2*x1+u1;
    y=1+2*x1+4*x2+u;
    % 然后只用x1来回归,最小二乘法估计
    k=(n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1));
    K(i)=k;
    u=u+4*x2; % 竟然没有+=语法
    r=corrcoef(x1,u); % x1和u的相关系数矩阵
    R(i)=r(2,1); % 取二行一列
end

plot(R,K,"o");
xlabel("x1和u的相关系数");
ylabel("k值");

可以看到x和u相关系数小的时候,k值的估计还是比较集中的,而x和u的相关性很高的时候,k值的估计就很不稳定了,直接使用求出来的那一个值,肯定是不准确的

回归系数的解释

$Y=\Sigma_{i=1}^{n} \beta_i *X_i$
其实很容易理解,$\beta_i$指:其他自变量不变的情况下,$X_{i}$每增加一个单位,Y就增加$\beta_i$个单位。
也可以通过偏导数来定义和理解,因此多元回归中的回归系数通常也称为偏回归系数,一个叫法而已。

取对数

取对数意味着原被解释变量对解释变量的弹性,反应的是百分比的变化而不是数值的变化。(后面有数学证明过程)

需要取对数的情况(经验法则)

  1. 市场价值,价格,销售额等取对数
  2. 以年度量的变量,如受教育年限,工作经历等通常不取对数
  3. 比例变量,都可以

取对数的好处

  1. 减弱数据的异方差性(当随机扰动项和模型中的解释变量(自变量)存在某种相关性,就会出现异方差)
  2. 如果变量本身不符合正态分布,取对数后可能近似服从正态分布
  3. 经济学意义

四类模型回归系数的解释

  1. 一元线性回归: y=ax+b+u

  2. 双对数模型: lny=a+blnx+u

  3. 单对数模型: y=a+blnx+u
    x每增加1%, y变化b/100个单位

  4. 半对数模型: lny=a+bx+u
    x每增加1个单位y变化(100b)%

虚拟变量

如果有定性变量,如性别,地域等,可以加入虚拟变量

但分类的虚拟变量设置

比如需要研究性别对于工资的影响

$ Y_{i}=\beta_{0}+\sigma_{0}Female_{i}+...+\beta_{k}x_{ik}+\mu_{i} $
Female=1表示样本为女性,Female=0表示样本为男性
这里的$\sigma_{0}$其实就是其他变量相同的情况下,男女工资的差异

用0-1变量来设置虚拟变量,思路非常的简单,同时也非常使用,但是如果不止一种分类呢?分类不再是男女,老少这样的两类,而是类似地区这样的多种情况该如何设置虚拟变量呢?

多分类的虚拟变量设置

比如探讨网络贷款中是否存在显著的地域歧视问题
$SUCCESS_{i}=\alpha+\Sigma\beta_{n}Province_{n}+\lambdaControls_{i}+\mu_{i}$

$SUCCESS_{i}$表示第i个人有没有获得贷款,Province是省份的虚拟变量,一共34个省份/地区,以安徽为対照组,其余三十三个省设为虚拟变量,n=1,2,3,4...33,如果第i个样本的人来自第k个省,则$Province_{k}=1$,其余的为0,来自安徽省的话就所有的province=0。

为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1
线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确.
比如知道了$y=x_{1}+x_{2}$, $x_{1}=2x_{2}$, 那么y和两个解释变量到底是什么关系呢,$y=x_{1}+x_{2}$可以,$y=1.5x_{1}$岂不是也可以?,这就是难以估计准确的含义

标签:变量,回归,多元,内生性,线性,对数,x1,回归系数
From: https://www.cnblogs.com/hansumsomemer/p/17674348.html

相关文章

  • 《线性代数》6. 线性相关、线性无关与生成空间
    线性组合回忆一下向量的两个最基本的运算:向量加法:\(\vec{v}+\vec{w}\)向量乘法:\(k\vec{v}\)这两个基本运算构建了线性代数中最重要的一个概念:线性组合。对于若干个\(n\)维向量\(\vec{v_{1}},\vec{v_{2}},\vec{v_{3}},...,\vec{v_{p}}\),那么\(k_{1}·\vec{v_{1}}+k......
  • 【高等数学】第二章 多元函数微分学
    1多元函数基本概念二元及二元以上的函数统称多元函数。1.1平面点集开区域:取不到边界值。闭区域:可以取到边界值。(任意一个边界可以取到即认为是闭区域)无界:某个方向无穷没有边界(任意一个边界无穷即代表无界)有界:任意一个方向有边界1.2二元函数其中,x/y为自变量;z为因变量。x,y的变化......
  • 向量,矩阵,线性基
    向量定义既有大小又有方向的量称为向量,记作$\vec{a}$。如果这个向量还有一个起点,那么它就成为了一条有向线段。有向线段三要素:起点,方向,长度。有向线段$\overrightarrowAB$......
  • 电动车摩托车灯DC-DC降压恒流芯片AP5170支持线性调光95%高效率IC
    产品描述AP5170是一款效率高,稳定可靠的LED灯恒流驱动控制芯片,内置高精度比较器,固定关断时间控制电路,恒流驱动电路等,特别适合大功率LED恒流驱动。AP5170采用ESOP8封装,散热片内置接SW脚,通过调节外置电流检测的电阻值来设置流过LED灯的电流,支持外加电压线性调光,最大电流......
  • LED车灯驱动DC-DC降压恒流芯片大功率高效率线性调光IC摩托车电动车手电筒
    产品描述AP5174是一款效率高,稳定可靠的LED灯恒流驱动控制芯片,内置高精度比较器,固定关断时间控制电路,恒流驱动电路等,特别适合大功率LED恒流驱动。AP5174采用ESOP8封装,散热片内置接SW脚,通过调节外置电流检测的电阻值来设置流过LED灯的电流,支持外加电压线性调光,最大电流......
  • 程序员的线性代数教程!Jupyter 代码和视频可能更适合你
    红色石头的个人博客:www.redstonewill.com推荐一份适合程序员的线性代数教程,包含理论和源码。教程地址为:https://github.com/fastai/numerical-linear-algebra本教程的重点是以下问题:我们如何以可接受的速度和可接受的精度进行矩阵计算?这份教程来自于旧金山大学的分析学硕士2017暑......
  • AP51656 PWM和线性调光 LED车灯电源驱动IC 兼容替代PT4115 PT4205
    产品描述AP51656是一款连续电感电流导通模式的降压恒流源用于驱动一颗或多颗串联LED输入电压范围从5V到60V,输出电流可达1.5A。根据不同的输入电压和外部器件,可以驱动高达数十瓦的LED。内置功率开关,采用高端电流采样设置LED平均电流,通过DIM引脚可以接受模拟调光和很宽范围......
  • matlab用马尔可夫链蒙特卡罗 (MCMC) 的Logistic逻辑回归模型分析汽车实验数据|附代码
    原文链接:http://tecdat.cn/?p=24103此示例说明如何使用逻辑回归模型进行贝叶斯推断 ( 点击文末“阅读原文”获取完整代码数据 )。统计推断通常基于最大似然估计(MLE)。MLE选择能够使数据似然最大化的参数,是一种较为自然的方法。在MLE中,假定参数是未知但固定的数值,并在一定......
  • 《线性代数》5. 线性系统
    什么是线性系统系统这个概念有点抽象,之前学的矩阵就可以看作是一个系统,线性系统和初中学的线性方程组是比较类似的。比如:\(\begin{cases}x+2y=5\\3x+4y=6\end{cases}\)但这里的重点是线性,所谓线性就是,未知数只能是一次方项。像\(x^{2}-1=0\)、\(\sqrt{z}-4=0\)......
  • 《线性代数》4. 矩阵的高级话题
    更多的变换矩阵之前我们说矩阵可以看作是向量的函数,矩阵可以改变一个点的坐标,比如将一个点的横坐标扩大a倍,纵坐标扩大b倍,那么就可以让如下矩阵与之相乘。\(T=\begin{Bmatrix}a&0\\0&b\end{Bmatrix}\)本次就来介绍更多的变换矩阵,假设我们希望一个点沿着\(x\)轴翻转,......