首页 > 其他分享 >多元线性回归分析实例

多元线性回归分析实例

时间:2023-05-11 15:24:32浏览次数:57  
标签:变量 回归 多元 x2 实例 内生性 线性 x1 回归系数

多元线性回归分析1

Introduction

相关性

回归分析用来研究相关性

相关性不等于因果性。

通过回归分析探究数据之间的相关性

因变量Y

要研究的核心变量

image-20230507220749246

自变量X

尝试用X去分析Y的形成机制,进而达到预测Y的目的

image-20230507221245544

回归分析的目的

image-20230507221625942

  1. 有的变量不相关,需要排除
  2. 有的变量正相关,有的变量负相关
  3. 有的变量影响大,有的影响小

数据预处理

不同的X可能会有不同的量纲,因此需要标准化处理,去量纲。得出变量之间的相对重要性。

回归分析的分类

image-20230507222112740

回归分析中的数据

数据的分类

image-20230507222324129

横截面数据Cross Sectional Data

在某一时间点收集到的不同对象的数据

image-20230507222359810

时间序列数据Time series Data

image-20230507222427013

对同一对象在不同时间观察到的数据

面板数据Panel Data

image-20230507222501405

将横截面数据和时间序列数据综合起来。

image-20230507222548602

image-20230507222740649

线性的理解和内生性问题

一元线性回归分析

image-20230507223302486

残差为预测值和真实值的差。损失函数是残差值的平方和

线性的理解

image-20230507223531883

和高中学过的一样,可以对自变量进行换元,换元后能够成线性关系即可。

特别地,如图中给出的最后一个形式,还可以加入交互项

要”换元“,需要进行数据预处理。

用excel进行数据预处理

1.键入函数,需要加个=号

image-20230507224010228

2.选择运算的值。

3.下拉,自动生成其他行的数据。或者拉到右下角。双击黑色十字架

image-20230507224246145

内生性问题

回归系数的解释
image-20230507224342808

截距项没有意义,不用管。

可以看到引入新的变量之后,对于回归系数的影响非常大。所以如果衡量某个Y时遗漏了某些变量,所得的结果差别会非常大

内生性

image-20230507225133461

如果扰动项与所有自变量都不相关,则具有外生性。

否则,将会导致无偏性和一致性。

无偏性:对于估计值,如果该统计量的期望与真实值一致,则满足无偏性

一致性:对于估计值,在样本足够大时,估计值依概率收敛到真实值,则满足一致性

image-20230507225433937
内生性度量

度量内生性,就是用误差项u与x的相关性,判断相关系数的大小。越大则代表越相关,也就是说内生性越大

image-20230507225813800

如该例,如果忽略掉x2的影响,那么按照方程给出,x1的回归系数应该是2,但是由于内生性,测得的值差别很大,并且可以看出误差项与x相关系数很大。

%% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
times = 300;  % 蒙特卡洛的次数
R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数    初始化
K = zeros(times,1);  % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
for i = 1: times
    n = 30;  % 样本数据量为n
    x1 = -10+rand(n,1)*20;   % x1在-10和10上均匀分布,大小为30*1  %生成了一个30*1的列向量,rand只能生成0到1
    u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数   %normrnd正态分布
    x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数
    % 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。
    u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布
    y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造y
    k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
    K(i) = k;
    u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2
    r = corrcoef(x1,u);  % 2*2的相关系数矩阵
    R(i) = r(2,1);
end
plot(R,K,'*')
xlabel("x_1和u'的相关系数")
ylabel("k的估计值")

image-20230507230919485

由图像可以看出,相关系数越大时,回归系数越不准确。并且可以验证,当n很大时,保证不了一致性。

解决内生性问题

首先,保证无内生性要求所有解释变量与扰动项不相关,这是一个非常难达成的问题。

但是我们可以弱化该条件,需要把解释变量划分为核心解释变量和控制变量两类。

image-20230507231217933

控制变量:控制住对核心解释变量有影响的变量,要加入回归方程中。

回归系数再解释

image-20230507231628766

什么时候取对数

image-20230507231751756

正态分布便于假设检验

四种模型回归系数解释

image-20230507232023373 image-20230507232114538

虚拟变量X的解释

image-20230507232257057

1.定性变量如何处理:转换成定量变量,如上图改为0或者1.

2.上图中核心解释变量为Female,剩下的是控制变量,为了减少内生性

image-20230507232528782

3.可以认为:delta0是女性和男性的平均工资做差。注意delta0必须具有显著性,即需要和0有显著的差别,否则我们认为男女工资没有什么区别

多分类虚拟变量X的设置

image-20230507233018549 image-20230507233042443

解释:以内蒙古为对照组,即求各个省份成功率做差。

如果各个beta之间是联合显著的,则说明成功率没有什么区别,即没有地域歧视

含有交互项的虚拟变量

image-20230507233555661

标签:变量,回归,多元,x2,实例,内生性,线性,x1,回归系数
From: https://www.cnblogs.com/hyk-blessingsoftware/p/17391123.html

相关文章

  • 利用 systemd 管理 MySQL 单机多实例
    利用systemd管理MySQL单机多实例1修改配置文件[root@localhost/root]#cat/etc/my.cnf[mysql]#prompt="\u@mysqldb\R:\m:\s[\d]>"prompt="[\\u@\\h@\\p][\\d]>\\_"no_auto_rehashloose-skip-binary-as-hex[mysqld]basedir=......
  • 线性表
    顺序表的存、读数据时的时间复杂度为o(1);插入删除时的时间复杂度为o(n);比较适合元素个数不太变化的应用链表的定义structListNode{intval;//结点储存的值ListNode*next;//指向下一个结点的指针ListNode(intx):val(x),next(NULL){}//结点的构造函数};......
  • 学校数据结构实验_线性表:纯C语言版
    首先分别声明链表和顺序表的结构单位,  1:插入实现:顺序表插入比较简单,直接访问下表找到插入位置,然后移动所有后面的数据将插入的位置空出来,然后将需要插入的数据插入,链表的插入:因为一般链表都是调用头插或者尾插,但是为了和顺序表相比较,再插入的时候增加了随机位置......
  • 电动车关键部件选型及参数验证实例 simulink/stateflow搭建
    电动车关键部件选型及参数验证实例simulink/stateflow搭建根据设定的车辆目标参数最高车速最大爬坡度及稳定车速加速时间续航等,计算选择车辆关键部件参数(电机电池);同时建立整车模型(驾驶员VCU控制车辆模型),通过仿真模型验证部件选型是否满足车辆的动力性和经济性指......
  • Average Curve:基于MATLAB/Simulink的通过线性插值返回多条曲线的平均曲线。
    AverageCurve:基于MATLAB/Simulink的通过线性插值返回多条曲线的平均曲线。返回的平均曲线也具有唯一的和排序的横坐标。ID:4630651773021127......
  • R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系|附代码数据
    全文下载链接:http://tecdat.cn/?p=23681最近我们被客户要求撰写关于线性混合效应的研究报告,包括一些图形和统计输出。线性混合效应模型与我们已经知道的线性模型有什么不同?线性混合模型(有时被称为"多层次模型"或"层次模型",取决于上下文)是一种回归模型,它同时考虑了(1)被感兴趣......
  • 9. 线性表概念
    线性表1.1概念简介线性表(简称表),是一种抽象的数学概念,是一组元素的序列的抽象,它由有穷个元素组成(0个或任意个)顺序表:使用一大块连续的内存顺序存储表中的元素,这样实现的表称为顺序表,或称连续表在顺序表中,元素的关系使用顺序表的存储顺序自然地表示链接表:在存储空间......
  • 【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数
    全文链接:http://tecdat.cn/?p=9706最近我们被客户要求撰写关于非线性模型的研究报告,包括一些图形和统计输出。在这文中,我将介绍非线性回归的基础知识。非线性回归是一种对因变量和一组自变量之间的非线性关系进行建模的方法。最后我们用R语言非线性模型预测个人工资数据是否每年......
  • 全新 – Amazon EC2 R6a 实例由第三代 AMD EPYC 处理器提供支持,适用于内存密集型工作
    我们在Amazonre:Invent2021上推出了通用型AmazonEC2 M6a实例,并于今年2月推出了计算密集型 C6a实例。这些实例由运行频率高达3.6GHz的第三代AMDEPYC处理器提供支持,与上一代实例相比,性价比提高多达35%。如今,我们正在扩展产品组合,添加内存优化型 AmazonEC2R6a......
  • websocket多实例推送解决方案-数据实时展示
    需求需要前端展示实时的订单数据信息。如下图所示,实时下单实时页面统计更新展示 思路方案前端使用websocket建立通信  后端监听数据库的binglog变更,实时得到最新数据,推送到前端 现状及问题客户端想实现实时获取数据的变更,使用了websocket+kafkaMq,当......