首页 > 其他分享 >多元线性回归基础part1

多元线性回归基础part1

时间:2023-12-06 15:23:16浏览次数:29  
标签:变量 回归 多元 x2 part1 线性 x1 回归系数

发现新天地,欢迎访问

概念

回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。本讲我们主要学习线性
回归。

三个关键词

  • 第一个关键词:相关性

file

  • 相关性≠ 因果性

file

  • 第二个关键词是:Y

file

  • 第三个关键词是:X

file

回归分析的使命

  • 使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。
    统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
  • 使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用
    的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关
    关系是正的呢,还是负的
  • 使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,
    也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。

数据的分类

横截面数据

file

时间序列数据

file

面板数据

file

不同数据类型的处理方法

file
建模比赛中,前两种数据类型最常考到;面板数据较为复杂,是经管类学生在中级计量经济学中才会学到的模型。
横截面数据往往可以使用回归来进行建模,我们通过回归可以得到自变量与因变量之间的相关关系以及自变量的重要程度。
时间序列数据往往需要进行我们进行预测,时间序列模型的选择也很多,大家需要选择合适的模型对数据进行建模

一元线性回归入门

file
一元线性回归和之前的拟合某种意义上很相似。

对于线性的理解

注意:

  • 线性假定并不要求初始模型都呈上述的严格线性关系
  • 自变量与因变量可通过变量替换而转化成线性模型

比如:
file

都可以被称为线性模型!

使用线性回归模型进行建模前,需要对数据进行预处理。用Excel、Matlab、Stata等软件都可以.

file

excel的一些快捷操作最好要记住

回归系数的解释

file

可以看到,引入了新的自变量价格后,对回归系数的影响非常大!!!
原因:遗漏变量导致的内生性

假设u为无法观测的且满足一定条件的扰动项如果满足误差项u和所有的自变量xi均不相关,则称该回归模型具有外生性(如果相关,则存在内生性,内生性会导致回归系数估计的不准确,不满足无偏和一致性)

内生性的蒙特卡罗模拟

file


通过matlab来进行模拟绘图

%% 蒙特卡洛模拟:内生性会造成回归系数巨大误差
times = 300;%蒙特卡洛实验次数
R = zeros(times,1);%用来存储扰动项u和x1的相关系数
K = zeros(times,1); %用来存储遗漏了x2后,只用y对x1回归得到的回归系数

for i = 1 : times
    n = 30;%样本数据量
    x1 = -10 + rand(n,1)*20;%x1在-10 - 10上均匀分布,大小为30*1
    u1 = normrnd(0,5,n,1)-rand(n,1); %随机生成一组随机数
    x2 = 0.3*x1 + u1; %x2与x1的相关系数不确定,因此设计x2要加上u1这个随机数
    u = normrnd(0,1,n,1);%扰动项u服从标准正态分布
    y = 0.5 + 2*x1 + 5*x2 + u; %构造y(真实)
    k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1));
    K(i) = k;
    u = 5*x2 + u;%因为我们回归中忽略的5*x2,所以扰动项要加上5*x2
    r = corrcoef(x1,u);%2*2的相关系数矩阵
    R(i) = r(2,1);
end
plot(R,K,'*');
xlabel("x1和u的相关系数")
ylabel("k的估计值")

file

可见,相关系数绝对值越大,代表内生性越大!

核心解释变量和控制变量

无内生性(no endogeneity)要求所有解释变量均与扰动项不相关这个假定通常太强,因为解释变量一般很多(比如,5-15个解释变量)且需要保证它们全部外生
是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量控制变量两类

  • 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值)
  • 控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了“控制住"那些对被解释变量有影响的溃漏因素在实际应用中,我们只要保证核心解释变量与其不相关即可

本文由博客一文多发平台 OpenWrite 发布!

标签:变量,回归,多元,x2,part1,线性,x1,回归系数
From: https://www.cnblogs.com/xiaocrblog/p/17879624.html

相关文章

  • 线性代数题解
    前言写完了这道题我好想刚明白一点最小割???UU好闪,拜谢UU。题解首先,我们可以发现若第\(i\)行的\(B\)没选,那么第\(i\)列的\(B\)也不选,所以此时对于行和列是等价的。若\(A_i\)是\(0\),则会减少贡献\(\sum_{j}B_{i,j}\)。否则会减少贡献\(C_i\)。当\(A_i\)是\(0\)......
  • 即时通讯技术文集(第26期):实时音视频技术合集(Part1) [共16篇]
    为了更好地分类阅读52im.net总计1000多篇精编文章,我将在每周三推送新的一期技术文集,本次是第26 期。[- 1 -] 实时语音聊天中的音频处理与编码压缩技术简述[链接] http://www.52im.net/thread-825-1-1.html[摘要] 在视频或者音频通话过程中,一方面为了减小原始声音数据......
  • 线性基
    问题:洛谷P3812给定一个长度为\(n\)的序列,值域\(2^50\),求在序列中选出若干个数的异或和最大值。思路:使用线性基,流程为,枚举\(n\)个数,每个数从二进制最高位向低位枚举,如果这个数含有这一位且这一位未放入任何数,直接放入,如果这个数有这一位但是放入了数,这个数就异或上已经放入的......
  • 线性代数的艺术
    推荐一本日本网友KenjiHiranabe写的《线性代数的艺术》。这本书是基于MIT大牛GilbertStrang教授的《每个人的线性代数》制作的。虽然《线性代数的艺术》这本书仅仅只有12页的内容,就把线性代数的重点全画完了,清晰明了。《线性代数的艺术》PDF版本:https://pan.quark.cn/s/a17b0......
  • CSS进阶3-transform 动画-渐变(线性渐变、镜像渐变)-关键帧
      1.动画介绍:改变盒子在平面内的形态(平移、缩放、旋转、倾斜)属性: 平移:transform:translate(值1,值2);(默认为X轴,translateY--下移) ——平移依然在原来文档流。  移动:transform:translate......
  • R:LEfSe(线性判别分析)
    rm(list=ls())#清空工作环境setwd("C:\\Users\\Administrator\\Desktop\\LDA")#设置工作目录library(tidyverse)#包含了一系列与数据分析和可视化相关的包library(microeco)#生态学分析的包library(magrittr)#提供了用于简化代码的管道操作符%>%feature_table<-read......
  • 线性基学习笔记
    我废话怎么这么多wwwwwwwwwww\(\color{white}地址\)rebuild思想就是使满足线性基的条件下,使每一个二进制位只在一个位置上为1。可以用高斯消元直接处理出,也可以处理出任意一组线性基后从后往前扫一遍,如果\(a_i\)第\(j\)位上为\(1\),则\(a_i\oplusa_j\toa_i\)。此时如果......
  • 再探欧式筛——一种泛用性更强的欧拉筛法/线性筛法实现
    一、引言欧式筛/欧拉筛法/线性筛法(EulerSieve)是一种能够在\(O(n)\)时间复杂度内,处理\([1,n]\)内质数的方法。其相比埃氏筛/埃拉托斯特尼筛法(EratosthenesSieve)的\(O(n\log\logn)\)时间复杂度,主要的优化在于欧式筛保证了所有正整数\(n\)均只被其最小质因数\({minp}_n......
  • 线性规划——Pyhton线性规划求解库PULP的使用
    PuLP是一个用于线性规划(LP)、整数线性规划(ILP)和混合整数线性规划(MILP)问题的Python库。PuLP的全称是"PythonforMathematicalProgramming",它提供了一个简单而强大的工具,使得用户能够定义优化问题、构建数学模型并使用不同的求解器进行求解。PuLP的主要特点之一是其易用性。它允许......
  • PC4084高耐压输入压差线性稳压器替代ME4084
    PC4084特性内置支持高压输入电流可调节的线性充电器:■最大输入24V电压,可承受高达28V的浪涌电压■恒流下最大充电电流可达500mA,支持外部电阻实时配置充电电流■兼容5VUSB功率源和AC适配器,并提供热插拔保护■支持4.2V/4.25V/4.3V/4.35V锂电池类型■预设4.2V±1%充......