我国能源消耗的影响模型分析—基于多元线性回归与岭回归模型
⭕ AdamCY888
文章目录
- 我国能源消耗的影响模型分析—基于多元线性回归与岭回归模型
- 一、引言
- 二、回归模型简介
- (一)多元线性回归模型原理
- (二)建模步骤
- 三、实证分析
- (一)构建指标及获取数据
- (二)符号说明
- (三)多元线性回归模型的建立与求解
- (四)岭回归模型建模
- 四、讨论
- 附录
一、引言
能源是现代经济建设活动必须要素,通过对能源消耗回归建模,具有能探究能源消耗的影响因素、预测未来能源消耗情况、制订能源供给计划等重要作用。本文通过多元线性回归模型对我国能源消耗影响因素进行分析、对比逐步回归法和岭回归法降低多重共线性、检验,最后得出结论,提出建议,以此为制订能源相关计划提供参考。
二、回归模型简介
(一)多元线性回归模型原理
多元线性回归模型通常用来研究一个应变量依赖多个自变量的变化关系,如果二者的以来关系可以用线性形式来刻画,则可以建立多元线性模型来进行分析。
多元线性回归模型通常用来描述变量与之间的随机线性关系,即:
式中,x1,x2…xk,是非随机的自变量;y是随机的因变量;u是回归系数是随机误差项。
如果对y,x进行了n次观测,则得到n组观测值,其满足:
用矩阵表示为:
此时,模型可写为:
(二)建模步骤
(1)根据数据建立回归模型
(2)对模型进行显著性检验
(3) 对模型进行回归诊断
三、实证分析
(一)构建指标及获取数据
能源的利用遍布在经济生活的方方面面,参考大量文献,本文主要从GDP、民用汽车拥有量、发电量、化学纤维产量、大中型拖拉机产量、农用化肥(折纯)产量、粮食产量共7个维度开展对能源消费总量的研究。
在选择样本数据时,基于数据可得性和适用性,通过中经网统计数据库获取我国2000年-2019年间我国能源消费总量及相关指标数据(见附录1)
(二)符号说明
(三)多元线性回归模型的建立与求解
设定回归模型,利用最小二乘估计,我们假设模型为:
通过回归拟合得到:
t = (-0.61) (-1.34) (-0.30) (6.30) (-0.20) (-3.14) (3.93) (0.24)
t检验不显著,同时可决系数非常高,观测相关系数情况如表二: 表2 变量间皮尔逊系数
据t值不显著可决系数高,相关系数值高,认为各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性
利用逐步回归法,逐一测试一元、二元、三元等回归,优中选优,进而获得最优结果
一元回归: 表3 一元回归参数情况
故:我们选取x3,以x3为基础,顺次加入其他变量逐步回归,进行二元回归。 表4 二元回归参数情况
我们选取x6在x3,x6的基础上加入其他元素 表5 三元回归参数情况
同理,选x5。 表6 四元回归参数情况
则最后回归模型为:
t = (-3.895) (8.202) (-2.257) (-5.771) (15.861)
其表明当其他变量不变时,在一定的范围内,每平均增加1单位的发电量,减少6.035单位的能源消费,每平均增加1单位的化学纤维产量,则增加20.673单位的能源消费,每平均增加1单位的农用化肥产量,则减少789.957单位的能源消费,每增加1单位的粮食产量,则增加37.654单位的能源消费。
(四)岭回归模型建模
在spss中建立脚本输入命令:Include “Ridge regression.sps”. ridgereg enter=X3 X4 X5 X6 /dep = Y /inc=0.01.得到如下表结果
表7 R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K
图1 Ridge trace
图2 R-square vs.k
取偏倚系数C=0.3,进行详细岭回归估计,输入命令: ridgereg enter=x3 x4 x5 x6 /dep = y /k=0.3.点击运行,运行结果如下:
表8 岭回归之过程值1
表9 ANOVA table
表10 Variables in the Equation
据上图表来看,检验t值不显著,说明岭回归在此处拟合效果并不理想。逐步回归对比岭回归,则显得更加理想。
四、讨论
逐步回归主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显著的变量, 而不显著的变量已被剔除。
对于岭回归,这种回归的假设与最小平方回归相同,不同点在于最小平方回归的时候,我们假设数据的误差服从高斯分布使用的是极大似然估计,在岭回归的时候,由于添加了偏差因子即先验信息,使用的是极大后验估计来得到最终参数的。它缩小了系数的值,但没有达到零,这表明没有特征选择功能。
附录
附表1 2000-2019年我国能源消费总量及相关指标数据