首页 > 其他分享 >R数据分析,模型分析与检验

R数据分析,模型分析与检验

时间:2022-11-10 10:03:50浏览次数:34  
标签:数据分析 分析 收入 模型 检验 数据表 年龄 data 回归



R数据分析,模型分析与检验_数据分析

R语言最重要的功能就是用于做模型,包含有大量的函数包,调用R函数包即可做模型检验与分析,例如常见的相关分析、回归分析、假设检验等等,除了做数据分析,R语言还可以做经典的数据挖掘,总结常用的十大数据挖掘算法如下所示,感兴趣的同学可以在此基础上深入学习。

本节主要带大家学习R中的相关分析、回归分析和假设检验,这部分知识需要扎实的统计学基础,这里给大家介绍如何用R语言去实现,下面一起来学习。



示例工具:R x64 3.5.3、RStudio

本文讲解内容:模型分析与检验

适用范围:R数据模型初步认识




R数据分析,模型分析与检验_数据分析_02


R数据分析,模型分析与检验_数据分析_03

一、创建数据表

首先创建一组数据表,数据内容包含ID、姓名、年龄、地址、收入五个字段,数据表内容如下。

#手动创建数据表data
data<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c010"),
NAME=c("Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"),
AGE=c(23,20,23,25,27,24,26,31,26,30),
ADDRESS=c("Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"),
SAL=c(2000,1500,2000,5000,8500,6500,5500,9500,7000,9000))

R数据分析,模型分析与检验_数据_04

二、相关分析

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法,R中使用cor()函数做相关分析,并返回相关系数。cor()函数用来计算数据间的相关系数,既可以单独对特定数据进行计算,也可以对整个数据表中各个列进行计算。

这里研究年龄与收入的相关关系,首先,用plot函数绘制年龄与收入的散点图。

#散点图
plot(data$AGE,data$SAL)

R数据分析,模型分析与检验_数据_05

做出散点图如上所示,从员工年龄和收入的关系来看,随着年龄的增长,收入逐渐增加,员工收入与年龄呈正相关 。

接着求年龄与收入的相关系数 ,得出系数为0.9094854,由于相关系数在-1到1之间,接近1为正相关,接近-1为负相关,0为不相关,可以得出员工年龄和收入为正相关,且这种相关关系很强,接近于1。

#相关系数
cor(data$AGE,data$SAL)

R数据分析,模型分析与检验_数据_06

三、回归分析

回归分析主要有一元回归、多元回归、向后逐步回归和全子集回归等,这里给大家介绍一元线性回归,在R中使用lm()函数对变量和目标值进行一元回归分析,并创建回归方程,如下对年龄和收入做一元回归,R方为0.8272接近于1,P值小于0.05,拒绝原假设,说明模型显著。

#简单线性回归
lm.SAL<-lm(AGE~SAL,data = data)
summary(lm.SAL)

R数据分析,模型分析与检验_数据分析_07

四、协方差分析

协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,两个变量相互影响越大。R中使用cov()函数计算两个字段或数据表中各字段间的协方差,如下得出cov等于9027.78,表明年龄与收入两个变量相互影响较大。

#协方差
cov(data$AGE,data$SAL)

R数据分析,模型分析与检验_数据分析_08

五、假设检验

模型建立后对收入数据进行t检验,先构建一组数据SAL2,看看两者间是否有显著差异。

SAL1<-data$SAL
SAL2=c(600,200,500,400,500,600,300,700,800,600)

使用var.test()函数对两组数据进行方差检验,来确定方差是否相等。

var.test(x = SAL1,y = SAL2, conf.level = 0.95)

R数据分析,模型分析与检验_数据分析_09

p-value=1.388e-09,小于0.05,两个总体方差不相同,接着进行异方差t检验,R中使用t.test()函数对两组收入数据进行检验,确定两组收入间是否有显著差异。

t.test(SAL1,SAL2,var.equal= FALSE,alternative = "two.sided")

R数据分析,模型分析与检验_数据_10

p-value = 0.004241小于0.05,拒绝原假设,说明两组收入间有显著差异。


标签:数据分析,分析,收入,模型,检验,数据表,年龄,data,回归
From: https://blog.51cto.com/u_15828536/5839663

相关文章

  • R数据分析,数据预处理
    上一节讲到R数据清洗内容,主要包括缺失值处理、特殊字符处理、大小写转换、数据格式转化、重复值处理、数值替换,本节在R数据清洗的内容上继续学习R数据预处理,内容包括数据合......
  • R数据分析,数据清洗
    数据获取后不能直接对数据进行分析,“脏数据”会直接影响最终的数据结论,需要对数据进行初步的处理,本文主要讲解数据获取后数据清洗内容,主要包括缺失值处理、特殊字符处理、大......
  • R数据分析,数据概览
    对于统计学专业的学生,对于R软件的使用并不陌生,堪称数理统计软件的标配,R软件也可以做数据处理和数据分析,虽说职场工作对于R软件使用不多,但是R软件绝对是科研人数据分析的最爱......
  • SQL数据分析,多表拼接
    在日常数据查询时,绝大多数情况是将表格关联起来进行查询的,而不仅仅是对一张表格的数据进行查询,在之前的例子中,学生表用于存储学生信息、课程表用于存储课程信息、成绩表用于......
  • C++对象模型:g++的实现(七)
    这篇博客来总结一下《深度探索C++对象模型》第5章构造、析构、拷贝语义学的内容。是对主要内容的总结,原文请看原书。1.构造函数按照发生的顺序,一个类的构造函数会做的......
  • 广告行业中那些趣事系列54:从理论到实践学习当前超火的多模态学习模型
    导读:本文是“数据拾光者”专栏的第五十四篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇从理论到实践介绍了当前超火的多模态学习模型,想了解多模态学习......
  • 数据中台选型必读(四):要想中台建的好,数据模型得做好
    在数据中台构建之前,分析师经常发现自己没有可以复用的数据集,不得不使用原始数据依次进行数据的清洗、加工、计算指标。重复进行原始数据的清洗加工由于业务部门的分析师......
  • 设计模式利剑三--抽象工厂方法模型
    定   义:为创建一组相关或相互依赖的对象提供一个接口,而且无需指定他们的具体类优   点:           1、封装性,每个产品的实现类不是高层模块要关心的,他们......
  • 计算机网络的五层模型和七层模型
    计算机网络的五层模型和七层模型今天回忆一下学学过的计算机网络TCP/IP五层模型和OSI七层模型,以及对应关系1.五层模型(从下往上依次):物理层:使用物理的线路进行通信,传输比......
  • OpenMLDB 线上引擎资源需求预估模型,助你快速预估资源消耗
    一、背景OpenMLDB线上计算的最大优势为可以低延迟(毫秒级)高效处理实时特征计算请求。其中,为了达到低延迟,OpenMLDB默认使用了基于内存的存储引擎。但是,当业务增长时,对于内......