首页 > 其他分享 >R语言数据质量分析

R语言数据质量分析

时间:2024-03-22 18:33:03浏览次数:15  
标签:分析 FALSE 语言 数据 质量 箱型 TRUE 缺失

R语言数据质量分析


数据质量分析是数据预处理的前提,也是数据分析结论有效性准确性的基础。
数据质量分析的主要任务是检查原始数据中是否存在脏数据。
脏数据一般包括;

缺失值分析

缺失值产生的原因、影响

原因:
  • 部分信息难以获取,或获取的代价太大
  • 因人为因素遗漏的、忘记写的、对数据理解错误的等
  • 属性值不存在
影响:

image.png

缺失值分析

常用函数:
# 结果返回TRUE,FALSE,TRUE为缺失值,FALSE为非缺失值
is.na()
# 结果返回TRUE,FALSE,FALSE为缺失值,TRUE为非缺失值
complete.cases()
# 形成矩阵或数据框式的表格,1和0显示缺失值模式,0表示变量的列中有缺失值,1表示没有
mice包中的md.pattern()
# 图形绘制每个变量的缺失值数,还绘制每个变量组合的缺失值数
aggr()

异常值分析

含义与方法

异常分析式检验数据是否有录入错误以及含有不合常理的数据,异常值也称作离群点。
异常值的分析方法主要有:

  • 简单统计量分析
  • 3 σ \sigma σ原则
  • 箱型图分析
质量控制图

qcc包是专业的绘制质量控制图的算法包

# 该函数的基础形式如下
qcc(data,type,nsigmas=3,plot=TRUE,...)
# 以xbar为例绘图图形
library(qcc)
data(pistonrings)
attach(pistonrings)
newdata<-rep(74,30)+rnorm(30)/50
qcc(pistonrings$diameter,type="xbar.one")

Rplot.png

箱型图分析

image.png
绘制一个简单的箱型图:


library(ggplot2)

# 创建示例数据
set.seed(123)  # 设置随机种子以便结果可复现
data <- data.frame(
  group = rep(c("A", "B", "C"), each = 200),  # 创建三个组
  value = c(rnorm(200, mean = 0, sd = 1),  # 为组A生成正态分布的随机数
            rnorm(200, mean = 3, sd = 2),  # 为组B生成正态分布的随机数
            rnorm(200, mean = 6, sd = 1.5)) # 为组C生成正态分布的随机数
)

# 查看数据的前几行
head(data)
# 绘制箱型图
p <- ggplot(data, aes(x = group, y = value)) +  # 设置数据和映射
  geom_boxplot(fill = "lightblue") +  # 添加箱型图图层,并设置填充颜色
  theme_minimal() +  # 使用简洁的主题
  labs(title = "箱型图示例",  # 添加标题
       x = "组别",  # x轴标签
       y = "值") +  # y轴标签
  scale_fill_brewer(palette = "Pastel1")  # 使用Brewer配色方案

# 显示图形
print(p)

Rplot011.png

标签:分析,FALSE,语言,数据,质量,箱型,TRUE,缺失
From: https://blog.csdn.net/xiaoyalian/article/details/136858954

相关文章

  • AI绘画时代已经到来,人人都可以成为艺术家,八大免费神器:助你快速创作高质量AI作品
    AI绘画:点亮你的艺术灵感AI绘画,这股席卷艺术界的浪潮,正以其独特的魅力,吸引着越来越多的人。它不仅能帮助我们快速生成创意,还能突破传统绘画的限制,创造出更加奇幻、瑰丽的画面。一.以下本人用AI绘画的动漫作品请欣赏AI绘画作品示例:以上面作品为例,下面为大家讲解......
  • 时序分析:基础知识整理(二)
    搬运自:孤独的单刀;大佬后面的是付费项目,所以涉及付费项目的我不会公开,本博客纯方便自己看做笔记。输出延时时间Tco由clk触发到输出数据有效之间最大延迟时间,对应图1的Tco(clockoutputdelay)组合逻辑与时序逻辑组合逻辑电路数字电路根据逻辑功能的不同特点,可以分成两......
  • Vue和SpringBoot实现的通用商城系统,高质量毕业论文范例,附送源码、数据库脚本,项目导入
    1.项目技术栈前端必学三个基础:“HTML、CSS、JS”,基本每个B/S架构项目都要用到,基础中的基础。此外项目页面使用Vue等前端框架技术。后端使用Java主流的框架 SpringBoot,使用MySQL数据库,是一个JavaWEB进阶学习的好资源。2.适合对象Java初学者、Java课题设计、Java毕业设......
  • 深入了解C语言中浮点数的存储方式
    因为这期可能对你们来说太简单了,所以我用一个字来概括吧好了,结束了,我们下期再见喽,不会有人真的走了吧,好了,砸门多的不说少的不闹好吧,直接上主食。1.浮点数和整数在内存中存储的区别浮点数和整数在内存中存储的区别主要体现在数据表示和存储方式上:1.数据类型:  -整数(in......
  • 2021-10-22-go语言基础
    概述、变量、常量、运算符和函数、导包、指针、defer、数组、切片、map、type使用、面向对象、反射、chanel、协程、json操作、随机数、网络编程、读取文件、beego概述1特性:自动垃圾回收更丰富的内置类型函数多返回值错误处理匿名函数和闭包类型和接口并发......
  • 数值分析复习:最佳逼近、最佳一致逼近
    文章目录最佳逼近1.度量空间中的逼近2.赋范线性空间中的逼近3.连续函数空间上的最佳逼近3.1多项式逼近3.2存在性和唯一性3.3最小零偏差多项式本篇文章适合个人复习翻阅,不建议新手入门使用最佳逼近1.度量空间中的逼近给定度量空间......
  • 数值分析复习:样条插值
    文章目录样条插值1.样条函数1.1泛函极小解和三次样条函数1.2S(x......
  • AI智能分析网关V4在非煤矿山安全生产视频智能监管场景中的应用
    近年来,全国非煤矿山((含金属非金属矿山、尾矿库,以及矿泉水等其他矿山)安全生产工作取得明显成效,但安全基础仍然薄弱,事故总量仍然较大,重特大事故尚未得到根本遏制,安全生产形势依然严峻复杂。伴随着视频技术、云计算、大数据、物联网技术、人工智能技术等新兴技术的快速发展和应用,非煤......
  • 时序分析:基础知识整理(一)
    好的时序是设计出来的,不是约束出来的。搬运自:孤独的单刀;大佬后面的是付费项目,所以涉及付费项目的我不会公开,本博客纯方便自己看做笔记。时钟抖动ClockJitter理想的时钟信号是完美的方波,但是实际的方波是存在一些时钟抖动的。那么什么是时钟抖动呢? 时钟抖动,ClockJitt......
  • #include<初见C语言之指针(3)>
    目录一、字符指针变量二、数组指针变量1.什么是数组指针变量?2.数组指针怎么初始化?三、二组数组传参的本质四、函数指针变量1.什么是函数指针变量?2.函数指针变量使用  3.有趣代码 3.1typedef关键字五、函数指针数组六、转移表总结一、字符指针变量字符指针......