首页 > 其他分享 >从0开始学统计-数据类别与测量层次

从0开始学统计-数据类别与测量层次

时间:2024-11-03 08:48:56浏览次数:4  
标签:定量 层次 尺度 定性 测量 定序 定类 类别 数据

数据分析前,我们首先要弄清楚数据的分类。数据并不仅仅是一堆数字和文字,它们实际上代表了我们看待事物属性的不同视角。从最宽泛的角度出发,我们可以将数据划分为定量(比如用数字表示)或者定性(例如,分成不同类别)。在数据分析过程中,了解数据类型,对选择合适的统计方法与结果解读非常重要。本文将详细解释数据的类型、测量层次、数据类型的转换,并简要介绍数据测量层次与统计方法的关系。

一、数据的基本分类一般而言,数据基本上可以分为两大类:定性数据和定量数据。下面我们来一探究竟。

什么是定量数据?

定量数据是指可以通过计数或测量得到的数据,它反映了事物的数量特征,通常是数字形式(具体应视数字的含义而定)。根据数据的精确程度,定量数据可以进一步划分为离散数据和连续数据。离散数据(Discrete Data):离散数据通常是计数的结果,如人数、车辆数等,它的值不可再分。连续数据(Continuous Data):连续数据通常是测量的结果,如长度、重量、时间等,它可以取任意值,且能够进一步划分成更小的单位。

什么是定性数据?

定性数据,又称为分类数据,是描述事物属性的非数字数据,它反映了事物的质的方面。定性数据包括定类数据和定序数据。定类数据(Nominal Data):定类数据是用于分类的数据,如性别、国籍、职业等,其数值没有顺序或大小的含义。定序数据(Ordinal Data) :定序数据除了具有分类的特性外,其分类的结果还具有一定的顺序性,如教育水平、疼痛等级等,它们虽然表达了顺序,但是其数值之间的差距并不代表相等差值。

二、测量层次

在统计学中,数据的测量层次(又称计量尺度)是对数据分类的一种常见标准,它包括定类尺度、序数尺度、区间尺度和比率尺度。下面是具体的定义及示例。

定类尺度(Nominal):

定类尺度是最基本的计量尺度,它用于分类和标记,但不包含任何数量上的信息。定类尺度的数据无法进行除分类以外的任何统计运算。例如,人的血型(A型、B型、AB型、O型)就是定类尺度的数据。

定序尺度(Ordinal):

定序尺度的数据不仅能够区分不同的个体,还能够表达顺序关系,但是它不能反映出类别之间的确切差距。比如军衔、竞赛名次等,我们知道少将高于上尉,但其中的差距难以准确衡量。

定距尺度(Interval):

定距尺度的数据在序数数据的基础上,增加了等距的特性,这意味着数据值之间的差是有意义的。定距尺度没有绝对零点(但可人为进行设定),因此无法计算比例。摄氏温度就是一个典型的定距尺度数据。

定比尺度(Ratio):

定比尺度具有定类、定序和定距尺度的所有特性,并且有一个绝对的零点,支持所有数学运算。金钱、重量、距离等都是定比尺度的例子。

三、定性数据

与定量数据的转换在某些情况下,为了数据分析或可视化的需要,可以将定量数据转换成定性数据。下面列举了一些常见的方式把定量数据转换成定性数据:

分组或区间化:

将连续的定量数据分成离散的区间或组,然后将数据分为不同的类别。例如,将年龄分为年龄组(如青少年、成年人、老年人)。

标签化:

将数值数据映射到相应的标签或类别。例如,将数值型的温度数据映射为"冷"、“温暖”、"炎热"等标签。

百分位排名:

将数据按其相对大小进行排名,并将排名分为不同的百分位,例如四分位数(分为上四分位、下四分位等)。

归一化:

将数值数据进行归一化处理,将其映射到特定范围内的数值,例如将百分比得分映射到0到100的范围,然后可以将其分为不同的等级。

基于阈值的二值化:

将数值数据与一个或多个阈值进行比较,将其转换为二元的类别,例如将某个测试分数与及格线比较,得出"及格"或"不及格"。

聚类分析:

使用聚类算法将数据分成不同的群组,每个群组可以视为一个定性类别。

四、数据类型与统计方法的关系

不同类型的数据需要采用不同的统计方法进行分析。比如,名义尺度的数据通常使用模式(众数)来描述集中趋势,而比率尺度的数据则可以使用均值、中位数等更多的统计量。在假设检验时,定性数据多采用卡方检验,而定量数据则可能采用t检验或ANOVA等方法。
此外,数据的类型还影响了数据可视化的方式。例如,定性数据常用条形图或饼图来展示,而定量数据则可以使用直方图、箱线图等。

标签:定量,层次,尺度,定性,测量,定序,定类,类别,数据
From: https://blog.csdn.net/2202_76035290/article/details/143460800

相关文章

  • 视频QoE测量学习笔记(二)
    目录自适应比特率(ABH或ABS)HAS:HTTPadaptivestreaming自适应本质:HAS正在解决传统流协议中主要关注的几个方面:DASH标准化原因HAS发展编码:影响HAS系统的四个主要问题:一个健全的HAS方案应实现三个主要目标:流会话的两种状态QOEASurveyonBitrateAdaptationScheme......
  • 视频Qoe测量学习笔记(一)
    目录流媒体协议详解RTSP:实时流式协议RTCP:实时运输控制协议RTP:实时运输协议H.264流媒体协议详解RTSP:实时流式协议由IETFMMusic小组开发,已成为互联网建议标准[RFC2326]。RTSP本身并不传送数据,而仅仅是是媒体播放器能控制多媒体流的传送,暂停播放,快进快退等。实际媒体......
  • Halcon 一维卡尺测量找点之模糊集测量法
        模糊测量是对标准测量的一种扩展,并不意味着测量是“模糊的”,而是用模糊隶属函数来控制边缘的选择。所谓的模糊隶属函数,就是将边缘的特征值转换为隶属度值,基于这些隶属值做出是否选择边缘的决定,即当隶属值大于你设定模糊阈值时,边缘就会被选中,反之则反。这种方法的优......
  • R语言贝叶斯分层、层次Hierarchical Bayesian模型的房价数据空间分析
    原文链接:https://tecdat.cn/?p=38077原文出处:拓端数据部落公众号本文主要探讨了贝叶斯分层模型在分析区域数据方面的应用,以房价数据为例,详细阐述了如何利用R帮助客户进行模型拟合、分析及结果解读,展示了该方法在处理空间相关数据时的灵活性和有效性。一、贝叶斯分层模型概述贝......
  • bcc测量函数执行时间
    获取函数的执行时间对性能分析十分有益,这里给出一个示例来测量kernel函数的执行时间。kprobe可用来在函数执行的开始加入探测点,kretprobe可以在函数返回前加入探测点,分别在这个两个探测获取时间,其差值可以作为函数的执行时间。相对ftrace,这种方式要精确很多。下面是一个例子,测量......
  • 第六届智能控制、测量与信号处理国际学术会议 (ICMSP 2024) 2024 6th International
    @目录一、会议详情二、重要信息三、大会介绍四、出席嘉宾五、征稿主题一、会议详情二、重要信息大会官网:https://ais.cn/u/vEbMBz提交检索:EICompendex、IEEEXplore、Scopus三、大会介绍第六届智能控制、测量与信号处理国际学术会议(ICMSP2024)由西安石油大学、中海油田......
  • 博图SCL编程计算近一小时测量值的均值
    这一篇学习笔记在新浪记录过,这里再次记录一次。1.打开上午的博图程序,新建一个FB块,设置变量参数。2.该FB块新建SCL程序段,写下面的程序3.在OB30循环中断组织块添加一个程序段,调用FB1,添加背景数据块,给输入和输出连接变量。对于新建的FB,刚刚运行时,由于数据量少,没有完全填充......
  • 【STC8H】使用ADC第15通道测量外部电压及电池电压详解
     STC8H系列ADC的第15通道用于测量内部参考信号源,由于内部参考信号源很稳定,约为1.19V,且不会随芯片的工作电压的改变而变化,所以可以通过测量内部1.19V参考信号源,然后通过ADC的值便可反推出外部电压或外部电池电压。以下是如何设置和读取ADC第15通道的详细步骤: 1......
  • 管道机器人有哪些类别
    管道机器人的类别主要包括检测机器人、清洁机器人、修复机器人以及特种作业机器人。这些机器人大多在难以直接到达的管道中发挥关键作用。尤其检测机器人,它们能够获取管道内部的详细信息,有助于预防潜在的故障和事故。检测机器人是管道机器人中的一个重要类别,它们搭载各种传感器对......
  • IO软件层次结构
    用户层软件实现与用户交互的接口,用户可直接调用在用户层提供的、与IO操作有关的库函数,对设备进行操作.通常大部分的IO软件都在操作系统内核,但仍有一小部分在用户层,包括与用户程序链接在一起的库函数.用户层IO软件必须通过一组系统调用来获取操作系统服务设备独立性软件设备......