首页 > 其他分享 >常用数据处理方式,你都会吗?

常用数据处理方式,你都会吗?

时间:2022-08-31 10:57:07浏览次数:71  
标签:常用 变量 方式 无效 样本 数据处理 数据 进行

数据处理和数据管理是数据录入后紧接着需要做的事情。尤其是当面对大量数据时,数据处理可以帮助我们从大量数据中抽取出有价值的信息,达到提高处理效率及精度的目的。

为配合进行更好的分析,可能涉及到以下数据处理工作:定义变量名;制定数据标签;数据编码;计算变量;无效样本处理;特殊值处理等。

定义变量

定义变量,就是给每个指标起名字。每个变量都需要有对应的变量名,以便得到更规范的表格呈现和操作体验,spssau中通过“标题修改”定义变量名,一般用于以下情况:

  • 上传数据后,对不规范标题修改
  • 完成数据编码后,进行标题修改
  • 完成生成变量后,进行标题修改
  • 有多余无意义的标题,进行删除标题(一次只能删除一个标题)

 

数据标签

除了标题名需要定义,数据标签也是一个重要的属性。数据标签用于标识数据中的数字代表的意义,对数据的含义进行解释说明,比如用1表示男,用2表示女。数据标签仅影响表格展示,完全不影响分析结果。

 

数据编码

量表问卷中经常会使用到反向计分,反项题得到数据在分析以前,要先进行重新编码。

 

数据编码通常除了用于处理反项题,还会用于数据组合。

比如1代表高中,2代表大专,3代表本科,4代表硕士,5代表博士。希望组合成三组分别是:本科以下,本科,硕士及以上.则可处理为:1->1,2->1,3->2,4->3,5->3,最终数字1代表本科以下,2代表本科,3代表硕士及以上

 

无效样本

在数据分析之前,首先需要进行数据查看,包括数据中是否有异常值,无效样本等。如果有无效样本则需要进行处理,然后再进行分析。另外如果数据中有异常值也需要进行处理后再进行分析。无效样本会干扰分析研究,扭曲数据结论等,因而在分析前先对无效样本进行标识显示尤其必要。

如果数据来源为问卷,则很可能出现无效样本,因为填写问卷的样本是否真实填写无从判定;如果数据库下载或者使用二手数据等,也可能出现大量缺失数据等无效样本。

 

无效样本的常见使用场景:

1. 问卷研究中乱填问卷的样本;

2. 数据库下载的数据中有大量缺失数据;

3. 二手数据中包括无效或缺失数据;

4. 其它收集数据中有无效样本时。

异常值

缺失值或异常值是一个重要但容易被忽略的问题。不论什么研究数据,如果数据中存在可能的异常值,均应在分析之前处理,防止异常值带来的干扰,比如异常值会扭曲X和Y之间的相关关系,回归关系等,异常错误的结论;当然其它研究方法基本均会受到异常值的干扰,异常值较多或者异常稍大时,此时会直接扭曲结论。 

计算变量

上传数据,并修改好各标题名、数据标签后,我们就已经得到了原始的数据库,可以开始进行数据分析了。

不过实际情况中,往往不能直接使用原始数据进行统计分析,原因是数据中可能存在因录入错误或原始问卷记录错误导致的不正确的数据。或者不同研究目的,需要结合不同分析方法进行分析,而不同的统计方法对变量的需求也不尽相同,因此需要对数据重新调整或转换。

计算变量功能是指对问卷某题项或者多个题项进行处理的一种数学变换。通常情况下,问卷研究中共有两种情况会使用此功能,分别是变量生成和变量处理。

多数情况下,一个变量由多个题项表示,而最终进行相关、回归等分析时仅能使用一个变量,此时则需要将多个题项进行计算平均值处理,多个题项的综合平均值代表此变量。另外,如果需要对数据取对数,或者进行题项或者变量之间的加减计算时,均需要使用计算变量功能实现。计算变量功能仅适用于定量数据,分类数据不需要进行加减或者取平均值处理等。

比如网购满意度由4项表示,希望将4项处理成一个整体(网购满意度),则将此4项进行选中,并且告诉SPSSAU‘变量名字’。生成变量可做以下功能:

  • 平均值、求和、中位数、乘积
  • 标准化、中心化、最大最小归一化
  • 虚拟变量
  • 平方、根号
  • 自然对数、10为底对数
  • 绝对值
  • 正向化、逆向化 

总结来说,数据处理是很容易被轻视的工作,但往往数据处理的好坏会决定之后工作的难度,并直接影响到数据分析的结果,因此把数据处理重视起来!

标签:常用,变量,方式,无效,样本,数据处理,数据,进行
From: https://www.cnblogs.com/spssau/p/16636057.html

相关文章

  • Joinery——Java的数据处理库
    资源https://joinery.sh/v1.10/api/reference/joinery/DataFrame.htmlhttps://github.com/cardillo/joinery使用maven集成到java项目中<dependency><groupId>sh.jo......
  • Redis-------String类型常用命令
    String类型的常见命令String的常用命令有:命令描述set<key><value>设置键值对,成功返回1,失败返回0,key值已经存在则覆盖原值get<key>根据key返回对应的valu......
  • [Bug0045]MySQL 8.0 Public Key Retrieval is not allowed 错误解决方式
    1、问题使用DBeaver连接MySQL8.0报错PublicKeyRetrievalisnotallowed2、场景电脑开发环境迁移初始化mysql后使用DBeaver连接不上3、原因查阅网上资料得到是......
  • Dos 常用命令
    Dos常用命令   dir(大小写都可))查看当前路径下的内容D:\>dir驱动器D中的卷是Data卷的序列号是C06D-46EE​D:\的目录​2022/08/29 19:09  <DIR>......
  • Java常用编程类库
    Java语言已经有许多非常成熟的开源基础类库,封装了日常开发中的各种常用操作,如:对象判空,字符串编码,本地缓存等等。可以直接在项目中引入对应类库使用即可,或者参与完善相应类......
  • C嵌入式编程设计模式-C语言类实现方式
    类的封装方式以文件作为封装边界,将外部调用的函数声明,全局变量变量放入头文件中,将具体实现放入.c文件中。简单栈的实现代码:/************************************......
  • move和forward为什么使用方式不同(聊聊forward为什么不让右值以左值的形式转出)
    https://blog.csdn.net/qq_40132943/article/details/122790084......
  • 三种string实现方式:
    最新知识:三种string实现方式:是直接拷贝(eagercopy)---类似vector内嵌char*指针现在基本不用是copyonwrite---对多线程性能不好g++采用这个方式则是短字符串优......
  • linux-常用的软件安装方式
    yum命令yum命令是在Fedora和RedHat以及SUSE中基于rpm的软件包管理器,它可以使系统管理人员交互和自动化地更细与管理RPM软件包,能够从指定的服务器自动下载RPM包并且安装,可......
  • Python-常用内置模块
    常用内置模块数学计算模块math函数说明ceil(x)返回大于或等于x的最小整数floor(x)返回小于或等于x的最大整数sqrt(x)返回x的平方根pow(x,y)返......