首页 > 其他分享 >数据六性

数据六性

时间:2024-05-08 15:58:04浏览次数:15  
标签:六性 数据 完整 格式 性别 缺失

规范性:数据内容、命名、格式、取值等规范统一。如时间信息都以yyyy-mm-dd格式存储,或者“性别”属性中,应使用“M”、“F”表示,还是用“1”,“0”表示,还是用“男”、“女”表示。
完整性:数据完整、没有缺失(包括看得见的缺失和看不见的缺失)。如人员信息完整涵盖性别、年龄等,或者身份证号码不能为空。
唯一性:同源或跨源的数据在信息含义上是一致不冲突的。如同一个人的性别都是一致的。
一致性:记录和字段都没有重复。如同一个ID没有重复记录。
准确性:数据内容及其含义是正确的。例如年龄在合理范围内。
关联性:不同表格之间数据的关联完整且正确。例如两张表建立的关联关系存在,不丢失数据。

标签:六性,数据,完整,格式,性别,缺失
From: https://www.cnblogs.com/testwjr/p/17969033

相关文章

  • Python中级之数据类型的内置方法1(数字类型和字符串)
    【一】数字类型【1】整数类型(int)(1)定义直接用整数定义,整数类型的值不能修改num=6(2)内置方法int.bit_length()#返回整数的二进制表示中最高位的位数,不包括符号和前导零。a=10b=a.bit_length()print(b)#输出4int.to_bytes(length,byteorder,signed)#......
  • Python中级之数据类型的内置方法3(元祖、布尔、集合)
    【一】元祖类型(tuple)【1】定义元祖类型是有序且不可变的数据类型,通常使用小括号定义(也可以使用逗号)#用逗号定义num_tuple=1,2,3,4,5#用小括号定义num_tuple=(1,2,3,4,5)【2】内置方法(1)类型强转#使用tuple()函数将其他数据类型转换为元组类型num_list=......
  • Python中级之数据类型的内置方法2(字典和列表)
    【一】字符串类型的内置方法(熟悉)【1】查找(1)find方法#【1】默认从左到右开始查找,找得到则返回元素所在的索引位置name='ligo'str=name.find('i')print(str)#输出1#【2】也可在区间内寻找,找不到则返回-1str=name.find('g',3,4)print(str)#输出-1#【3】也......
  • shell 获取文本特定行数据
    在Shell脚本中获取文件的特定行数据,尤其是获取第N行数据,有多种方法。以下是几种常见且简便的方法:使用sed命令:如果你想获取文件的第N行,可以使用sed命令,其中N是你想获取的行号。sed-n'Np'filename例如,获取第5行:sed-n'5p'filename结合使用head和tail命令:这是一种......
  • swifter:加速 Pandas 数据操作
    Github地址:https://github.com/jmcarpenter2/swifter在数据科学和数据分析领域,Pandas是一个非常强大的Python库,用于数据操作和数据清洗。然而,当处理大规模数据集时,Pandas可能会变得相对较慢。这就是PythonSwifter出现的原因。本文将深入介绍PythonSwifter,它是一个用于......
  • 使用Python的DataFrame和duckdb查询PG数据库
    直接使用以下脚本:importpsycopg2importduckdbimportpandasaspd#ConnecttoPostgreSQLconn_postgres=psycopg2.connect(dbname="pg_test_db",user="your_username",#Replacewithyourusernamepassword="your_password&qu......
  • Agate:快速准确地处理和校验表格数据
    您是否有时觉得在处理表格数据时感到不知所措?也许你在处理一个大型CSV文件,遇到了各种数据不一致的问题,或者需要验证数据,确保其准确无误才能进行下一步分析。传统的数据分析库或许功能强大,但学习曲线陡峭,用起来有点杀鸡用牛刀的感觉。这时,有一个更适合此类任务的工具——那......
  • geopandas:Python绘制数据地图
    https://mp.weixin.qq.com/s/Nq5Ygy0axI83H2dclU56yQGeoPandas是一个Python开源项目,旨在提供丰富而简单的地理空间数据处理接口。GeoPandas扩展了Pandas的数据类型,并使用matplotlib进行绘图。GeoPandas官方仓库地址为:GeoPandas。GeoPandas的官方文档地址为:GeoPandas-doc。本......
  • difflib: Python 比较数据集
    difflib 是一个专注于比较数据集(尤其是字符串)的Python模块。为了具体了解您可以使用此模块完成的几件事,让我们检查一下它的一些最常见的函数。SequenceMatcherSequenceMatcher 是一个比较两个字符串并根据它们的相似性返回数据的函数。通过使用 ratio(),我们将能够根据比率/......
  • struct:Python二进制数据结构
    在C/C++语言中,struct被称为结构体。而在Python中,struct是一个专门的库,用于处理字节串与原生Python数据结构类型之间的转换。本篇,将详细介绍二进制数据结构struct的使用方式。函数与Struct类struct库包含了一组处理结构值得模块级函数,以及一个Struct类。格式指示符将由字符串格......