首页 > 其他分享 >数据质量为什么差?代价是什么?

数据质量为什么差?代价是什么?

时间:2024-10-16 21:18:57浏览次数:3  
标签:为什么 导致 错误 数据 决策 可能 质量 代价

如今,许多数字企业都认为自己是数据驱动的。通过各种软件解决方案,数据无处不在,收集起来也非常方便,这使得企业能够被动地收集大量数据,并将其应用于决策制定。

然而,人们往往很容易在不考虑数据质量的情况下查看仪表盘和工具。Gartner 估计 数据质量低下导致企业损失平均每年1290万美元。

一、数据质量差的真正代价

数据质量很难评估,因为它只是关于现实世界的信息。没有任何基本原则可以表明系统中存储的信息是不准确的数据,除非字段缺失或为零。

因此,你很容易相信仪表板上显示的数据是准确且高质量的。如果随后用这些数据得出结论,这些决策将基于不完整的数据。基于劣质数据的决策可能会导致企业将重点放在错误的产品或服务上,从而导致收入损失。

此外,很难发现决策是基于低质量数据做出的。大多数决策和策略都需要时间才能实施,结果可能更晚才会出现。由于决策和结果之间有很长的延迟,低质量数据可能会影响大量业务运营。

不良数据还会产生间接影响。由于决策可能导致企业专注于一个领域和收入来源,因此在决策过程中总会错失一些机会。这些错失的机会可能比基于不良数据的任何机会都更有利可图或更具可行性。

在某些情况下,数据质量差还会导致公司声誉或士气受损。基于不准确数据做出的错误决策会削弱高层管理人员和员工的信任,导致长期整体绩效下降。

二、什么原因导致数据质量差?

数据质量差可能是由多种因素造成的,从人为错误到各种技术故障。通常,存在不良数据相关问题的企业会同时参与多个流程,这使得发现最紧迫的原因变得更加困难。

1.人为错误

人为错误是导致数据质量不佳的最简单和最常见的原因之一。即使手动执行的工作很少,人为错误也可能发生在数据质量管理流程的任何阶段。

大多数错误发生在数据输入阶段。这些错误会随着必须执行的手动工作量而迅速增加。因此,应尽可能减少手动数据输入。

此外,人为错误还可能发生在流程的其他阶段,例如在转换、移动、复制或重新格式化数据时。然而,这些错误通常更容易被注意到,因为受影响的数据集更大。

2.缺乏数据标准化

数据科学家和工程师经常会谈到标准化的重要性。标准化不足的一个常见例子是数据库可能使用不同的方式来表示相同的信息(例如在同一组中使用“USA”、“US”和“United States of America”)。

缺乏标准化会导致重复条目,从而导致数据质量低下。在大型数据集中,对“美利坚合众国”的定量分析可能会返回不正确的数据,因为它会遗漏其他符号(“USA”、“US”)。

幸运的是,对于小型企业来说,在这方面提高数据质量相对容易。标准化信息集和实体 ID 或名称将大大降低出现不良数据的可能性。对于大型企业和公司来说,则需要制定数据治理策略。

3.数据治理不力

数据治理是通过实施最佳实践和流程来管理公司内部信息的实践。在大型组织中,数据科学家和工程师只是直接参与管理信息的人员中的一小部分。

随着利益相关者数量的增加,尤其是数据质量管理领域以外的人员,出现各种错误的可能性也会增加。这些错误可能包括但不限于数据输入、转换或不一致的更新问题。

4.数据整合乏善可陈

在大型企业中维护高质量数据意味着要从各种来源收集信息。大多数这些来源将使用不同的符号和格式,因此需要各种流程来维护高质量的数据。

如果数据是从内部自动来源加载的,这些问题可能相对较小。每当包含手动输入的信息(例如客户数据)时,问题可能会变得更加紧迫,因为错误可能会显著增加。

最后,外部来源(例如通过网络抓取)可能会导致数据完整性问题。大多数此类数据都是非结构化的,需要进行大量的转换工作。即使出于最好的意图,数据科学家和分析师在整合此类信息时也必须格外小心。

三、如何提高数据质量?

良好的数据质量是一个定义问题。很少有企业能够在收集和分析过程中始终保持高质量的数据。因此,通常建议从外部数据质量指标开始。

因此,提高数据质量首先要定义数据的用例。目前,常见示例包括开发机器学习或 AI 模型、制定业务战略以及优化资源管理。

一旦定义了用例,利益相关者就可以讨论所有数据质量问题。例如,不良数据是否会导致机器学习模型无法达到准确度基准,或者管理不当的客户数据是否会导致利益相关者在制定销售策略时效率低下?

这些问题通常指向内在数据质量指标。以客户数据为例,可能存在准确性或完整性问题,这导致了潜在问题。额外的数据验证步骤可以完全解决这些问题。

这样的流程有助于公司挑选出需要关注的内在数据质量指标。然而,有时内在数据质量指标可能不是问题所在。根据问题的不同,外在数据质量指标也可能存在问题。

例如,如果用户不断要求澄清解释,那么可能就没有必要提高数据质量本身。数据科学家可能会以混乱的方式呈现其工作的最终结果,使非技术用户更难理解。

结论

不良数据可能是许多组织问题的罪魁祸首,从简单的错误到重大的收入损失。维护高质量的数据不仅对有效决策至关重要,而且对维护对数据本身的信任也至关重要。

虽然坏数据会给公司带来沉重的负担,但优质数据却能带来巨大的好处。许多组织都陷入了一个陷阱——将数据视为不需要维护的商品。它和其他资产一样,也是资产,因为数据会贬值并变得毫无用处。在某些情况下,它甚至可能变得有害,因此,需要非常小心地管理它。

标签:为什么,导致,错误,数据,决策,可能,质量,代价
From: https://blog.csdn.net/IPFoxy666/article/details/142961005

相关文章

  • 智慧工地:数字化管理提升施工安全与质量
     随着科技的发展,智慧工地已成为建筑行业转型升级的重要手段。依托智能感知设备和云物互联技术,智慧工地为工程管理带来了革命性的变革,实现了项目管理的简单化、远程化和智能化。一、核心架构企业级智慧工地采用1+N架构,以满足不同业务需求。工业级IOT平台,不仅保障了数据安全,......
  • 【c#】我们为什么要用 yield return
    【c#】我们为什么要用yieldreturn明尼苏达的微笑嗯嗯,你说的都对​关注他 43人赞同了该文章声明:本文部分内容来自《moreeffectivec#》,特此声明c#里面的yieldreturn没什么高大上的,就是一个一个的return。但是我们不能小看这种用法,他能给编......
  • 程序员转行为什么这么难?
    尽管我在“大龄程序员的未来在何方”这篇文章里比较乐观地介绍了程序员保持竞争力的几个方向,但现实依然是残酷的:很多人将不得不离开软件开发工作,转型去从事其他职业。当你要这么做时,就会感慨:想不到一切竟如此艰难!你不禁会想起李白老先生的诗:噫吁嚱,危乎高哉!蜀道之难,难于上青......
  • 为什么说程序员转行首选AI大模型工程师
    AI大模型工程师:科技前沿的探索者选择一个有良好发展前景的行业至关重要。AI和大数据领域目前正处于快速发展阶段,预计未来几年对相关人才的需求将持续增长。现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37......
  • 【质量视角】可观测性背景下的质量保障思路
    作者:京东保险郑飞背景介绍目前质量团队正在积极建设和完善应用监控能力,旨在能及时发现并解决问题,为线上服务稳定性保驾护航。随着可观测性概念的逐渐普及,监控的建设也有了新的挑战和使命。本文将探讨在可观测性背景下,作为一个测试人员在质量保障中的一些思路和个人思考,以及为......
  • 怎么在网站后台修改网站?为什么要修改网站密码?
    如何在网站后台修改网站登录后台打开网站的管理后台页面。输入用户名和密码进行登录。导航到编辑功能在后台管理界面中找到“内容管理”、“页面编辑”或类似名称的功能模块。选择需要修改的页面或内容。编辑内容使用提供的编辑工具对页面内容进行修改。可以......
  • 神经网络之卷积篇:详解残差网络为什么有用?(Why ResNets work?)
    详解残差网络为什么有用?为什么ResNets能有如此好的表现,来看个例子,它解释了其中的原因,至少可以说明,如何构建更深层次的ResNets网络的同时还不降低它们在训练集上的效率。通常来讲,网络在训练集上表现好,才能在Hold-Out交叉验证集或dev集和测试集上有好的表现,所以至少在训练集上训练......
  • Transformer 的缩放因子为什么需要开平方根
    目录一、防止过大的注意力分数导致softmax函数饱和二、维度校正三、保持方差稳定在Transformer模型中,缩放因子(scalingfactor)特别设计用于调整注意力分数(attentionscores),它通常是键向量维度的平方根。这一做法主要是出于以下几个原因:一、防止过大的注意力分数导致......
  • 数据结构(c语言版)-为什么想起来很简单的代码,写起来那么费劲呢?
    作为一个代码小垃圾,三行五行的基本语句都写不出来。课上,双链表的插入写起来都那么费劲,真糟糕。思路很简单,为什么代码不会写?需要对基本语句再熟悉。为什么会考虑不到保存指针(指针覆盖)的情况?因为在思考数据元素插入链表问题时,使用的是全知视角(上帝视角),“偷看答案”了。但是,对于每......
  • 为什么普通AI不够用?定制AI Agents工具是关键!
    1新建一个实时搜索工具@tooldefweb_search(query:str):"""实时搜索工具"""serp=SerpAPIWrapper()result=serp.run(query)print("实时搜索结果:",result)returnresult#初始化工具列表tools=[web_search]#创建OpenAI工具......