首页 > 其他分享 >SampleClean概述

SampleClean概述

时间:2022-11-03 00:55:05浏览次数:62  
标签:清理 样本 SampleClean 查询 概述 规则 数据

目前阶段

临近考试周,近期将在复习大四专业课的基础上,计划学习以下内容:

  • 项目内容:自动化的清洗算子框架学习(了解SampleClean和进阶版本的ActiveClean)从中理解质量评估函数设计、阅读DataCleaning第六章
  • 数理基础:吴恩达机器学习视频(重点学习)、知识图谱、随机算法与近似算法
  • 编程基础:python、pySpark(重点学习)、Leetcode
  • 其他:Latex、英语单词

【SampleClean】A Sample-and-Clean Framework for Fast and Accurate Query Processing on Dirty Data

摘要

由于处理和清理大型肮脏数据集的挑战,获得及时、高质量的汇总查询答案是很困难的。为了提高查询处理的速度,人们对基于抽样的近似查询处理(SAQP)重新产生了兴趣。然而,在其通常的表述中,SAQP根本没有解决数据清理问题,事实上,SAQP通过引入抽样误差,加剧了答案质量问题。SampleClean利用抽样来提高实际答案的质量,它将数据清洗应用于相对较小的数据子集,并使用清洗过程的结果来减少脏数据对总查询答案的影响。

方式

在本文中,探讨了抽样所带来的一个有趣的机会,即当与数据清理相结合时,抽样有可能提高答案的质量。我们提出了SampleClean,这是一个新颖的框架,只对数据的样本进行清理,以处理汇总查询(如avg、count、sum等)。­从清理过的样本中估算出一个查询:(1)NormalizedSC:使用清理过的样本来纠正脏数据上查询结果的错误;(2)RawSC:直接根据清理过的样本来估算真实的查询结果。这两种方法都会返回无偏的查询结果和关于样本量的置信区间函数。比较这两种方法,NormalizedSC在­误差较小的数据集上给出了更准确的结果,而RawSC对误差较大的数据集则更为稳健。

贡献

  1. 提出了SampleClean,它只需要用户清理一个数据样本,并利用清理后的样本来处理汇总查询。
  2. 提出了NormalizedSC,它可以使用清理过的样本­ ple来纠正查询结果对未清理过的数据的偏差。
  3. 开发了RawSC,它可以使用清洗过的样本直接估计清洗过的数据的查询结果。
  4. 在真实和合成数据集上进行了广泛的实验。结果表明,估计值可以迅速向真实值靠拢,而清理的样本却少得惊人,与清理所有的数据相比,成本有了明显的提高,与不清理任何数据相比,准确性也有了明显的提高。

【SampleClean】SampleClean: Fast and Reliable Analytics on Dirty Data

摘要

在传统的AQP中,近似法必然会牺牲准确性来换取更快的时间。然而,SampleClean的目标与AQP不同,因为SampleClean以数据清洗成本换取查询精度的逐步提高。虽然SampleClean引入了近似误差,但数据清洗减轻了由于脏数据造成的偏差。这使得有一个平衡点:当有足够数量的数据被清理,以促进对清理后的数据进行准确的近似查询,在这个意义上,抽样实际上提高了查询结果的准确性。

方式

有两种截然不同的估计技术来解决每一个预算的数据清洗问题:直接估计(RawSC)校正(NormalizedSC),具体看A Sample-and-Clean Framework for Fast and Accurate Query Processing on Dirty Data 上面那篇论文的总结。在这些方法之间有一个有趣的理论权衡:RawSC是稳健的,因为它的准确性与数据误差的大小无关,而NormalizedSC是有效的,因为它的准确性比直接估计的方法对样本大小的依赖更小。

数据清洗和AQP结合的相关工作

SampleClean :SampleClean使用干净数据的样本来估计集合(sum、count、avg)查询。SampleClean对数据进行重新加权,以补偿抽样统计的变化,从而使查询结果的估计保持无偏,并在置信区间内有一定的约束。

ViewClean:概括了数据清理的概念,包括对过时的视图进行昂贵的增量维护。物化视图(materialized views ,MV)的迟滞性表现为数据错误,即有缺失的、多余的和不正确的行。就像数据清理一样,急切的MV维护也很昂贵。从陈旧的MV中使用一小部分最新的数据样本来近似地进行汇总查询,结果是有限度的估计。

ActiveClean:ActiveClean将SampleClean扩展到一类称为凸数据分析的分析问题;包括SampleClean中研究的集合体,并包括机器学习,如支持向量机和线性回归。ActiveClean利用问题的凸形结构,优先清理可能影响模型的数据。

【Data Cleaning】Rule-Based Data Cleaning

在本章中,我们将讨论基于规则的技术去清洗有模式R的脏数据库I。我们假设已经为R规定了一套数据质量规则Σ。这可以通过要求领域专家手动策划一套规则,或采用自动发现算法来实现。由于I被认为是脏的,发现算法的目的是发现在数据的大多数部分都成立的 "近似 "数据质量规则。由于发现的数据质量规则会在I上过拟合,因此一般来说对R来说不是正确的质量规则,在使用它们进行数据清理之前,需要由领域专家验证任何发现的质量规则的正确性。

给定一个模式R的脏数据库实例I和一组质量规则Σ,基于规则的技术在两个主要步骤中清理I违规检测,通过识别数据集中与规定的数据质量规则有关的违规行为来检测I中的错误,以及错误修复,更新输入数据以解决违规问题。本章将讨论执行这两个步骤的各种挑战和设计选择。

违规检测

检测错误是任何数据清理活动中必不可少的第一步。通过使用数据质量规则发现的错误通常被称为违规。对于没有存在量词的数据质量规则,一个常用的违规定义如下。"违规是一个不能共存的最小单元集"。我们可以从这个定义中推断出以下事实:

  1. 首先,并非所有违规的单元都是错误的。然而,其中至少有一个是错误的。
  2. 其次,构成违规的单元集合必须是最小的——从该集合中删除任何单元都会使更小的单元集合可以共存于一起而不违规。
  3. 最后,形成违规的单元集合中至少有一个单元必须被改变以解决违规问题。

违规检测存在多种挑战:

  1. 整体性:违规只说明一组单元不能同时存在,这组单元中的一些可能是正确的,一些可能是错误的。拆分单元格单独处理每个违规行为,将无法准确指出哪些单元是错误的;
  2. 追溯问题:数据通常需要经过多个阶段的处理,以达到最终的需求。虽然数据错误起源于源数据,但违规行为通常是在数据处理管道的后期发现的,在那里会有更多的业务逻辑。因此,在后期检测到的违规行为需要追溯到数据源中的错误;
  3. 成本问题:检测涉及k个图元的数据质量规则的违规行为需要从n个输入图元中列举出所有k个图元组合,当n很大时,这种多项式成本会变得非常高。

错误修复

​ 给出一个模式R的关系数据库实例I,它违反了某个数据质量规则;错误修复是指找到另一个符合该套数据质量规则的数据库实例I的过程。下图说明了数据修复技术的分类。

image-20221027234054751

标签:清理,样本,SampleClean,查询,概述,规则,数据
From: https://www.cnblogs.com/zekaiblogs/p/16853090.html

相关文章

  • 信息安全概述
    信息安全的目的:保护企业信息资产随着技术的发展,企业的业务流程及信息处理越来越依赖于IT设施,甚至将所有的业务信息电子化。因此,IT基础设施的正常运行及对电子信息的......
  • Java 程序设计语言概述
    1.Java简介Java是一门面向对象的编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征......
  • Bootstrap概述和Bootstrap快速入门
    Bootstrap概述1.概念:一个前端开发的框架,Bootstrap,来自Twitter,是目前很受欢迎的前端框架。Bootstrap是基于HTML、CSS、JavaScript的,它简洁灵活,使用得Web开发更加快捷。......
  • 机器学习从入门到精通——决策树算法概述以及实现总结
    决策树​​决策树​​​​定义​​​​决策树​​​​概念​​​​熵​​​​条件熵​​​​经验熵,经验条件熵​​​​信息增益​​​​算法​​​​信息增益算法​​​​I......
  • iOS上拉边界下拉白色空白问题解决概述
    表现手指按住屏幕下拉,屏幕顶部会多出一块白色区域。手指按住屏幕上拉,底部多出一块白色区域。产生原因在iOS中,手指按住屏幕上下拖动,会触发 touchmove 事件。这个事......
  • 游戏服务器架构:经典的全服分线模型概述
    全服分线模型一.模型描述由于多进程服务器模型的发展,游戏开发者们首先发现,由于游戏业务的特点,那些需要持久化的数据,一般都是玩家的存档,以及一些游戏本身需要用的,在运行期只......
  • VIVADO IP核:GT高速收发器(概述和IP example)
    这里给出一些我看过的参考文档,相信这些博主的内容已经让您对GT高速收发器有了初步了解https://blog.csdn.net/lum250/article/details/119952822(特别详细的CSDN教程,分析了......
  • DP问题概述
    DP路径问题DP的关键问题在于寻找整个问题当中是否存在(初始状态,转移状态,状态转移方程)等等关键的key,当我们能够寻找到这些key的时候,那么本问题也能够用dp解决。DP关键在......
  • python爬虫基本概述
    python爬虫基本概述 一、爬虫是什么网络爬虫(Crawler)又称网络蜘蛛,或者网络机器人(Robots).它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。换句话来说,它可......
  • 数据库-面试重点-概述
    文章目录​​MySQL的内连接、左连接、右连接有什么区别?​​​​Hash算法​​​​索引的基本原理​​​​百万级别或以上的数据如何删除​​​​数据库为什么使用B+树而不是......