- 2024-11-16读数据质量管理:数据可靠性与数据质量问题解决之道05数据标准化
1. 批处理1.1. 批处理在一段时间内收集数据,然后将大量数据“批处理”在离散的数据包中1.2. 直到20世纪10年代中期,批处理都是处理分析型数据最常用的方法1.3. 批处理比流处理要便宜得多,即使是对时间要求最苛刻的处理需求也足以满足1.4. 批处理是经过时间考验的标准,并且仍
- 2024-11-15读数据质量管理:数据可靠性与数据质量问题解决之道04收集与清洗
1. 收集数据1.1. 数据收集和清洗是生产管道中的第一步1.1.1. 数据转换和测试则在生产管道中解决数据质量问题1.2. 在收集数据时,管道的任何地方可能都没有入口点重要,因为入口点是任何数据管道中最上游的位
- 2024-11-10读数据工程之道:设计和构建健壮的数据系统33未来
1. 未来1.1. 运营的优先级和最佳实践与技术可能会改变,但生命周期的主要阶段会在许多年内保持不变1.2. 随着组织以新的方式利用数据,将需要新的基础、系统和工作流来满足这些需求1.3. 如果工具变得更容易使用,数据工程师就会向价值链上游移动,专注于更高级别的工作1.4. 数据
- 2024-11-09读数据工程之道:设计和构建健壮的数据系统32序列化和云网络
1. 序列化1.1. 仅仅通过从CSV转换到Parquet序列化,任务性能就提高了上百倍1.2. 基于行的序列化1.2.1. 基于行的序列化是按行来组织数据1.2.2. 对于那些半结构化的数据(支持嵌套和模式变化的数据对象),基于行的序列化需要将每个对象作为一个单元来存储1.2.3. CSV格
- 2024-11-03读数据工程之道:设计和构建健壮的数据系统26数据建模
1. 数据建模1.1. 良好的数据架构必须反映出使用这些数据的组织的业务目标和业务逻辑1.2. 数据湖1.0、NoSQL和大数据系统的兴起,使工程师们有时是为了合理的性能提升去忽略传统的数据建模1.3. 数据在企业中的地位急剧上升,人们越来越认识到,建模对于实现数据科学需求层次金字
- 2024-11-02读数据工程之道:设计和构建健壮的数据系统25查询
1. 查询1.1. 通过理解查询、建模和转换,你会掌握将原始数据转化为下游利益相关者可用数据的工具1.2. 被很多人熟知的SQL,这是最流行和通用的查询语言1.3. 查询是数据工程、数据科学和数据分析的基础1.4. 在了解数据转换的基本模式和技术之前,你需要了解什么是查询、它如
- 2024-10-27读数据工程之道:设计和构建健壮的数据系统21数据获取
1. 数据获取1.1. 数据获取是将数据从一个地方移动到另一个地方的过程1.1.1. 数据获取与系统内部获取是不同的1.2. 数据获取是数据工程生命周期中将数据从源系统移入存储的一个中间步骤1.3. 数据集成则是将来自不同来源系统的数据组合到一个新的数据集1.4. 数据获取
- 2024-10-26读数据工程之道:设计和构建健壮的数据系统20数据工程存储抽象
1. 数据工程存储抽象1.1. 数据工程存储抽象是数据组织和查询模式,位于数据工程生命周期的核心,建立在之前讨论的数据存储系统之上1.2. 关键的考虑1.2.1. 目的和用例1.2.1.1. 必须首先确定存储数据的目的1.2.2. 更新模式1.2.2.1. 是否针对批量更新、流式插入或
- 2024-10-20读数据工程之道:设计和构建健壮的数据系统14源系统
1. 源系统中的数据生成1.1. 数据工程师的工作是从源系统获取数据,对其进行处理,使其有助于为下游用例提供服务1.2. 数据工程师的角色将在很大程度上转向理解数据源和目的地之间的相互作用1.3. 数据工程的最基本的数据管道任务——将数据从A移动到B2. 数据源2.1. 数据是
- 2024-10-17读数据工程之道:设计和构建健壮的数据系统11云经济学
1. 部署位置1.1. 当公司在决择在何处搭建技术栈时会有数不清的选择1.1.1. 除非有令人信服的理由,否则不要选择复杂的多云或混合云策略1.2. 本地1.2.1. 当越来越多的初创公司在云技
- 2024-10-13读数据工程之道:设计和构建健壮的数据系统06底层设计(下)
1.数据问责制1.1.数据问责制意味着分配一个人来管理一部分数据1.1.1.负责人协调其他利益相关者的治理活动1.1.2.如果没有人对相关数据负责,那么管理数据质量就会很困难1.1.3.负责数据的人不一定是数据工程师1.1.4.负责人可能由软件工程师、产品经理或其他角色担任1.1.5
- 2024-10-13读数据工程之道:设计和构建健壮的数据系统03数据工程生命周期(上)
1. 数据工程生命周期1.1. 数据领域正在经历新数据技术和实践的爆炸式增长,抽象程度和易用性不断提高1.2. 由于技术抽象程度的增加,数据工程师将越来越多地成为数据生命周期工程师,根据数据生命周期管理的原则来进行思考和操作1.3. 数据工程生命周期包括将原始数据成分转化
- 2024-10-13读数据工程之道:设计和构建健壮的数据系统07数据架构的原则
1. 企业架构1.1. 企业架构有很多子集,包括业务、技术、应用程序和数据1.2. TOGAF1.2.1. TheOpenGroupArchitectureFramework,是TheOpenGroup的一个标准1.2.2. 被誉为当今使用最广泛的架构框架1.2.3. 定义1.2.3.1. “企业架构”上下文中的术语“企业”可
- 2024-10-07读数据工程之道:设计和构建健壮的数据系统01数据工程概述
1. 数据工程1.1. 自从公司开始使用数据做事,数据工程就以某种形式存在了1.1.1. 预测性分析、描述性分析和报告1.2. 数据工程师获取数据、存储数据,并准备数据供数据科学家、分析师和其他人使用1.3. 数据工程是系统和流程的开发、实施和维护,这些系统和流程接收原始数据并
- 2024-10-06读数据湖仓08数据架构的演化
1. 数据目录1.1. 需要将分析基础设施放置在数据目录(DataCatalogue)的结构中1.1.1. 元数据1.1.2. 数据模型1.1.3. 本体1.1.4. 分类标准1.2. 数据目录类似于图书馆的图书检索目录1.2.1. 先通过图书馆的图书检索目录进行查找,以便快速找到所需的图书
- 2024-10-05读数据湖仓07描述性数据
1. 描述性数据1.1. 基础数据中包含不同类型的数据,而不同类型数据的描述性数据也存在显著的差异1.2. 尽管这些描述性数据存在根本性的差异,但通过描述性数据,我们可以全面了解基础数据中的数据1.3. 通过分析基础设施中提供的描述性数据可以获得更详细的数据1.3.1. 分析基
- 2024-10-04读数据湖仓06数据集成
1. 数据湖仓中的数据集成1.1. 数据湖仓的总体目标是为每一个人提供支持,包括从普通职员到CEO1.2. 有了作为基础设施的基础数据,企业等组织才能实现真正的数据驱动1.3. 提供组织所需的数据,最关键的一环在于提供集成的数据基础1.3.1. 只将数据扔进数据湖仓就指望它能满足
- 2024-10-03读数据湖仓05数据需要的层次
1. 业务价值1.1. 技术和商业在这个世界上是相互交织的1.1.1. 基础数据在商业和技术应用中是不可或缺的1.2. 技术的存在是为了推动商业的目标和进步,并由企业出资支持1.2.1. 当技术推动商业发展时,商业会蓬勃发展,技术也会随之繁荣1.2.2. 当技术发展偏离这个基本模
- 2024-10-02读数据湖仓04数据架构与数据工程
1. 大容量存储器1.1. 几乎是到最后时刻,大容量存储器才被引入基础数据的基础设施中1.1.1. 分析人员通常不会直接在大容量存储器中进行数据分析1.1.2. 大容量存储器在基础数据中扮演的角色也特别重要,它能够在许多方面支持数据分析人员自由灵活地完成工作,也为数据湖仓的
- 2024-09-27读数据湖仓01让数据可信
1. 让数据可信1.1. 每个终端用户(EndUser)都有一个共同的需求:访问想要的数据1.2. 真的能够相信我正在访问的这些数据吗?1.2.1. 终端用户很快就会发现,访问数据和相信正在访问的数据是两回事1.2.2. 访问数据和相信数据不是同一回事1.2.3. 如果数据不可信,可能会导
- 2024-08-25adc-ads1281驱动流程
ADS1281是一款高性能、低功耗的模拟-数字转换器(ADC),关于其数据读写,从数据手册中获取的一些重要信息。1.时序 同步信号:上电SYNC引脚给出一个高低脉冲后挂载多个ADS1281后,同一个DREADY信号控制从机数据同步。2.连续读数据模式
- 2024-06-22python读数据,并且 csv格式的,如何应对。
s545112015022319.txt要求 通过python 导入程序 高度(距地) 时间 气温 气压 湿度 露点 温露差 虚温 风向 风速 纬度差 经度差0 0 0.0 0.9 1015 38-11.8 12.7 1.6 203 1 0.0 0.01 10 0.
- 2024-06-03日常Bug排查-MVCC和for update混用导致读数据不一致
日常Bug排查-MVCC和forupdate混用导致读数据不一致前言日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。Bug现场又是喜闻乐见的读数据不一致的问题。这次的问题是这样,业务在一个事务中更新A和B两个表的两个数据。但是在另一
- 2024-05-20日常Bug排查-偶发性读数据不一致
日常Bug排查-偶发性读数据不一致前言日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。Bug现场业务场景先描述这个问题出现的业务场景。这是一个支付的场景,如果支付成功了,我们就把支付状态置为success(主单据更新)同时写入支
- 2024-03-12HDFS读数据流程、NN和2NN工作机制、DataNode工作机制、数据完整性
HDFS读数据流程 事件描述:客户端要下载一个200m的数据文件,hdfs是如何读取的。 两个对象:一个客户端、一个集群 流程: 1.客户端创建一个分布式文件系统(DistributedFileSystem),向集群NameNode请求下载文件。