首页 > 其他分享 >离线数据和实时数据相关

离线数据和实时数据相关

时间:2023-06-25 11:35:49浏览次数:60  
标签:场景 离线 实时 时效性 数据 延迟

数据从业务端产生,到分析或者反哺业务使用,需要经过一系列的清洗、处理过程,这一个过程往往需要一定的时间窗口,这就是数据的时效性。

按照数据延迟的大小,可以将数据分为实时数据和离线数据。

一、离线数据

离线数据一般指T+1的日期,数据结果中,能够体现的业务数据最新的是前一天的数据。

离线数据处理也称为“批处理”,数据产生之后,不会立即进行处理,而是在固定的周期进行ETL,例如每天在凌晨12:00之后,处理前一天产生的数据。

离线数据处理技术比较成熟,常见的Hadoop,对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据存储,MapReduce计算,Hive进行数仓建设或基于Hivesql进行数据查询。

优势:能够处理大量数据、数据更加准确。不足:时效性差,今天的数据明天才能看到。

二、实时数据

实时数据主要是指数据延迟小,例如毫秒、秒、分钟级的延迟,小时级的延迟称为“准实时数据”。

实时数据处理也称为“流处理”,数据产生后就立即被清洗处理。实时数据一般是业务端产生(水源),通过kafka等消息通道(水流管道)进行传输,利用storm或flink等实时组件进行消费处理。例如,双十一统计每秒的订单数。

优势:时效性强,实时获取直观数据。不足:需要不停计算数据,集群资源消耗大。数据周期短,没办法存储太长时间的数据,一般数据计算的周期限定在一周内。

三、实时数据与离线数据的特征对比

特征  实时数据  准实时数据  离线数据 
时效性 低延迟(毫秒、秒) 中延迟(小时) 高延迟(天)
计算模式 流处理  批处理 批处理
访问数据范围 窗口内数据 访问全部数据 访问全部数据
数据特征 动态、无边界  静态、有边界 静态、有边界
准确性 较高
开发周期
数据可回溯周期
应用场景 大屏可视化、推荐系统、实时数据监测 实时数据监测 离线报表、数据分析

四、实时数据和离线数据的应用场景

1.业务经营分析、财务分析对准确性的要求更高,倾向于离线数据

对于数据分析场景,业务经营和财务分析希望数据能更加准确的反应实际业务情况和盈亏情况,使用T+1数据可以接受。

2.预警监控类分析,强调时效性,倾向于实时数据

如果出现系统宕机、产品报错、客户投诉问题,没有及时处理,将带来较大的损失。因此,需要实时的数据分析模块,对业务核心指标、系统服务指标进行最小延迟的预警监控。

一般的数据可视化平台,有一个实时数据模块就可以了,其他的主题分析以离线为主。

3.个性化推荐,用户行为需要实时反馈

针对个性化推荐的场景,就要做到数据的最小延迟,如果等用户都退出app数据才计算完成更新,用户就流失了。

4.用户运营及营销场景

用户运营场景中,流失用户召回、会员运营活动等活动中,对数据时效性等要求不高,但是实时的场景触达需要实时数据。例如,客户打开app,需要及时判断是否是新客,发放新客礼包。

五、总结

无论离线数据还是实时数据,都是为了解决业务场景下的问题,在明确其背后的原理和差异后,再去选择实时数据或离线数据,合理调度资源来达成业务目标。

标签:场景,离线,实时,时效性,数据,延迟
From: https://www.cnblogs.com/qwb1997/p/17502488.html

相关文章

  • 基本数据类型Symbol
    参考https://blog.csdn.net/darabiuz/article/details/121962153Symbol的方法Symbol()每次被调用都会生成一个新的Symbol,写法没有登记机制,所以每次调用都会返回一个不同的值Symbol.for()不会每次调用就返回一个新的Symbol,而是会先检查给定的key是否已经存在,如果不存在,则会在......
  • Redis缓存使用技巧和设计方案?薪火数据知识库
    Redis是一种开源的内存数据库,被广泛应用于缓存系统设计和实现中。它提供了高性能、低延迟的数据访问,并支持多种数据结构和丰富的功能。下面将详细介绍Redis缓存的使用技巧和设计方案。一、Redis缓存基本原理:数据存储结构:Redis支持多种数据结构,如字符串(String)、哈希(Hash)、列......
  • pgcat 基于rust 开发类似pgbouncer 的数据库链接池以及proxy 工具
    pgcat是postgresml团队开源的,pg链接池以及proxy工具,包含了不少特性特性事物pool,类似pgbouncer,对于异常客户端以及遗弃事物处理做了提升sessionpool类似pgbouncer多线程运行时读查询负载均衡,对于primary以及replicas进行自动负载均衡故障转移,支持健康检查admin统计数据库,类......
  • 2023年东莞/惠州/深圳CPDA数据分析师认证报名
    CPDA数据分析师认证是大数据方面的认证,助力数据分析人员打下扎实的数据分析基础知识功底,为入门数据分析保驾护航。帮助数据分析人员掌握系统化的数据分析思维和方法论,提升工作效率和决策能力,遇到问题能够举一反三,为大部分决策难题提供解决方案。帮助数据分析人员掌握几种通用的数据......
  • 2023年上海/广州/深圳DAMA-CDGA/CDGP数据治理认证班
    DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业竞争能力。DAMA是数据管理方面的认证,帮助数据从业者提升......
  • U8 数据精度修改
    U8的数据精度加大是可以修改的,但需要当前账套所有人员都退出账套,修改人员是账套主管进入: 然后修改数据精度为指定位数即可,如下图可以将精度为2修改为4: ......
  • 数据人同城交友之旅,交流探讨倾听学习
    原文链接:http://tecdat.cn/32858-2作为数据人,我们渴望结识志同道合的伙伴!但忙碌的生活让我们错过了交流的机会。让时间慢下来,深入了解彼此,收获更多美好的想象。用热情和智慧点燃城市的火花,打造属于我们的数据圈子。期待与你相遇,开启难忘的数据之旅!为什么要加入数据人同城交友群......
  • 语音信号的哈夫曼编码压缩解压缩算法matlab仿真,输出编码后数据大小,编码树等指标
    1.算法仿真效果matlab2022a仿真结果如下:     2.算法涉及理论知识概要        利用哈夫曼编码进行信息通信可以较大提高信道利用率,缩短信息传输时间,降低传输成本。但是,这要求在发送端通过一个编码系统对待传数据预先编码;在接收端将传来的数据进行译码......
  • 零代码量化投资:用ChatGPT下载沪深300成分股历史数据
    很多量化策略都会以沪深300成分股作为股票池。因此,沪深300成分股历史数据会经常用到。在ChatGPT输入如下提示语,就可以下载沪深300成分股历史数据:沪深300成分股:query_hs300_stocks()方法说明:通过API接口获取沪深300成分股信息,更新频率:每周一更新。返回类型:pandas的DataFrame类型。使......
  • 【数据结构】树的介绍
    前言......