首页 > 其他分享 > 数据处理架构知识

数据处理架构知识

时间:2023-12-23 10:03:49浏览次数:33  
标签:架构 结果 知识 实时 视图 数据处理 数据 Lambda

Lambda架构

Lambda架构由Twitter的首席科学家Nathan Marz提出。这种架构试图平衡延迟、吞吐量、容错性和系统复杂性四个方面,以满足大数据和实时数据处理的需求。Lambda架构主要由三个层次组成:


批处理层(Batch Layer):负责处理大量的历史数据,生成批处理视图。


速度层(Speed Layer):负责处理最新的数据,生成实时视图。


服务层(Serving Layer):负责将批处理视图和实时视图合并,提供最终的数据视图。

 数据处理架构知识_实时处理

这种架构的主要优点是能够处理大规模的数据,并能对新数据进行实时处理。但是,由于需要维护两种处理机制(批处理和实时处理),所以系统的复杂性也相对较高,缺点如下:


1)同样的需求需要开发两套一样的代码


这是 Lambda 架构最大的问题,针对同一个需求需要开发两套代码,一个在批处理引擎上实现,一个在流处理引擎上实现,在写好代码后还需构造数据测试保证两者结果一致,另外,两套代码对于后期维护也非常麻烦,一旦需求变更,两套代码都需要修改,并且两套代码也需同时上线。


2)集群资源使用增多


同样的逻辑需要计算两次,整体占用资源会增多。虽然离线部分是在凌晨运行,但是有可能任务多,在凌晨时造成集群资源使用暴增,报表产出效率就有可能下降,报表延迟对后续展示也有影响。


3)离线结果和实时结果不一致


在此架构中经常我们看到次日统计的结果比昨晚的结果要少,原因就在于次日统计结果和昨日统计结果走了两条线的计算方式:次日统计结果是按照批处理得到了更为准确的批量处理结果。昨晚看的结果是通过流式运行的结果,依靠实时链路统计出的实时结果(实时结果统计累加),牺牲了部分准确性。对于这种来自批量和实时的数据结果对不上的问题,无解。


4)批量计算 T+1 可能计算不完


随着物联网时代的到来,一些企业中数据量级越来越大,经常发现夜间运行批量任务已经无法完成白天 20 多个小时累计的数据,保证早上上班前准时出现数据已成为部分大数据团队头疼的问题。


5)服务器存储大


由于批流两个过程都需要将数据存储在集群中,并且中间也会产生大量临时数据,会造成数据急速膨胀,加大服务器存储压力。


Kappa架构

Kappa架构由LinkedIn的数据工程师Jay Kreps提出。Kappa架构是对Lambda架构的一种简化,它只有一个处理层——实时处理层。


在Kappa架构中,所有的数据都被视为实时数据流,通过实时处理系统进行处理。当需要处理历史数据时,只需要将历史数据重新注入到数据流中即可。


Kappa架构的主要优点是架构简单,只需要维护一种处理机制,降低了系统的复杂性。同时,由于所有数据都是实时处理,所以能够实现更低的数据处理延迟。但是,这种架构也有其局限性,比如处理大规模的历史数据时可能会面临一些挑战。

标签:架构,结果,知识,实时,视图,数据处理,数据,Lambda
From: https://blog.51cto.com/u_16092964/8944270

相关文章

  • 面对对象知识
    一、面向对象的程序设计1.面向对象的设计其实是类的设计2.设计类其实是设计类的成员3.类的成员:成员变量&成员方法扩展:类的成员共有五个:成员变量、成员方法、构造器、代码块、内部类二、面向对象的落地法则1.设计类并设计类的成员2.通过类来创建对象,注意是用new关键字3.通......
  • matlab图像基础知识
    1.MATLAB支持的几种图像文件格式:⑴JPEG(JointPhotogyaphicExpeytsGroup):一种称为联合图像专家组的图像压缩格式。⑵BMP(WindowsBitmap):有1位、4位、8位、24位非压缩图像,8位RLE(RunlengthEncoded)的图像。文件内容包括文件头(一个BITMAPFILEHEADER数据结构)、位图信息数据块(位图信......
  • Linux内核在RISC-V架构下的spinlock实现
    riscv没有sev/wfe指令,当前无法在spinlock时省功耗,只能通过while循环不断检查条件。本文分析linux内核下对于spinlock的实现,具体到RISC-V体系结构。由于RISC-V体系结构下目前只是简单的实现了一个基于TAS的最基本的spinlock,本文的另一个附加任务就是分析Linux内核为各个平台下实......
  • 风控系统架构设计
    作者:铁原链接:https://www.zhihu.com/question/20860347/answer/33446734来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。曾任某公司风控架构师。设计风控系统能力单机TPS200~2000(接入实时统计系统)响应时间小于200ms任意业务规则情况下。下面是......
  • 升讯威在线客服系统的并发高性能数据处理技术:超强的 SignalR
    我在业余时间开发维护了一款免费开源的升讯威在线客服系统,也收获了许多用户。对我来说,只要能获得用户的认可,就是我最大的动力。最近客服系统成功经受住了客户现场组织的压力测试,获得了客户的认可。客户组织多名客服上线后,所有员工同一时间打开访客页面疯狂不停的给在线客服发消......
  • 首批!天翼云大数据平台率先通过信通院无服务器架构大数据平台测试
    近日,天翼云大数据平台顺利完成中国信通院无服务器(Serverless)架构大数据平台测试,成为首批通过该测试的单位之一。本次测试依据《基于无服务器(Serverless)架构的大数据平台技术要求》展开。该要求是中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员......
  • 3D 纹理贴图基础知识
    在线工具推荐:3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.jsAI自动纹理开发包 - YOLO虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎介绍纹理贴图是创建模型时离不开的最后一块拼图。同样,如果没有纹理贴图的多样......
  • 计算机组成原理知识总结
    DDR和DRAM的关系DDR(DoubleDataRate)和DRAM(DynamicRandomAccessMemory)是两个相关但不同的概念,它们通常一起使用,但表示的是不同的层面。DRAM(DynamicRandomAccessMemory):定义:DRAM是一种随机存取存储器,用于在计算机系统中存储数据和程序。它属于一种动态存储器,意味着需......
  • 408---冷门知识点总结
    博客园的排版有点抽象...DSKMPhttps://www.cnblogs.com/lordtianqiyi/p/17795838.html并查集手搓并查集代码+两种优化#include<stdio.h>#include<math.h>intfind(intA[],intm);voidInit(intA[],intlen){for(inti=0;i<len;i++)A[i]=-1;}voiddebug(int......
  • YARN集群架构
          玩Hadoop的不知道YARN?这简直是天大的笑话!之前介绍Hadoop核心组件的时候(详见《Hadoop的“前世今生”》那篇博文)就曾提到过“YARN是实现了集群资源管理以及作业调度的框架”,那么本文就对YARN集群架构做进一步的介绍。      YARN集群总体上是经典的Mast......