首页 > 其他分享 >【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践

【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践

时间:2024-12-08 15:28:37浏览次数:10  
标签:架构设计 存储 架构 速通 处理 软考 视图 数据处理 数据

文章目录

一、前言

笔记目录大纲请查阅:【软考速通笔记】系统架构设计师——导读

二、传统数据库遇到的问题

2.1 问题的根源

  • 用户访问量增加:随着业务的扩展,用户数量激增导致并发请求增多。
  • 数据量增长:业务数据的累积导致数据库存储压力增大。
  • 性能瓶颈:数据库读写操作因数据量增加而响应时间延长,甚至超时。

2.2 传统解决方法

  • 异步处理:引入消息队列等机制,减轻数据库即时处理压力。
  • 数据库分区:通过Key分区或范围分区,分散数据存储和访问压力。
  • 分片技术:数据库分片或重新分片,提高数据管理的灵活性和查询效率。
  • 读写分离:将读操作和写操作分离,提高数据库的并发处理能力。
  • 分库分表:通过物理或逻辑的方式,将数据分散存储,提升性能。

三、大数据基础

3.1 大数据处理技术

  • 分布式文件系统:如Hadoop,提供高吞吐量的数据访问。
  • 数据处理框架:Map/Reduce和Spark,用于大规模数据集的并行处理。
  • 消息队列:如Kafka,配合Avro等二进制格式,实现高效的数据传输。

3.2 大数据利用过程

  • 采集:从多个数据源收集数据。
  • 清洗:去除无效或错误的数据。
  • 统计:对数据进行汇总和分析。
  • 挖掘:使用机器学习等技术发现数据中的模式和趋势。

3.3 大数据处理系统面临的挑战

  • 非结构化数据处理:如何处理和分析非结构化和半结构化数据。
  • 复杂性与不确定性:探索大数据的特征描述和系统建模方法。
  • 数据异构性:数据异构性对知识发现和管理决策的影响

3.4 大数据具有的属性和特征

  • 鲁棒性和容错性:系统能够处理部分节点故障。
  • 低延迟:快速响应查询请求。
  • 横向扩展:通过增加节点而非增强单个机器性能来扩展系统。
  • 通用性:适用于多种类型的数据处理任务。
  • 可扩展性:系统能够灵活扩展以适应数据量的增长。
  • 即席查询:用户可以根据自己的需求进行查询。
  • 维护简便:系统设计简单,易于维护。
  • 可调试:系统可以根据需要调整性能和资源分配。

四、Lanbda架构

Lanbda架构是一种用于同时处理离线和实时数据的、可容错的、可扩展的分布式系统。

  • 优点:容错性好,查询灵活度高,弹性伸缩,易于扩展。
  • 缺点:编码量大,持续处理成本高,重新部署和迁移成本高。

4.1 批处理层

  • 数据存储:使用Hadoop HDFS或HBase存储主数据集,保证数据的原始性和不可变性。
  • 数据处理:使用Spark或MapReduce周期性地处理增量数据并存储到主数据集。
  • 批视图生成:使用MapReduce用于生成批处理视图。

4.2 加速层

  • 实时数据处理:使用Hadoop HDFS或HBase处理和存储增量实时数据。
  • 实时视图实现:使用Spark或Storm进行实时数据处理和视图。

4.3 服务层

  • 请求响应:合并批视图和实时视图的结果数据集,提供最终数据集。
  • 数据存储:使用Hbase或Cassandra作为服务层存储。
  • 查询视图:使用Hive创建可查询的视图

五、Kappa架构

Kappa架构是在Lambda架构的基础上进行了优化,删除了Batch Layer的架构,将数据通道以消息队列进行替代。

  • 优点:简化了Lambda架构中的加速层,统一了离线和实时处理代码,便于维护。
  • 缺点:可能存在性能瓶颈,数据关联处理开销大,牺牲了离线计算的可靠性。

5.1 实时层

  • 流式处理:采用流式处理引擎逐条处理输入数据,生成实时视图。
  • 数据回访:使用Kafka等消息队列回访数据,使用Flink或Spark Streaming进行处理。

5.2 服务层

  • 数据湖:Kappa架构倾向于将所有原始数据存储在数据湖中,以供后续分析和处理。这有助于保留所有历史数据,并支持未来的查询和分析需求。可以使用分布式存储系统(如 Apache Hadoop HDFS)

六、Lambda和Kappa对比

对比内容LambdaKappa
复杂度维护两套系统(引擎),复杂度高,成本高维护一套系统(引擎),复杂度低,成本低
计算开销周期性批处理计算,维持实时计算,计算开销大必要时进行全量计算,计算开销相对较小
实时性满足实时性满足实时性
历史数据处理能力批式全量处理,吞吐量大,历史数据处理能力强。流式全量处理,吞吐量相对较低,历史数据处理能力相对较低
技术依赖依赖Hadoop、Spark、Storm技术依赖Flink计算引擎、流式计算

若觉得文章对你有帮助,随手『点赞』、『收藏』、『关注』,也是对我的支持。

标签:架构设计,存储,架构,速通,处理,软考,视图,数据处理,数据
From: https://blog.csdn.net/kangweijian/article/details/144302152

相关文章

  • 对于前端项目,你是如何做架构设计的?
    前端项目架构设计需要考虑多方面的因素,目标是创建一个可维护、可扩展、高性能和易于协作的应用。以下是我通常会考虑的一些关键方面:1.项目类型和规模:小型项目(例如简单的landingpage,小型工具):可能只需要简单的文件结构,少量JavaScript文件,甚至无需构建工具。中型项......
  • 再用RNN神经网络架构设计生成式语言模型
    上一篇:《用谷歌经典ML方法方法来设计生成式人工智能语言模型》序言:市场上所谓的开源大语言模型并不完全开源,通常只提供权重和少量工具,而架构、训练数据集、训练方法及代码等关键内容并未公开。因此,要真正掌握人工智能模型,仍需从基础出发。本篇文章将通过传统方法重新构建一个语......
  • LLM-based Multi-Agent 系统架构设计与项目代码实践
    LLM-basedMulti-Agent系统架构设计与项目代码实践关键词:大语言模型(LLM)、多智能体系统、系统架构设计、项目实践、人工智能、协作机制、决策优化摘要:本文深入探讨了基于大语言模型(LLM)的多智能体系统架构设计及其实际项目实现。文章从多智能体系统的基本概念出发,详......
  • C++学习日记---第18天(5k字 重载运算符快速通关)
    (本文包含了从基础到中等的运算符重载内容,以及一些在编写代码时可能遇到的问题) 笔记复习1.运算符重载以代码实现一个类的两个对象相加为例#include<iostream>usingnamespacestd;classperson{ intm_deposit=1000; intincome=100;};intmain(){ person......
  • 软考教材重点内容 信息安全工程师 第 8 章防火墙技术原理与应用
    8.1.1防火墙概念根据网络的安全信任程度和需要保护的对象,人为地划分若干安全区域,这些安全区域有:公共外部网络,如Internet;内联网(CIntranet),如某个公司或组织的专用网络,网络访问限制在组织内部;外联网(Extranet),内联网的扩展延伸,常用作组织与合作伙伴之间进行通信;军......
  • 系统架构设计师第二版备忘录
    第1章绪论第2章计算机系统基础知识第3章信息系统基础知识第4章信息安全技术基础知识第5章软件工程基础知识5.1软件工程软件开发方法,架构中没有:5.1.2软件过程模型名称描述关键词瀑布模型WaterfallModel(架构176、系分247、软设248)需求明确增量模型Increme......
  • 哈希表(【通俗易懂】知识点讲解,可速通,小白友好)
    一、哈希表的目的哈希表是用在查找问题中的。我们知道,一条数据包含了关键字和其他信息,所以一般查找问题的流程是:根据某条数据的关键字(key),在一个数据结构中(可能是线性表,也可能其他存储数据的结构),查找这条数据全部的内容。哈希表的目的是,只要知道了要查找数据的关键字,那么就可......
  • Python实现12306 抢票小助手(速通)
            在如今这个快节奏的时代,出行需求日益增长,尤其是在节假日或者特殊时期,购买火车票往往成为一件颇具挑战性的事情。为了帮助大家更顺利地抢到心仪的车票,今天我将为大家详细解析一段12306抢票助手的代码,并教大家如何使用它。结果展示(文末附完整代码):目录结果......
  • win10模拟软考极点五笔输入法方法
    写文背景2024年下半年报考了软考高级,现在还没出成绩,暂时不管过没过,我在这次软考中的论文书写体验是很差的,论文差点因为频繁切换输入法输入中英文没写完……考试最后几秒前写完。为啥呢?我日常使用五笔输入法,在win10环境中一般会用到微软五笔。问题是软考的五笔输入法有两种:搜狗......
  • 【系统架构设计师论文】边缘计算技术与实践
    一、边缘计算概述1.1什么是边缘计算?边缘计算(EdgeComputing)是一种分布式计算范式,将数据处理、存储和应用程序部署从集中式数据中心转移到更靠近数据源(如传感器、IoT设备或本地服务器)的位置。边缘计算通过在靠近用户或设备的地方进行数据处理,从而减少延迟、提高效率,并降......