首页 > 其他分享 >kafka系列(一)【消息队列、Kafka的基本概念、Kafka的工作机制、Kafka可满足的需求、Kafka的特性、Kafka的应用场景】

kafka系列(一)【消息队列、Kafka的基本概念、Kafka的工作机制、Kafka可满足的需求、Kafka的特性、Kafka的应用场景】

时间:2024-02-03 19:32:42浏览次数:32  
标签:异步 队列 分区 kafka 集群 消息 Kafka

(kafka系列 一)

转自《Kafka并不难学!入门、进阶、商业实战》

一、消息队列

1. 消息队列的来源

在高并发的应用场景中,由于来不及同步处理请求,接收到的请求往往会发生阻塞。 例如,大量的插入、更新请求同时到达数据库,这会导致行或表被锁住,最后会因为请求堆积过多而触发“连接数过多的异常”(TooMany Connections)错误。 因此,在高并发的应用场景中需要一个缓冲机制,而消息队列则可以很好地充当这样一个角色。==消息队列通过异步处理请求来缓解系统的压力。==

2. 什么是消息队列

“消息队列”(Message Queue,MQ)从字面来理解,是一个队列,拥有先进先出(FirstInputFirst Output,FIFO)的特性。它主要用于不同进程或线程之间的通信,用来处理一系列的输入请求。 ==消息队列采用异步通信机制==。即,消息的发送者和接收者无须同时与消息队列进行数据交互,消息会一直保存在队列中,直至被接收者读取。每一条消息记录都包含详细的数据说明,包括数据产生的时间、数据类型、特定的输入参数。

3. 消息队列主要有哪些作用

在实际的应用中,消息队列主要有以下作用。

  1. 应用解耦:多个应用可通过消息队列对相同的消息进行处理,应用之间相互独立,互不影响;
  2. 异步处理:相比于串行和并行处理,异步处理可以减少处理的时间;(不需要等待响应)
  3. 数据限流:流量高峰期,可通过消息队列来控制流量,避免流量过大而引起应用系统崩溃;
  4. 消息通信:实现点对点消息队列或聊天室等。

二、Kafka的基本概念

Kafka 是==一个分布式实时数据流平台==,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。==它提供了发布与订阅功能==。用户可以发送数据到 Kafka 集群中,也可以从Kafka集群中读取数据。

代理、生产者、消费者、消费者组

  1. 代理 (Broker)

在Kafka集群中,一个Kafka进程(Kafka进程又称为 Kafka实例)被称为一个代理(Broker)节点。代理节点是消息队列中的一个常用概念。通常,在部署分布式 Kafka 集群时,一台服务器上部署一个Kafka 实例。

  1. 生产者 (Producer)

在Kafka 系统中,生产者通常被称为 Producer。 Producer 将消息记录发送到 Kafka 集群指定的主题(Topic)中进行存储,同时生产者(Producer)也能通过自定义算法决定将消息记录发送到哪个分区(Partition)。

  1. 消费者(Consumer)

消费者(Consumer)从 Kafka 集群指定的主题(Topic)中读取消息记录。在读取主题数据时,需要设置消费组名(Groupd)。如果不设置,则 Kafka 消费者会默认生成一个消费组名称。

  1. 消费者组(Consumer Group)

消费者程序在读取 Kafka 系统主题 (Topic)中的数据时,通常会使用多个线程来执行。一个消费者组可以包含一个或多个消费者程序,使用多分区和多线程模式可以极大提高读取数据的效率。

主题、分区、副本、记录

  1. 主题 (Topic)

Kafka 系统通过主题来区分不同业务类型的消息记录。 例如,用户登录数据存储在主题 A 中,用户充值记录存储在主题 B 中,则如果应用程序只订阅了主题A,而没有订阅主题 B,那该应用程序只能读取主题A 中的数据。

  1. 分区(Partition)

每一个主题(Topic)中可以有一个或者多个分区(Partition)。在 Kafka 系统的设计思想中,分区是基于物理层面上的,不同的分区对应着不同的数据文件。 Kafka 通过分区(Partition)来支持物理层面上的并发读写,以提高Kafka 集群的吞吐量 每个主题(Topic)下的各分区(Partition)中存储数据的具体流程在这里插入图片描述每个分区(Partition)内部的消息记录是有序的,==每个消息都有一个连续的偏移量序号(Offset)== 一个分区只对应一个代理节点 (Broker),一个代理节点可以管理多个分区。

  1. 副本(Replication)

在 Kafka 系统中,每个主题 (Topic)在创建时会要求指定它的副本数,默认是 1。通过副本(Replication)机制来保证 Kafka 分布式集群数据的高可用性。

  1. 记录(Record)

被实际写入到 Kafka 集群并且可以被消费者应用程序读取的数据,被称为记录(Record)。每条记录包含一个键(Key)、值 (Value)和时间戳(Timestamp)

三、了解 Kafka的工作机制-生产消息/消费消息

Kafka 作为一个消息队列系统,其核心机制就是生产消息和消费消息。 在Kafka 基本结构中,生产者(Producer)组件和消费者(Consumer)组件互不影响,但又是必须存在的。缺少生产者和消费者中的任意一方,整个Kafka 消息队列系统将是不完整的。

  • 生产者 (Producer)负责写入消息数据。将审计日志、服务日志、数据库、移动 App 日志,以及其他类型的日志主动推送到 Kafka 集群进行存储。

  • 消费者(Consumer)负责读取消息数据。例如,通过 Hadoop 的应用接口、Spark 的应用接口、Storm 的应用接口、ElasticSearch 的应用接口,以及其他自定义服务的应用接口,主动拉取 Kafka 集群中的消息数据

另外,Kafka 是一个分布式系统,用 Zookeeper 来管理、协调 Kafka集群的各个代理(Broker)节点。当 Kafka 集群中新添加了一个代理节点,或者某一台代理节点出现故障时,Zookeeper服务将会通知生产者应用程序和消费者应用程序去其他的正常代理节点读写。

四、Kafka可满足的需求

  1. 高吞吐量

日常生活中所使用的支付宝、微信、QQ 这类软件的用户量非常庞大,每秒产生的数据流量也非常巨大。面对这类场景,若要实时地聚合消息日志,必须具有高吞吐量才能支持高容量事件流。

  1. 高可用队列

分布式消息队列系统都具有异步处理机制。另外,分布式消息队列系统一般都拥有处理大量数据积压能力,以便支持其他离线系统的定期数据加载。

  1. 低延时

实时应用场景对时延的要求极为严格。耗时越少,则结果越理想。这意味着,设计出来的系统必须拥有低延迟处理能力。

  1. 分布式机制

系统还需具有支持分区、分布式、能实时处理消息等特点,并能在机器出现故障时保证数据不丢失。

五、Kafka的特性

  1. 异步生产数据

从Kafka 0.8.2起,生产者 (Producer)写数据时不再区分同步和异步,所有的操作请求均以异步的方式发送,这样大大地提高了客户端写数据的效率。 异步方式将数据批量的发送到 Kafka 不同的代理 (Broker)节点因此也减少了 Kafka 服务端的资源开销。这种方式在与 Kafka 系统进行网络通信时,能够有效地减少等待时间。

  1. 偏移量迁移 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

六、Kafka的场景

在这里插入图片描述

标签:异步,队列,分区,kafka,集群,消息,Kafka
From: https://blog.51cto.com/u_15323027/9570170

相关文章

  • Poj 3414 Pots (BFS+回溯+队列)
    这道题需要输出最后结果的执行过程,可以通过结构体,在结构体中定义一个数组s,s中存储了每一步的执行过程,实现了回溯。并且在运行中可以适当剪枝,减少枚举次数。 #include<iostream>#include<queue>#include<cstring>usingnamespacestd;constintN=110;intaa,bb,cc,vis[N......
  • Poj 3278 Catch That Cow (BFS+队列)
    #include<iostream>#include<queue>#include<cstring>usingnamespacestd;constintN=1e5+10;intn,k,line[N],way;structnode{intloc,step;};queue<node>q;voidBFS(intn,intk){while(!q.empty())q.pop();nodestart,next......
  • 代码随想录算法训练营第十天| 堆栈理论基础 232.用栈实现队列 225. 用队列实现栈
    堆栈理论基础 代码随想录(programmercarl.com)STL中栈往往不被归类为容器,而被归类为containeradapter(容器适配器)。栈的内部结构,栈的底层实现可以是vector,deque,list都是可以的,主要就是数组和链表的底层实现。我们常用的SGISTL,如果没有指定底层实现的话,默认是以deque为缺......
  • kafka.md
    Kafka目录Kafka介绍介绍事件流(EventStreaming):从技术上讲,事件流是以事件流的形式从数据库、传感器、移动设备、云服务和软件应用程序等事件源实时捕获数据的做法;持久地存储这些事件流以供以后检索;实时地以及回顾性地操纵、处理和响应事件流;以及根据需要将事件流路由到不同的......
  • js处理事件:异步处理事件与线程,使用队列按序执行,事件广播,事件bus,事件监听,变量监听,动态
    js处理事件:异步处理事件与线程,使用队列按序执行,事件广播,事件bus,事件监听,变量监听,动态执行,父子通信在Vue3中,你可以使用以下方法来处理异步事件、线程、队列执行、事件广播、事件总线、事件监听、变量监听、动态执行和父子通信:1.异步处理事件:可以使用async/await或Promise......
  • 利用MYSQL+redis模拟消息队列
    1、插入数据库,获取自动编号,作为redis键名:functiontianjia(){$model=model(MqModel::class);$data=['rs'=>1];$model->insert($data);//插入$id=$model->getInsertID();pp($id);$key......
  • python的十大数据结构之堆队列heapq(heap queue)
    heapqueque(堆队列),是一个完全二叉树,并且满足一个条件:每个节点(叶节点除外)的值都大于等于(或小于等于)它的子节点。提供了构建小顶堆的方法和一些小顶堆的基本操作方法(如入堆、出堆等),可以用于实现堆排序算法。创建堆的两种方法:importheapqlists=[3,10,20,52,2,83,52......
  • kafka消费者在项目启动后 直接注册消费消息
    @ComponentpublicclassKafkaRegisterEntryPointimplementsCommandLineRunner{@AutowiredApplicationContextapplicationContext;  @Overridepublicvoidrun(String...args)throwsException{KafkaRegisterEventkafkaRegisterEvent=ne......
  • Kafka 和 RabbitMQ 比较
    从以下几个方面比较Kafka和RabbitMQ:吞吐量Kafka:十万数量级,高吞吐量RabbitMQ:万数量级Topic数量对吞吐量影响Kafka的Topic可达百/千级,吞吐量下降幅度小,在同等机器下,可以支撑大量的Topic。RabbitMQ无Topic概念。时效性Kafka毫秒级;RabbitMQ微秒级可用性......
  • 在@KafkaListener启动之前需要做数据的预加载,该在Spring生命周期的哪个阶段做这个事情
    背景说明1、在Spring中消费Kafka数据时,最便捷的方法就是给方法加@KafkaListener注解。在数据消费逻辑中,需要先把一些配置信息预加载到内存中。有同事就提了一个问题:如果保证在消费者执行前,预加载数据的代码一定能执行完?也就是说,要等待数据预加载完成之后,再执行消费逻辑。大部分......