首页 > 其他分享 >kafka系列(一)【消息队列、Kafka的基本概念、Kafka的工作机制、Kafka可满足的需求、Kafka的特性、Kafka的应用场景】

kafka系列(一)【消息队列、Kafka的基本概念、Kafka的工作机制、Kafka可满足的需求、Kafka的特性、Kafka的应用场景】

时间:2024-02-05 23:06:35浏览次数:32  
标签:异步 队列 分区 kafka 集群 消息 Kafka

(kafka系列 一)

一、消息队列

1. 消息队列的来源

在高并发的应用场景中,由于来不及同步处理请求,接收到的请求往往会发生阻塞。 例如,大量的插入、更新请求同时到达数据库,这会导致行或表被锁住,最后会因为请求堆积过多而触发“连接数过多的异常”(TooMany Connections)错误。 因此,在高并发的应用场景中需要一个缓冲机制,而消息队列则可以很好地充当这样一个角色。==消息队列通过异步处理请求来缓解系统的压力。==

2. 什么是消息队列

“消息队列”(Message Queue,MQ)从字面来理解,是一个队列,拥有先进先出(FirstInputFirst Output,FIFO)的特性。它主要用于不同进程或线程之间的通信,用来处理一系列的输入请求。 ==消息队列采用异步通信机制==。即,消息的发送者和接收者无须同时与消息队列进行数据交互,消息会一直保存在队列中,直至被接收者读取。每一条消息记录都包含详细的数据说明,包括数据产生的时间、数据类型、特定的输入参数。

3. 消息队列主要有哪些作用

在实际的应用中,消息队列主要有以下作用。

  1. 应用解耦:多个应用可通过消息队列对相同的消息进行处理,应用之间相互独立,互不影响;
  2. 异步处理:相比于串行和并行处理,异步处理可以减少处理的时间;(不需要等待响应)
  3. 数据限流:流量高峰期,可通过消息队列来控制流量,避免流量过大而引起应用系统崩溃;
  4. 消息通信:实现点对点消息队列或聊天室等。

二、Kafka的基本概念

Kafka 是==一个分布式实时数据流平台==,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。==它提供了发布与订阅功能==。用户可以发送数据到 Kafka 集群中,也可以从Kafka集群中读取数据。

代理、生产者、消费者、消费者组

  1. 代理 (Broker)

在Kafka集群中,一个Kafka进程(Kafka进程又称为 Kafka实例)被称为一个代理(Broker)节点。代理节点是消息队列中的一个常用概念。通常,在部署分布式 Kafka 集群时,一台服务器上部署一个Kafka 实例。

  1. 生产者 (Producer)

在Kafka 系统中,生产者通常被称为 Producer。 Producer 将消息记录发送到 Kafka 集群指定的主题(Topic)中进行存储,同时生产者(Producer)也能通过自定义算法决定将消息记录发送到哪个分区(Partition)。

  1. 消费者(Consumer)

消费者(Consumer)从 Kafka 集群指定的主题(Topic)中读取消息记录。在读取主题数据时,需要设置消费组名(Groupd)。如果不设置,则 Kafka 消费者会默认生成一个消费组名称。

  1. 消费者组(Consumer Group)

消费者程序在读取 Kafka 系统主题 (Topic)中的数据时,通常会使用多个线程来执行。一个消费者组可以包含一个或多个消费者程序,使用多分区和多线程模式可以极大提高读取数据的效率。

主题、分区、副本、记录

  1. 主题 (Topic)

Kafka 系统通过主题来区分不同业务类型的消息记录。 例如,用户登录数据存储在主题 A 中,用户充值记录存储在主题 B 中,则如果应用程序只订阅了主题A,而没有订阅主题 B,那该应用程序只能读取主题A 中的数据。

  1. 分区(Partition)

每一个主题(Topic)中可以有一个或者多个分区(Partition)。在 Kafka 系统的设计思想中,分区是基于物理层面上的,不同的分区对应着不同的数据文件。 Kafka 通过分区(Partition)来支持物理层面上的并发读写,以提高Kafka 集群的吞吐量 每个主题(Topic)下的各分区(Partition)中存储数据的具体流程在这里插入图片描述每个分区(Partition)内部的消息记录是有序的,==每个消息都有一个连续的偏移量序号(Offset)== 一个分区只对应一个代理节点 (Broker),一个代理节点可以管理多个分区。

  1. 副本(Replication)

在 Kafka 系统中,每个主题 (Topic)在创建时会要求指定它的副本数,默认是 1。通过副本(Replication)机制来保证 Kafka 分布式集群数据的高可用性。

  1. 记录(Record)

被实际写入到 Kafka 集群并且可以被消费者应用程序读取的数据,被称为记录(Record)。每条记录包含一个键(Key)、值 (Value)和时间戳(Timestamp)

三、了解 Kafka的工作机制-生产消息/消费消息

Kafka 作为一个消息队列系统,其核心机制就是生产消息和消费消息。 在Kafka 基本结构中,生产者(Producer)组件和消费者(Consumer)组件互不影响,但又是必须存在的。缺少生产者和消费者中的任意一方,整个Kafka 消息队列系统将是不完整的。

  • 生产者 (Producer)负责写入消息数据。将审计日志、服务日志、数据库、移动 App 日志,以及其他类型的日志主动推送到 Kafka 集群进行存储。

  • 消费者(Consumer)负责读取消息数据。例如,通过 Hadoop 的应用接口、Spark 的应用接口、Storm 的应用接口、ElasticSearch 的应用接口,以及其他自定义服务的应用接口,主动拉取 Kafka 集群中的消息数据

另外,Kafka 是一个分布式系统,用 Zookeeper 来管理、协调 Kafka集群的各个代理(Broker)节点。当 Kafka 集群中新添加了一个代理节点,或者某一台代理节点出现故障时,Zookeeper服务将会通知生产者应用程序和消费者应用程序去其他的正常代理节点读写。

四、Kafka可满足的需求

  1. 高吞吐量

日常生活中所使用的支付宝、微信、QQ 这类软件的用户量非常庞大,每秒产生的数据流量也非常巨大。面对这类场景,若要实时地聚合消息日志,必须具有高吞吐量才能支持高容量事件流。

  1. 高可用队列

分布式消息队列系统都具有异步处理机制。另外,分布式消息队列系统一般都拥有处理大量数据积压能力,以便支持其他离线系统的定期数据加载。

  1. 低延时

实时应用场景对时延的要求极为严格。耗时越少,则结果越理想。这意味着,设计出来的系统必须拥有低延迟处理能力。

  1. 分布式机制

系统还需具有支持分区、分布式、能实时处理消息等特点,并能在机器出现故障时保证数据不丢失。

五、Kafka的特性

  1. 异步生产数据

从Kafka 0.8.2起,生产者 (Producer)写数据时不再区分同步和异步,所有的操作请求均以异步的方式发送,这样大大地提高了客户端写数据的效率。 异步方式将数据批量的发送到 Kafka 不同的代理 (Broker)节点因此也减少了 Kafka 服务端的资源开销。这种方式在与 Kafka 系统进行网络通信时,能够有效地减少等待时间。

  1. 偏移量迁移 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

六、Kafka的场景

在这里插入图片描述

标签:异步,队列,分区,kafka,集群,消息,Kafka
From: https://blog.51cto.com/u_15323027/9612734

相关文章

  • 如何实现一个延迟队列?
    延迟队列是我们日常开发过程中,经常接触并需要使用到的一种技术方案。前些时间在开发业务需求时,我也遇到了一个需要使用到延迟消息队列的需求场景,因此我也在网上调研了一系列不同的延迟队列的实现方案,在此进行了一个总结并且给大家进行分享。延迟队列定义首先,队列这种数据结构相信大......
  • Kafka笔记
    参考博客:https://www.cnblogs.com/qingyunzong/category/1212387.htmlhttps://www.cnblogs.com/haolujun/p/9632835.html(kafka与rabbitmq区别)https://www.cnblogs.com/alvinscript/p/17407980.html(kafka核心机制,有图)一、概念1.1BrokerKafka集群包含一个或多个服务器,......
  • 单调队列
    单调队列是一种内部元素具有单调性的队列,可以解决求“区间内最值”的问题。例:P1886滑动窗口/【模板】单调队列分析:暴力枚举的方式是进行\(n-k\)次循环,每次查找长度为\(k\)区间的最值,这样的算法时间复杂度是\(O(nk)\)的,无法通过这个题目。以下分析以最大值为例,最小值同......
  • 苏维埃日报06.栈与队列的最简单实现(?)
    前言当年学数据结构的时候被栈和队列虐傻了当年真的没搞清这俩的进出顺序现在回过头来发现,退役了反而有点会了一个不恰当的比喻就像核糖体在mRNA上合成肽链一样,栈和队列的数据读入也是逐个读入但输出的时候,数据是带特定顺序输出的,如栈先进后出,队列先进先出,但是线性多肽水解......
  • Linux进程间通信_共享内存和消息队列
    本文对SystemV标准的共享内存和消息队列这两种进程间通信方式进行讨论,涉及原理、系统调用接口以及相关的内核数据结构,并给出相关示例代码。SystemV共享内存基本原理进程间通信必须要让不同的进程看到同一份内存资源,因为进程具有独立性,所以这份内存资源是操作系统提供的,接口是由......
  • 延迟队列-处理偶然性延迟任务的延迟队列
    目标:实现一个处理偶然事件的延迟队列。偶然事件发生的概率不高偶然事件一旦发生,事件的量多少不一期望偶然事件处理完成之后,能回收处理偶然事件的所有资源(因为偶然事件发生的概率低,所有分配的资源大部分时候都处于闲置状态) 思路:回收闲置资源发生偶然事件时,自动分配用于处......
  • JUC【1.原子类、2.锁Lock、3.阻塞队列、4.并发集合容器、5.并发工具类、6.线程池】、
    (JUC简介)转自极客时间1.JUC简介从JDK1.5起,JavaAPI中提供了java.util.concurrent(简称JUC)包,在此包中定义了并发编程中很常用的工具,比如:线程池、阻塞队列、同步器、原子类等等。JUC是JSR166标准规范的一个实现,JSR166以及JUC包的作者是同一个人DougLea。2.原......
  • Queue(队列)
    特性先进先出,允许再表的一端进行删除另一端进行插入运算。STL方式头文件#include<queue>定义queue<int>q;//建立一个队列q,其内部元素类型是int;函数q,push(a);//将元素a插入到队列q的末尾/q.pop();//删除队列q的队首元素。q.front();//查询q的队首元素。q.ba......
  • Kafka-常用命令行命令
    第一章Kafka常用命令1. Topic(主题)1.1. 创建Topicbin/kafka-topics.sh--create--bootstrap-serverhadoop01:9092 --replication-factor2 --partitions1 --topictest 1.2. 查询Topic列表1.2.1. 查询所有Topic列表bin/kafka-topics.sh--list--bootstrap-ser......
  • Kafka-如何重设消费者位移(OFFSET)
    1.为什么要重设消费者组位移?我们知道,Kafka和传统的消息引擎在设计上是有很大区别的,其中一个比较显著的区别就是,Kafka的消费者读取消息是可以重演的(replayable)。像RabbitMQ或ActiveMQ这样的传统消息中间件,它们处理和响应消息的方式是破坏性的(destructive),即一旦消息被成功......