(kafka系列 一)
转自《Kafka并不难学!入门、进阶、商业实战》
一、消息队列
1. 消息队列的来源
在高并发的应用场景中,由于来不及同步处理请求,接收到的请求往往会发生阻塞。 例如,大量的插入、更新请求同时到达数据库,这会导致行或表被锁住,最后会因为请求堆积过多而触发“连接数过多的异常”(TooMany Connections)错误。 因此,在高并发的应用场景中需要一个缓冲机制,而消息队列则可以很好地充当这样一个角色。==消息队列通过异步处理请求来缓解系统的压力。==
2. 什么是消息队列
“消息队列”(Message Queue,MQ)从字面来理解,是一个队列,拥有先进先出(FirstInputFirst Output,FIFO)的特性。它主要用于不同进程或线程之间的通信,用来处理一系列的输入请求。 ==消息队列采用异步通信机制==。即,消息的发送者和接收者无须同时与消息队列进行数据交互,消息会一直保存在队列中,直至被接收者读取。每一条消息记录都包含详细的数据说明,包括数据产生的时间、数据类型、特定的输入参数。
3. 消息队列主要有哪些作用
在实际的应用中,消息队列主要有以下作用。
- 应用解耦:多个应用可通过消息队列对相同的消息进行处理,应用之间相互独立,互不影响;
- 异步处理:相比于串行和并行处理,异步处理可以减少处理的时间;(不需要等待响应)
- 数据限流:流量高峰期,可通过消息队列来控制流量,避免流量过大而引起应用系统崩溃;
- 消息通信:实现点对点消息队列或聊天室等。
二、Kafka的基本概念
Kafka 是==一个分布式实时数据流平台==,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。==它提供了发布与订阅功能==。用户可以发送数据到 Kafka 集群中,也可以从Kafka集群中读取数据。
代理、生产者、消费者、消费者组
- 代理 (Broker)
在Kafka集群中,一个Kafka进程(Kafka进程又称为 Kafka实例)被称为一个代理(Broker)节点。代理节点是消息队列中的一个常用概念。通常,在部署分布式 Kafka 集群时,一台服务器上部署一个Kafka 实例。
- 生产者 (Producer)
在Kafka 系统中,生产者通常被称为 Producer。 Producer 将消息记录发送到 Kafka 集群指定的主题(Topic)中进行存储,同时生产者(Producer)也能通过自定义算法决定将消息记录发送到哪个分区(Partition)。
- 消费者(Consumer)
消费者(Consumer)从 Kafka 集群指定的主题(Topic)中读取消息记录。在读取主题数据时,需要设置消费组名(Groupd)。如果不设置,则 Kafka 消费者会默认生成一个消费组名称。
- 消费者组(Consumer Group)
消费者程序在读取 Kafka 系统主题 (Topic)中的数据时,通常会使用多个线程来执行。一个消费者组可以包含一个或多个消费者程序,使用多分区和多线程模式可以极大提高读取数据的效率。
主题、分区、副本、记录
- 主题 (Topic)
Kafka 系统通过主题来区分不同业务类型的消息记录。 例如,用户登录数据存储在主题 A 中,用户充值记录存储在主题 B 中,则如果应用程序只订阅了主题A,而没有订阅主题 B,那该应用程序只能读取主题A 中的数据。
- 分区(Partition)
每一个主题(Topic)中可以有一个或者多个分区(Partition)。在 Kafka 系统的设计思想中,分区是基于物理层面上的,不同的分区对应着不同的数据文件。 Kafka 通过分区(Partition)来支持物理层面上的并发读写,以提高Kafka 集群的吞吐量 每个主题(Topic)下的各分区(Partition)中存储数据的具体流程每个分区(Partition)内部的消息记录是有序的,==每个消息都有一个连续的偏移量序号(Offset)== 一个分区只对应一个代理节点 (Broker),一个代理节点可以管理多个分区。
- 副本(Replication)
在 Kafka 系统中,每个主题 (Topic)在创建时会要求指定它的副本数,默认是 1。通过副本(Replication)机制来保证 Kafka 分布式集群数据的高可用性。
- 记录(Record)
被实际写入到 Kafka 集群并且可以被消费者应用程序读取的数据,被称为记录(Record)。每条记录包含一个键(Key)、值 (Value)和时间戳(Timestamp)
三、了解 Kafka的工作机制-生产消息/消费消息
Kafka 作为一个消息队列系统,其核心机制就是生产消息和消费消息。 在Kafka 基本结构中,生产者(Producer)组件和消费者(Consumer)组件互不影响,但又是必须存在的。缺少生产者和消费者中的任意一方,整个Kafka 消息队列系统将是不完整的。
-
生产者 (Producer)负责写入消息数据。将审计日志、服务日志、数据库、移动 App 日志,以及其他类型的日志主动推送到 Kafka 集群进行存储。
-
消费者(Consumer)负责读取消息数据。例如,通过 Hadoop 的应用接口、Spark 的应用接口、Storm 的应用接口、ElasticSearch 的应用接口,以及其他自定义服务的应用接口,主动拉取 Kafka 集群中的消息数据
另外,Kafka 是一个分布式系统,用 Zookeeper 来管理、协调 Kafka集群的各个代理(Broker)节点。当 Kafka 集群中新添加了一个代理节点,或者某一台代理节点出现故障时,Zookeeper服务将会通知生产者应用程序和消费者应用程序去其他的正常代理节点读写。
四、Kafka可满足的需求
- 高吞吐量
日常生活中所使用的支付宝、微信、QQ 这类软件的用户量非常庞大,每秒产生的数据流量也非常巨大。面对这类场景,若要实时地聚合消息日志,必须具有高吞吐量才能支持高容量事件流。
- 高可用队列
分布式消息队列系统都具有异步处理机制。另外,分布式消息队列系统一般都拥有处理大量数据积压能力,以便支持其他离线系统的定期数据加载。
- 低延时
实时应用场景对时延的要求极为严格。耗时越少,则结果越理想。这意味着,设计出来的系统必须拥有低延迟处理能力。
- 分布式机制
系统还需具有支持分区、分布式、能实时处理消息等特点,并能在机器出现故障时保证数据不丢失。
五、Kafka的特性
- 异步生产数据
从Kafka 0.8.2起,生产者 (Producer)写数据时不再区分同步和异步,所有的操作请求均以异步的方式发送,这样大大地提高了客户端写数据的效率。 异步方式将数据批量的发送到 Kafka 不同的代理 (Broker)节点因此也减少了 Kafka 服务端的资源开销。这种方式在与 Kafka 系统进行网络通信时,能够有效地减少等待时间。
- 偏移量迁移