可以登录Apache kafka 官方下载
https://kafka.apache.org/downloads.html
下载Scala 2.13 - kafka_2.13-3.3.1.tgz (asc, sha512)
官方推荐下载scala 2.13版本的。
kafka作为一个分布式流平台,有哪些关键的能力?
- 发布和订阅消息(流),在这方面,它类似于一个消息队列。
- 以容错(故障转移)的方式存储消息(流)。
- 记录发送时处理流。
kafka通常应用于两大类应用类型
- 构建在系统或应用程序之间的可靠获取数据的实时流数据管道;
- 构建转换或响应数据流的实施流应用程序。
kafka四个核心API
- 应用程序使用Producer API发布消息到一个或者多个topic(主题)中。
- 应用程序使用Consumer API来订阅一个或者多个topic,并处理产生的消息。
- 应用程序使用Streams API充当一个流处理器,从一个或者多个topic消费输入流,并产生一个输出流到一个或者多个输出topic,有效的将输入流转换到输出流。
- Connector API可构建或者运行可重用的生产者或消费者,将topic连接到现有的应用程序或数据系统。例如,连接到关系数据库的连接器可以捕获表的每个变更。
kafka的特点
- kafka作为一个集群运行在一个或者多个服务器上。
- kafka集群存储的消息是以topic为类别记录的。
- 每个消息(也叫记录record)是由一个key,一个value和时间戳构成。
我们为什么需要消息队列(kafka存在的意义)
- 解耦:允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。
- 冗余:消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的”插入-获取-删除”范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。
- 扩展性:因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。
- 灵活性 & 峰值处理能力:在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。
- 可恢复性:系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。
- 顺序保证:在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。(Kafka 保证一个 Partition 内的消息的有序性)
- 缓冲:有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度不一致的情况。
- 异步通信:很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。
kafka的术语
- Topic
Kafka将消息分门别类,每一类的消息称之为一个主题(Topic)。
- Producer
发布消息的对象称之为主题生产者(Kafka topic producer)
- Consumer
订阅消息并处理发布的消息的对象称之为主题消费者(consumers)
- Broker
已发布的消息保存在一组服务器中,称之为Kafka集群。集群中的每一个服务器都是一个代理(Broker)。 消费者可以订阅一个或多个主题(topic),并从Broker拉数据,从而消费这些已发布的消息。
kafkad流vs传统企业消息系统
传统的消息有两种模式:队列和发布订阅。
在队列模式中,消费者池从服务器读取消息(每个消息只被其中一个读取); 发布订阅模式:消息广播给所有的消费者。这两种模式都有优缺点,队列的优点是允许多个消费者瓜分处理数据,这样可以扩展处理。但是,队列不像多个订阅者,一旦消息者进程读取后故障了,那么消息就丢了。而发布和订阅允许你广播数据到多个消费者,由于每个订阅者都订阅了消息,所以没办法缩放处理。
kafka中消费者组有两个概念:队列:消费者组(consumer group)允许同名的消费者组成员瓜分处理。发布订阅:允许你广播消息给多个消费者组(不同名)。
kafka的每个topic都具有这两种模式。
kafka有比传统的消息系统更强的顺序保证。
传统的消息系统按顺序保存数据,如果多个消费者从队列消费,则服务器按存储的顺序发送消息,但是,尽管服务器按顺序发送,消息异步传递到消费者,因此消息可能乱序到达消费者。这意味着消息存在并行消费的情况,顺序就无法保证。消息系统常常通过仅设1个消费者来解决这个问题,但是这意味着没用到并行处理。
kafka做的更好。通过并行topic的partition —— kafka提供了顺序保证和负载均衡。每个partition仅由同一个消费者组中的一个消费者消费到。并确保消费者是该partition的唯一消费者,并按顺序消费数据。每个topic有多个分区,则需要对多个消费者做负载均衡,但请注意,相同的消费者组中不能有比分区更多的消费者,否则多出的消费者一直处于空等待,不会收到消息。
标签:消费者,队列,kafka,topic,处理,了解,消息,下载 From: https://www.cnblogs.com/zyy-lzw/p/17663029.html