首页 > 其他分享 >Kafka 搭建过程

Kafka 搭建过程

时间:2023-10-05 22:02:12浏览次数:46  
标签:-- Partition Broker Kafka Topic 消息 过程 搭建

目录

本文主要介绍Kafka基本原理,以及搭建过程。

1.关于Kafka

Apache Kafka是一个开源的分布式事件流平台,被设计用来实现实时数据流的发布、订阅、存储和处理。
Kafka的主要特性包括:

  1. 高吞吐量:Kafka可以处理高速流动的数据,并保证数据的写入和读取的高速性。
  2. 分布式:Kafka集群由多个服务器(Broker)组成,数据会被分布存储。
  3. 持久性:Kafka可以将数据持久化到磁盘,因此可以用于长期存储数据。
  4. 容错性:Kafka可以容忍服务器(Broker)的故障,保证数据的可靠性。
  5. 实时性:Kafka可以实时处理流数据。

Kafka可以应用于多种场景,主要包括:

  1. 消息队列:Kafka可以作为一个大规模的消息队列服务,处理生产者和消费者之间的消息传递。
  2. 日志收集:Kafka可以用于收集不同来源的日志数据,并将这些数据集中存储在一个地方,方便后续的日志分析。
  3. 用户活动跟踪:Kafka可以用于跟踪用户的在线活动,如页面浏览、搜索、点击等事件。
  4. 实时流处理:配合流处理框架(如Apache Flink、Apache Storm、Apache Samza等),Kafka可以用于实时处理和分析数据流。
  5. 事件源:Kafka可以作为事件驱动型微服务的事件源,存储事件的历史记录。
  6. 指标和日志聚合:Kafka可以用于收集各种指标(如系统监控指标、业务指标等)和日志,然后将这些数据聚合后发送到后端的存储系统。
  7. 集成和解耦:在微服务架构中,Kafka可以用于解耦服务之间的依赖,每个服务只与Kafka进行交互,从而实现服务的解耦。

以上只是Kafka的部分应用场景,实际上,Kafka的应用非常广泛,可以应用于任何需要处理实时数据流的场景。

Kafka如此强大,背后的工作原理主要涉及到以下几个方面:

  1. 发布-订阅模型:Kafka基于发布-订阅模型,生产者(Producer)将消息发布到特定的主题(Topic)上,消费者(Consumer)订阅主题并消费其中的消息。
  2. 分布式消息系统:Kafka集群由多个Broker组成,每个Broker是一个独立的服务器。主题(Topic)中的消息被分成多个分区(Partition),每个分区的消息可以存储在不同的Broker上,实现了数据的分布式存储。
  3. 消息持久化:Kafka将所有的消息持久化到硬盘上,即使系统发生故障,消息也不会丢失。消费者在消费消息时,只是改变了一个指向消息的偏移量(Offset),而不会删除消息。
  4. 高吞吐量:Kafka通过批量发送消息、零拷贝等技术提高了系统的吞吐量,可以处理大量的实时数据。
  5. 容错性:Kafka的每个分区都可以有多个副本(Replica),副本之间可以互相备份数据,提高了系统的容错性。如果某个Broker发生故障,Kafka可以自动从其他副本中恢复数据。
  6. 消费者组:Kafka的消费者可以组成消费者组(Consumer Group),组内的每个消费者负责消费不同的分区,实现了负载均衡。如果某个消费者发生故障,Kafka可以自动将其分区分配给其他消费者。

以上是Kafka的主要工作原理,具体的实现可能会根据Kafka的版本和配置进行调整。详细的原理和实现可以参考Kafka的官方文档。

另外,简单介绍下 Topic、Partition、Replica之间的关系。

在Kafka中,Topic和Partition是数据组织的基本单位。Topic负责对消息进行分类,Partition则是实现数据存储和读写的基本单位。

  1. Topic:Topic是消息的类别或者说是消息的主题,生产者将消息发布到特定的Topic,消费者从特定的Topic中订阅消息。每个Topic包含一或多个Partition。
  2. Partition:Partition是Topic的分区,每个Topic可以分为一个或多个Partition。Partition是Kafka实现高吞吐量和数据冗余的关键,每个Partition可以在不同的Broker上,数据被写入不同的Partition可以并行进行。在Kafka中,每条消息在每个Partition中都有一个唯一的偏移量(Offset),消费者通过Offset来定位消息。每个Partition在设计上是不可分割的,即消费者在消费一个Partition的数据时,必须按照Offset的顺序进行。
  3. 副本(Replica)是Partition的备份,用于实现数据的冗余存储,提高数据的可靠性。每个Partition可以有一个或多个副本,这些副本分布在不同的Broker上。其中,有一个副本被指定为Leader,其他的副本称为Follower。所有的读写操作都由Leader处理,Follower只负责从Leader同步数据。当Leader宕机时,Kafka会从Follower中选举出一个新的Leader,这个过程称为Leader Election。这样,即使某个Broker宕机,只要有副本存在,数据就不会丢失,读写操作也可以继续进行。副本的数量可以在创建Topic时指定,通过--replication-factor参数设置。副本数量的设置需要根据数据的重要性和集群的容量来决定,副本数量越多,数据的可靠性越高,但是会占用更多的存储空间和网络带宽。

可能大家还有一个疑问,Kafka 是如何实现高吞吐的?

Kafka能够实现高吞吐的原理主要基于以下几个方面:

  1. 分布式架构:Kafka集群由多个Broker组成,每个Topic可以分为多个Partition,每个Partition可以在不同的Broker上,这样可以并行处理多个Partition的读写请求,提高了吞吐量。
  2. 磁盘顺序写:Kafka将所有的消息持久化到硬盘,而且是顺序写入的。顺序写磁盘的速度远高于随机写,因此Kafka的写入性能非常高。
  3. 零拷贝:Kafka在发送消息时使用了零拷贝技术,避免了数据在用户态和内核态之间的多次拷贝,减少了CPU的使用,提高了吞吐量。
  4. 批处理:Kafka的Producer会将多个消息打包成一个Batch发送,Consumer也会一次性从Broker读取多个消息,这样可以减少网络请求的次数,提高了吞吐量。
  5. 消息压缩:Kafka支持消息的压缩,可以减少网络传输的数据量,提高吞吐量。

以上是Kafka实现高吞吐的主要原理,具体的实现可能会根据Kafka的版本和配置进行调整。详细的原理和实现可以参考Kafka的官方文档。

2.Kafka 搭建过程

搭建Kafka集群的基本步骤如下:
(1)环境准备

Kafka运行需要Java环境,所以首先需要在服务器上安装Java。

(2)下载并解压Kafka

从Kafka官网下载Kafka的tar包,然后解压。

tar -xzf kafka_2.x.tgz
cd kafka_2.x

(3) 配置Kafka

修改Kafka的配置文件(位于config/server.properties),主要需要配置的参数包括Broker的ID(broker.id)、监听的地址和端口(listeners)、Zookeeper的地址(zookeeper.connect)等。

(4) 启动Zookeeper
如果没有单独的Zookeeper集群,可以使用Kafka自带的Zookeeper。
bin/zookeeper-server-start.sh config/zookeeper.properties

(5) 启动Kafka
启动Kafka Broker。
bin/kafka-server-start.sh config/server.properties

(6) 创建Topic
创建一个Kafka Topic:
bin/kafka-topics.sh --create --topic test --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1

(7) 测试Kafka
可以通过Kafka自带的生产者和消费者进行测试。

#在一个终端中启动生产者
bin/kafka-console-producer.sh --topic test --bootstrap-server localhost:9092
# 在另一个终端中启动消费者
bin/kafka-console-consumer.sh --topic test --from-beginning --bootstrap-server localhost:9092

以上是搭建单节点Kafka集群的基本步骤,搭建多节点集群的步骤类似,只是需要在多台服务器上重复以上步骤,并且需要为每个Broker配置一个唯一的ID,以及正确的监听地址和Zookeeper地址。

3.参考

Apache Kafka文档

包含了Kafka的详细介绍、快速入门指南、配置说明、API文档等内容,是学习和使用Kafka的重要参考资料。

标签:--,Partition,Broker,Kafka,Topic,消息,过程,搭建
From: https://www.cnblogs.com/lanyangsh/p/17743980.html

相关文章

  • ORACLE 存储过程详解
    一、定义所谓存储过程(StoredProcedure),就是一组用于完成特定数据库功能的SQL语句集,该SQL语句集经过编译后存储在数据库系统中。在使用时候,用户通过指定已经定义的存储过程名字并给出相应的存储过程参数来调用并执行它,从而完成一个或一系列的数据库操作。二、存储过程创建......
  • Kafka介绍
    Kafka是一个分布式流处理平台,最初由LinkedIn开发并开源。它的设计目标是为了解决大规模数据处理的问题,具有高性能、可扩展性和可靠性的特点。以下是Kafka的一些关键特点和概念:消息发布和订阅:Kafka使用发布-订阅模式,消息由一个或多个生产者发布到一个或多个主题(topics),然后由一......
  • SQL SERVER 存储过程执行日志记录方法(有案例)
    查询历史执行总体情况SELECTTOP100db_name(d.database_id)asDBName,s.nameas存储名称,s.type_descas存储类型,d.cached_timeasSP添加到缓存的时间,d.last_execution_timeas上次执行SP的时间,d.last_elapsed_timeas[上次执行SP所用的时间(μs)],......
  • 视频监控/视频融合系统EasyNVR搭建工地视频监控平台
    安防视频监控平台EasyCVR是一个具有强大拓展性、灵活的视频能力和轻便部署的平台。它支持多种主流标准协议,包括国标GB28181、RTSP/Onvif、RTMP等,还可以支持厂家的私有协议和SDK接入,例如海康Ehome、海大宇等设备的SDK。该平台不仅拥有传统安防视频监控的功能,还具备接入AI智能分析的......
  • springboot开发过程的一些细节
    注解:格式要求@DateTimeFormat(pattern=“yyyy-MM-DD”)@Pathvariable用来绑定动态请求参数@RequestBody用来接收前端传来的动态请求参数,一般post请求,对象接收。 在Controller层中返回值参数要与需求文档的参数相同。依赖:pagehelper依赖,实现分页更能跟便捷......
  • 基于 K8S 搭建自己的 ELK 服务
    基于K8S(K3S)搭建自己的ELK服务对应的Yaml资源在https://github.com/nicelizhi/k8s-elkelasticsearch服务Servicekind:ServiceapiVersion:v1metadata:name:elasticsearchspec:ports:-name:elasticsearchprotocol:TCPport:9200......
  • 《需求掌握过程》阅读笔记
    今天读了《掌握需求过程·》这本书,理解了什么是需求,为什么要掌握需求,在开发软件时,身为一个程序员就要明白,开发软件的前前后后需要知道的东西,将尽可能多的可以预知的内容,做到心知肚明。目前的我们在开发软件的时候还是做的还是比较小的项目,偶尔也会遇到一些数据库设计出错导致,编写......
  • Ubuntu 20.04 搭建 Timemachine
    创建一个目录,作为TimeMachine保存数据的目录。$sudomkdir/usr/local/timemachine$sudochownnobody:nogroup/usr/local/timemachine$sudochmod777/usr/local/timemachine安装netatalk服务和avahi-daemon服务。$sudoaptinstallnetatalkavahi-daemon编辑net......
  • redis主从复制基础上搭建哨兵模式
    假如156和157是不同的两台服务器两台redis主从复制基础上搭建哨兵模式如下156redis.confmasterauth123456bind0.0.0.0requirement123456daemonizeyessentinel.confsentinelauth-passmymaster123456sentinelmonitormymaster10.190.107.15663792157......
  • 计算机网络之DNS解析过程
    一、什么是DNSDNS(DomainNameSystem),域名解析系统,它的作用就是域名和IP相互映射。二、域名解析过程假设要查询www.baidu.com的IP地址:1、首先会查找浏览器缓存,看看能否找到www.baidu.com对应的IP地址,找到就直接返回;否则进行下一步。2、将请求发往本地DNS服务器,如果查找到也直接返回,......