标签：bin Topic -- kafka a1 sh Kafka

Kafka

https://www.cnblogs.com/zhh567/p/17301143.html

磁盘顺序顺序读写速度超过了内存随机读写速度

https://spring.io/projects/spring-kafka

kafka 组件：

Broker 一个节点就是一个Broker
Topic 处理消息的不同分类，是一个逻辑概念
Partition 是Topic的物理分组，提供容错，创建Topic时可指定副本数
message 通信的基本单位

ZooKeeper 安装

监听 2181 端口

单机安装：下载解压即可，在conf目录中的zoo.cfg可配置数据目录dataDir，然后 bin/zkServer.sh start 启动，jps下的 QuorumPeerMain 进程就是zk进程。bin/zkServer.sh status 查看运行状态。bin/zkCli.sh 连接到zk的客户端

集群安装

修改配置文件：

# 指定集群中3个节点，2888为节点通信时端口，2888为选举时使用端口
server.0=hostname01:2888:3888
server.1=hostname02:2888:3888
server.2=hostname03:2888:3888

dataDir目录中创建文件 myid 然后向其中写入对应id，hostname01写入0，hostname02写入1
在每台机器上分别执行 bin/zkServer.sh start 启动

Kafka 安装

默认监听 9092 端口

单机安装

下载解压，修改 config/server.properites

# 存储kafka中的核心数据，不应放在tmp目录
log.dirs=/tmp/kafka-logs
# 指定连接的zookeeper地址
zookeeper.connect=localhost:2181

通过 bin/kafka-server-start.sh -daemon config/server.properties 在后台启动，jps可见Kafka进程

集群部署

修改配置文件

borker.id=0                   # 从0开始，每个节点一个id
log.dirs=/data/kafka-logs     # 会存储相当大规模的数据
zookeeper.connect=hostname01:2182,hostname02:2181  # zk地址，集群和单机都可以

每个机器上执行 bin/kafka-server-start.sh -daemon config/server.properties 以启动

简单操作

副本数不能大于集群中Broker数量

# 创建Topic ，旧版要指定zookeeper地址
bin/kafka-topics.sh
--create
--zookeeper localhost:2181
--partitions 2               # 分区数
--replication-factor 2       # 副本数
--topic MyTopic

# kafka3.0 后直接指定kafka地址即可
bin/kafka-topics.sh
--create
--bootstrap-server KafkaServer:9097   # <== 直接指定 kafka 地址
--partitions 2               # 分区数
--replication-factor 2       # 副本数
--topic MyTopic

# 查看所有Topic
bin/kafka-topics.sh
--list
--bootstrap localhost:9092     # 旧版 --zookeeper localhost:2181
# 查看某个 Topic 信息
bin/kafka-topics.sh
--describe
--bootstrap localhost:9092     # 旧版 --zookeeper localhost:2181
--topic MyTopic

# 结果：
Topic: hello    TopicId: RInbMZTIQ72inAVIHQkSjw PartitionCount: 2       ReplicationFactor: 2    Configs:                                                                                                                                
        Topic: hello    Partition: 0    Leader: 0       Replicas: 0,2   Isr: 0,2
        Topic: hello    Partition: 1    Leader: 2（leader副本所在Borker的id）       Replicas: 2,1（此分区副本所在的borker id）   Isr: 2,1（正常提供服务的副本id）

修改topic，只能增加partition数量，不能减少

bin/kafka-topics.sh 
--alter 
--bootstrap-server localhost:9092 
--pattions 3 
--topic hello

删除Topic，操作不可逆
配置 delete.topic.enable 设置真正删除还是仅仅添加删除标识的伪删除
```
bin/kafka-topics.sh 
--delete
--bootstrap-server localhost:9092
--topic hello
```

生产者消费者

# 生产者，执行后进入交互界面，可输入字符串消息到MQ
bin/kafka-console-producer.sh 
--bootstrap-server localhost:9092,node2:9092  # 旧版使用 --broker-list 
--topic hello

# 消费者，默认消费最新数据，
bin/kafka-console-consumer.sh 
--bootstrap-server ubuntu01:9092 
--topic hello
--from-beginning   # 声明获取消费者启动前的数据

扩展内容

Broker

通过 config/server.properties 文件配置

# Log Flush Policy 数据flush到磁盘的时机
log.flush.interval.messages=99999999  # 分区的消息达到这个数目就flush进磁盘
log.flush.interval.ms=999999          # 间隔多少ms后写入磁盘

# Log Retention Policy 数据保存周期，默认7天
log.retention.hours=                  # 达到指定时间就删除日志
log.retention.bytes=                  # 达到指定大小就删除日志
log.retention.check.interval=         # 检测删除条件的时间间隔

Producer

Kafka如何保证数据不丢？通过producer的acks机制，设置为all即可

# partitioner 根据用户设置计算发送到哪个分区，默认随机

# 数据通讯方式：同步 or 异步
acks= 1
1       需要Leader节点回复收到消息
all/-1  所有副本回复收到消息
0       无需任何节点回复（异步）

Consumer

# 某个消费者都属于一个消费者组，可通过 group.id 指定
# 组内消费
组内消费者消费不同分区，一个分区不会被多个消费者消费。建议一个组内消费者的数量不大于分区数，否则会有消费者得不到数据
# 组间消费
多个消费者组消费相同的Topic消息且互不影响

# 一般消费数据流程，先根据group.id到kafka中查找之前保存的offset信息
# * 如果找到，则根据上次消费的记录继续消费
# * 若没有或offset对应数据已不存在（超时数据记录被删除，无法接着上次继续）此时根据这个配置设定消费逻辑，否则此配置无用
auto.offset.reset=latest
#earliest   从头消费
#latest     从最新数据消费，默认，使用实时场景
#none       没找到就抛异常

Topic Partition

每个Partition在物理存储上都是Append Log文件，消息在Log的位置被称为Offset
Partition越多就可容纳越多的Consumer，可有效提升并发消费
业务类型增加要增加Topic，数据量增大要增加Partition

每个Message包含3个属性：

offset，类型为long，表示消息在Partition中起始位置
MessageSize，类型int32，消息的字节大小
data，类型bytes，表示message具体内容

存储策略

每个Topic包含1~多个Partition，每个Partition存储一部分Message。每条Message包含3部分，offset相当于消息的唯一id

如何找到id？分段 + 索引

如何查看offset？

# 查看消费者分组
kafka-consumer-groups.sh 
--bootstrap-server localhost:9092 
--list

# 查看某个消费者组的信息，
#  < Group, Topic, Partition, 
#    Current Offset 当前消费到哪个位置, 
#    Log end offset当前分区中最大的偏移量, 
#    LAG 未消费消息数量 >
kafka-consumer-groups.sh 
--bootstrap-server localhost:9092 
--describe 
--group ConsumerGroup

Consumer 消费顺序

消费一个partition时，消费顺序和生产顺序一致

一个消费者消费多个partition时，只保障一个partiton内的消费顺序是有序的，分区间顺序不保证

使用单一partition可保证消费顺序，但是kafka的高吞吐量依赖于partition实现

Kafka 三种语义

针对消费者实现3种：

至少一次：关闭autocommit，使用手动commit
至多一次：打开 enable.auto.commit 即可实现
仅一次：关闭autocommit，在代码中自己维护kafka的offset，使用事务实现消息的处理和消费的commit

参数调优

JVM

默认1G内存，造成大量GC。使用 jstat -gcutil pid 1000 查看GC信息，如果FGC频繁则需要更大内存。

Replication

# partition副本间socket通信的超时时间，如果网络条件不好可适当调大，否则可能误判为网络故障
replica.socket.timeout.ms=60000
# 指定时间未向leader发送请求、未从leader同步完数据，会将其从lsr中移除。可适当调大
replica.lag.time.max.ms=50000

Topic 命名技巧

命名建议：action_r2p9，r2表示副本因子是2，p9表示分区数是9。缺点是增加了partition数量后具体数量与命名中不一致。建议开始时就预测好，大数据量通常设置40~50个partition，小数据量通常设置5~10个partition。

实战组件集成

Flume + Kafka

Flume 采集数据写入kafka，使用 KafkaSink
Flume 从kafka消费数据备份到HDFS，使用 KafkaSource

kafka_to_hdfs

 a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 配置 channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 配置 source
a1.sources.r1.type = org.apache.flume.sink.kafka.KafkaSource
a1.sources.r1.channels = c1
a1.sources.r1.batchSize = 1               # 一次向channel中写入的最大数据量，不可超过capacity和transactionCapacity
a1.sources.r1.batchDurationMillis = 2000  # 多长时间向channel写一次数据
a1.sources.r1.kafka.bootstrap.servers = server01:9092,server02:9092
a1.sources.r1.kafka.topics = test01_r2p3,test02_r3p6
# a1.sources.r1.kafka.topics.regex = ^topic[0-9]$
a1.sources.r1.kafka.consumer.group.id = flume-group

# 配置 sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs:///ip:port/from_kafka
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.writeFormat = Text
a1.sinks.k1.hdfs.rollInterval = 3600

Kafka 集群平滑升级

服务不停止情况下进行版本升级。注意：新旧版本的 log.dirs 配置一定要一样，否则读取不到旧数据

stop 集群中一个旧节点，同时查看集群是否识别到副本下线
再在当前节点启动新版本Kafka，同时查看集群信息
确认节点可正常接收和发送数据后，不断重复操作，直到全部替换

标签：bin,Topic,--,kafka,a1,sh,Kafka
From： https://www.cnblogs.com/zhh567/p/17315491.html

Kafka

Kafka

ZooKeeper 安装

Kafka 安装

简单操作

扩展内容

Broker

Producer

Consumer

Topic Partition

存储策略

Consumer 消费顺序

Kafka 三种语义

参数调优

JVM

Replication

Topic 命名技巧

实战组件集成

Kafka 集群平滑升级

相关文章

赞助商

阅读排行