背景
2022年某天,我还在happy的看着电影。突然,手上握着的红米手机响起了周杰伦《回到过去》的铃声。哟,现场童鞋又来电话了,一接听电话,就响起了比较焦急的声音,“哥,现场有个Kafka集群创建不了topic了,赶紧帮忙看下!”,不爽,今天是周六,本来休息的时间,但是谁叫咱们有现场问题呢!
干活
现场信息
跟现场童鞋沟通了一会儿后,当前场景是这样:
- Kafka集群开通了SASL
- 前2天还能创建topic,不过刚好后面做了一次底座平台升级
- Kafka吞吐量正常,生产者和消费者都有正常流量出入
- Kafka日志中没有明显报错
- 页面和Kafka命令创建topic都是同一个现场,创建超时
- zk中有controller的信息
这就很费劲了,正常来说,zk正常,kafka broker正常,那么应该就没问题才对,而且日志中也没有报错。因为是现场问题,所以得先恢复环境,那么就先采集紧急措施,kafka集群滚动重启(现场kafka集群只有3个broker),重启后正常。
实验室模拟
现场环境没了,又没有太多的头绪,只能在实验室环境进行现场模拟,搜集到的现场信息中,有一个地方引起了我的注意,底座平台升级,正常创建topic和出现问题之间进行过底座平台升级,底座平台升级必然会升级网络,那么是否是网络组件引起的呢?
标签:现场,创建,血案,Kafka,topic,正常,底座 From: https://blog.csdn.net/youyou263/article/details/143993604