问题时间线
xx:xx] 开发收到业务反馈接口响应超时
[xx:xx] 开发&SRE&中间件 联合排查代码、网关、底层网络问题,无果
[xx:xx] 测试环境复现排查
[xx:xx] 利用差异法、排除法和经验解决,先上线
[xx:xx] 根因定位
问题现象
1)接口偶发性超时
image-20240116181451879
2)容器化后,CPU 使用率一直较高
image-20240116180755092
3)迁移到容器前,虚拟机 CPU 使用率和接口响应均正常
问题排查
首先使用排除法:确定了与网络、代码没有关系
然后进行差异分析: