背景
在我们服务运行环境由物理机切换到云上后,发现服务性能有大幅下降(时延有较大的上升)。
分析
首先是服务的性能变化和上云有关。然后分析对比物理机和云的参数对比。比如外部竞争;云的宿主机系统版本;perf stat分析内存情况等。
1、外部竞争:因为云上容器是和其他容器混部,难免会受到其他容器的影响。
2、云宿主机系统版本:虽然容器的linux版本和物理机相同,但是涉及底层调度还是由宿主机系统版本决定的。
3、perf stat分析内存情况:分析物理机和云上容器的cache miss。
本次性能优化主要是cache miss导致
原因:物理机和云上容器的的LLC cache miss率 差了10%以上。
深层原因:因为我们使用的云 没有将 LLC 根据容器进行隔离。
解决方案: