一、CPU简介
CPU又称为中央处理器,是一块超大规模的集成电路,是一台计算机的运算核(Core)和控制核心( Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。
影响 cpu 性能的主要因素分两大块:主频、架构;
Cpu 的结构主要由运算器、控制器、寄存器三大块组成
- 控制单元:是整个 cpu 的指挥控制中心,由指令寄存器 IR(Instruction Register)、指 令译码器 ID(Instruction Decoder)和操作控制器 OC(Operation Controller)等
- 运算单元:是运算器的核心,执行运算操作
- 存储单元:包括 CPU 片内缓存和寄存器组
二、cpu的性能指标
1、cpu使用率
1.1 用户cpu使用率--us&ni:
包括用户态cpu使用率(user)和低优先级用户态cpu使用率(nice),表示cpu在用户态运行的时间百分比。用户cpu使用率高,通常说明应用程序比较繁忙。
运算很多或业务逻辑比较复杂(代码、业务需要调整)、 GC回收
1.2 系统cpu使用率--sy:
表示cpu在内核态运行的时间百分比(不包括中断),系统cpu使用率高说明内核比较繁忙。可能有上下文问题:
- 自愿上下文: 资源不够,导致自愿上下文切换,内存瓶颈
- 非自愿上下文: 可能会 cpu瓶颈
- pidstat可进一步分析
1.3 等待I/O的cpu使用率--wa:
通常也称为iowait,表示等待I/O的时间百分比。iowait高,通常说明系统与硬件设备的I/O交互时间比较长。I/O问题(磁盘\网络\外设)
1.4 软中断和硬中断的cpu使用率--hi&si:
分别表示内核调用软中断、硬中断处理程序的四件百分比,他们的使用率高,通常说明系统发生了大量的中断。
1.5 虚拟化环境中用到的窃取cpu使用率(steal)和客户cpu使用率(guest),分别表示被其他虚拟机占用的cpu时间百分比,和运行客户虚拟机的cpu时间百分比。--st
2 、平均负载
也就是系统平均活跃进程数。理想情况,平均负载等于逻辑cpu个数,这表示每个cpu都恰好被充分使用。如果平均负载大于逻辑cpu的个数,就表示负载比较重了。
3 、上下文切换
本身是保证linux正常运行的一项核心功能。但过多的上下文切换,会将原本运行的cpu时间,消耗在寄存器、内核栈以及虚拟内存数据保存和恢复上,缩短进程真正运行的时间,成为性能瓶颈。
- 进程上下文切换:
- 进程在cpu中 寄存器 程序计算器的切换
- 同进程上下文切换: 进程用户态 ---系统调用--> 进程内核态 ---系统调用---> 进程用户态
- 不同进程上下文切换:进程切换时要保存进程用户态资源(虚拟内存、栈等)
- 线程上下文切换
- 线程是cpu调度的基本单位
- 进程是资源的拥有者:
- 一个进程的不同线程,这个时候线程上下文切换只需要保存线程私有的资源
- 不同进程之间的线程上下文切换,像进程上下文切换一样
- 中断上下文切换
- 中断: 缺页中断。保存现在执行的结果的资源。
4 、cpu缓存命中率
cpu缓存:
CPU缓存是CPU和内存之间的临时存储器,虽然缓存的容量不能与内存和硬盘相比,但是交换速度却比它们快得多了,CPU缓存就是为了更快的连接CPU与内存而存储在中间媒介。简单来说,因为CPU的速度快,而内存的速度较慢,这时CPU缓存来解决这个问题,减少了CPU的等待时间,变相的提高了CPU的性能。
为了从成本、性能、容量还有面积上来进行平衡,目前主流的CPU才采用层级缓存结构,一般缓存分为一级缓存、二级缓存、三级缓存,其中L1和L2常用在单核中,L3则用在多核中,它们之间的速度依次递减,容量依次递增。
缓存的命中率,衡量的是cpu缓存的复用情况,命中率越高,则表示性能越好。
三、cpu性能问题分析流程
在实际的测试环境中,平均负载多高,需要我们关注哪些?
当平均负载高于CPU数量的 70%的时候,需要分析排查负载过高的原因,一旦负载过高,就会导致进程响应变量变慢,进而影响相应的正常功能。
分析思路和步骤:
(1)使用top分析CPU使用率,如果user%+sys%使用率过高,查看CPU使用过高的进程;
(2)使用top分析CPU平均负载,如果load average平均负载过高,可以辅助通过sar查看运行队列和平均负载,如果运行队列大于CPU个数且平均负载过高,查看CPU使用过高的进程;
(3)若CPU使用率过高或者CPU平均负载过高,通过vmstat确认系统的当前的上下文切换(cs)、中断次数(in);
(4)若上下文切换次数过大,通过 pidstat 查看是哪个进程或线程的切换次数过高并明确上下文切换过大的类型;
(5)若中断次数过大,通过top分析中断的类型,再通过 /proc/interrupts或/proc/softirqs分析是哪种中断类型;
(6)扩充:通过top监测僵尸进程,查看S列对应的进程名称和对应的进程号PID,再追踪该僵尸进程定位问题原因;
CUP分析实战
一、模拟远超cpu核数的多进程
模拟工具stress-ng,stress-ng是 stress压力测试工具的 升级版本
- 使用stress-ng工具来模拟企业中,cpu利用率高的各种情况。
- yum install -y epel-release.noarch && yum -y update
- yum install stress-ng -y
模拟场景:远超cpu核数的多进程
(( proc_cnt = `nproc`*10 )); stress-ng --cpu $proc_cnt --pthread 1 --timeout 150
命令涵义:
nproc
得到是 当前电脑cpu的数量,模拟产生10倍核数的进程,每个进程1个线程,运行150秒
1、top命令观察到的现象:
- cpu使用率 us+sy 将近100%,有一定的si(中断)
- loadaverage 过去1分钟的值很高
- cpus us态值很大,sy有值但很小
- 进程中,新增了了大量stress-ng进程
2、vmstat命令观察到的现象
- proc的r队列值非常大
- system的in(每秒中断次数) 和 cs(上下文切换次数) 都很大
- free、buff、cache变化不大
3、pidstat -w 命令观察到的现象
- stress-ng-cpu这些进程的 nvcswch/s(非自愿上下文切换)比较高
总结:我只有4个cpu,但是在有大量的进程要使用cpu时,通过vmstat看到 r队列有大量的队列等待使用cpu,并且看到了有大量中断和上下文切换。基本可以确定cpu不够。
二、模拟场景:单cpu多线程
stress-ng --cpu `nproc` --pthread 1024 --timeout 150
命令涵义:电脑有多少个cpu,就模拟出 cpu数量*1024 这么多线程 运行150秒
1、top命令观察到的现象:
- cpu使用率 us+sy 将近97%,有3%的si
- loadaverage 过去1分钟的值很高
- cpus us较小,sy较大
- 进程中,新增了了大量stress-ng-pthre进程
2、vmstat命令观察到的现象
- proc的r队列值非常大
- system的in(每秒中断次数) 和 cs(上下文切换次数) 都很大
- free变小,cache变大
3、pidstat -w 命令观察到的现象
- stress-ng-pthre这些进程的 cswch/s(自愿上下文切换)比较高
总结:线程上下文切换与进程上下文切换对比
- top命令
- loadavg 都升高
- 进程上下文: us态数值 > sy态数值 (cpu消耗在应用运行进程切换中)
- 线程上下文: us态数值 < sy态数值 (cpu消耗在内核线程切换处理中)
- vmstat命令
- proc: r 有明显数据(有较多的等待)
- 内存: 线程上下文切换 内存数据有明显变化(free会变小,catch会变大)
- in\cs: 也是有明显的数据变化的(中断和上下文切换都会变多)
- pidstat命令:
- 进程上下文切换:非自愿上下文切换的数据 多于 自愿上下文切换
- 线程上下文切换:自愿上下文切换的数据 多于 非自愿上下文切换
三、模拟大量I/O操作
stress-ng --hdd 1 -i 6 --timeout 150
1、top命令观察到的现象:
- cpu使用率 id(空闲) 和 wa(等待)较高
- loadaverage 升高
2、vmstat
- 内存有明显的变化: 写操作频繁,所以,free变小,cache数据变大
- io的bi和bo数据有明显的数值
3、iostat -dx 1
- wkB/s和rkB/s 有大量数据,说明现在有大量读写操作