首页 > 其他分享 >使用funcgraph-retval和bpftrace/kprobe快速定位并解决cpu控制器无法使能的问题

使用funcgraph-retval和bpftrace/kprobe快速定位并解决cpu控制器无法使能的问题

时间:2023-12-06 23:57:45浏览次数:51  
标签:rt 使能 funcgraph sched bpftrace us attach task cgroup

版本

Linux 6.5

背景

在学习cgroupv2的时候,想给子cgroup开启cpu控制器结果失败了:

# 查看可以开启哪些控制器
root@ubuntu-vm:/sys/fs/cgroup# cat cgroup.controllers
cpuset cpu io memory hugetlb pids rdma misc

# 上面看到,是支持cpu控制器的,通过下面命令查看目前子cgroup开启了哪些控制器
root@ubuntu-vm:/sys/fs/cgroup# cat cgroup.subtree_control
memory pids

# 通过下面的命令给子cgroup开启cpu控制器
root@ubuntu-vm:/sys/fs/cgroup# echo +cpu > cgroup.subtree_control
-bash: echo: write error: Invalid argument

在给子cgroup开启cpu控制器时提示参数无效,即-EINVAL,错误码是-22.

定位

之前给linux内核的function graph增加了显示函数返回值的功能,正好可以派上用场。

  • 使用下面的命令配置ftrace
echo 0 > /sys/kernel/debug/tracing/tracing_on
echo 14080 > /sys/kernel/debug/tracing/buffer_size_kb
echo ksys_write > /sys/kernel/debug/tracing/set_graph_function
echo $$ > /sys/kernel/debug/tracing/set_ftrace_pid
echo 1 > /sys/kernel/debug/tracing/options/funcgraph-retval
echo 1 > /sys/kernel/debug/tracing/options/funcgraph-retval-trim
echo function_graph > /sys/kernel/debug/tracing/current_tracer

目前社区版本还不支持funcgraph-retval-trim,这个是为了对返回值进行裁剪

然后使用下面的方法抓取log:

> /sys/kernel/debug/tracing/trace;echo 1 > /sys/kernel/debug/tracing/tracing_on; echo +cpu > cgroup.subtree_control;echo 0 > /sys/kernel/debug/tracing/tracing_on

收集到trace日志后,从上往下搜索-22错误码,看到下面的内容:

 4)               |                cgroup_migrate_execute() {
 4)               |                  cpu_cgroup_can_attach() {
 4)               |                    cgroup_taskset_first() {
 4)   0.190 us    |                      cgroup_taskset_next(); /* = 0xffff8881003b0000 */
 4)   0.551 us    |                    } /* cgroup_taskset_first = 0xffff8881003b0000 */
 4)   0.170 us    |                    sched_rt_can_attach(); /* = 0x1 */
 4)   0.180 us    |                    cgroup_taskset_next(); /* = 0xffff888100994e00 */
 4)   0.171 us    |                    sched_rt_can_attach(); /* = 0x1 */
 4)   0.180 us    |                    cgroup_taskset_next(); /* = 0xffff88810bed4e00 */
 4)   0.170 us    |                    sched_rt_can_attach(); /* = 0x1 */
 4)   0.191 us    |                    cgroup_taskset_next(); /* = 0xffff8881083d1a00 */
 4)   0.170 us    |                    sched_rt_can_attach(); /* = 0x1 */
 4)   0.170 us    |                    cgroup_taskset_next(); /* = 0xffff888108e20000 */
 4)   0.181 us    |                    sched_rt_can_attach(); /* = 0x0 */
 4)   4.248 us    |                  } /* cpu_cgroup_can_attach = -22 */

可以看到,cpu_cgroup_can_attach先返回了-22错误码,具体分析源码:

#ifdef CONFIG_RT_GROUP_SCHED
static int cpu_cgroup_can_attach(struct cgroup_taskset *tset)
{
	struct task_struct *task;
	struct cgroup_subsys_state *css;

	cgroup_taskset_for_each(task, css, tset) {
		if (!sched_rt_can_attach(css_tg(css), task))
			return -EINVAL;
	}
	return 0;
}
#endif

结合日志和源码,是由于sched_rt_can_attach返回了0,才会返回-EINVAL。

继续查看sched_rt_can_attach:

int sched_rt_can_attach(struct task_group *tg, struct task_struct *tsk)
{
	/* Don't accept realtime tasks when there is no way for them to run */
	if (rt_task(tsk) && tg->rt_bandwidth.rt_runtime == 0)
		return 0;

	return 1;
}

返回0的条件:进程是实时进程,但是目的task group没有给实时任务设置时间份额。

内核文档中有下面的描述:

WARNING: cgroup2 doesn't yet support control of realtime processes and the cpu controller can only be enabled when all RT processes are in the root cgroup. Be aware that system management software may already have placed RT processes into nonroot cgroups during the system boot process, and these processes may need to be moved to the root cgroup before the cpu controller can be enabled.

上面的意思是说,在开启CPU控制器之前,需要首先将实时任务移动到根cgroup下。

那这里是哪个实时进程导致的呢?sched_rt_can_attach函数的第二个参数就是task_struct地址,可以借助bpftrace查看这个对应的哪个进程:

# cat trace.bt
#!/usr/bin/env bpftrace

kprobe:sched_rt_can_attach
{
        printf("task: %lx, comm: %s\n", arg1, ((struct task_struct *)arg1)->comm);
}

运行上面的脚本,然后再次执行开启CPU控制器的操作,可以看到下面的日志:

root@ubuntu-vm:~# ./trace.bt
Attaching 1 probe...
task: ffff8881003b0000, comm: systemd
task: ffff888107e38000, comm: agetty
task: ffff888107f3ce00, comm: agetty
task: ffff888107e39a00, comm: systemd-journal
task: ffff88810862b400, comm: multipathd

可以看到,最后一个进程是multipathd,这个进程是否为实时进程呢?

# ps -eo pid,tid,class,rtprio,ni,pri,psr,pcpu,stat,wchan:14,comm | grep -E 'PID|multipathd'
    PID     TID CLS RTPRIO  NI PRI PSR %CPU STAT WCHAN          COMMAND
    153     153 RR      99   - 139   6  0.0 SLsl futex_wait_que multipathd

可以看到确实是实时进程。

下面手动将这个进程加到根cgroup下:

root@ubuntu-vm:/sys/fs/cgroup# cat /proc/153/cgroup
0::/system.slice/multipathd.service

root@ubuntu-vm:/sys/fs/cgroup# echo 153 > cgroup.procs

root@ubuntu-vm:/sys/fs/cgroup# cat /proc/153/cgroup
0::/

然后再次开启CPU控制器:

root@ubuntu-vm:/sys/fs/cgroup# echo +cpu > cgroup.subtree_control

root@ubuntu-vm:/sys/fs/cgroup# cat cgroup.subtree_control
cpu memory pids

到这里,这个问题就解决了。

如果bpftrace不能用的话,可以使用kprobe_event,下面是comm在task_struct中的偏移:

(gdb) p &((struct task_struct *)0)->comm
$1 = (char (*)[16]) 0x840

或者:

crash> *task_struct.comm -ox
struct task_struct {
   [0x840] char comm[16];
}

用下面的命令添加kprobe_event,同时对ftrace进一步配置:

echo 'p sched_rt_can_attach $arg* +0x840($arg2):string' > dynamic_events
echo kprobe_ftrace_handler > /sys/kernel/debug/tracing/set_graph_notrace
echo 1 > events/kprobes/p_sched_rt_can_attach_0/enable

上面$arg*的用法是新版本的内核才有的,借助BTF来获取函数的入参,比之前方便多了,可以用来输出函数的全部入参

这个方法跟funcgraph-retval结合起来,既实现了输出内核函数的入参,同时也输出了内核函数的返回值

再次按照之前的方法复现一次,可以抓到下面的log:

2)               |                cgroup_migrate_execute() {
 2)               |                  cpu_cgroup_can_attach() {
 2)               |                    cgroup_taskset_first() {
 2)   0.190 us    |                      cgroup_taskset_next(); /* = 0xffff8881003b0000 */
 2)   0.581 us    |                    } /* cgroup_taskset_first = 0xffff8881003b0000 */
 2)               |                    sched_rt_can_attach() {
 2)               |                      /* p_sched_rt_can_attach_0: (sched_rt_can_attach+0x4/0x30) tg=0xffff88810a1b1c00 tsk=0xffff8881003b0000 arg3="systemd" */
 2)   4.529 us    |                    } /* sched_rt_can_attach = 0x1 */
 2)   0.291 us    |                    cgroup_taskset_next(); /* = 0xffff888107e38000 */
 2)               |                    sched_rt_can_attach() {
 2)               |                      /* p_sched_rt_can_attach_0: (sched_rt_can_attach+0x4/0x30) tg=0xffff88810a1b1880 tsk=0xffff888107e38000 arg3="agetty" */
 2)   1.603 us    |                    } /* sched_rt_can_attach = 0x1 */
 2)   0.251 us    |                    cgroup_taskset_next(); /* = 0xffff888107f3ce00 */
 2)               |                    sched_rt_can_attach() {
 2)               |                      /* p_sched_rt_can_attach_0: (sched_rt_can_attach+0x4/0x30) tg=0xffff88810a1b1880 tsk=0xffff888107f3ce00 arg3="agetty" */
 2)   1.413 us    |                    } /* sched_rt_can_attach = 0x1 */
 2)   0.241 us    |                    cgroup_taskset_next(); /* = 0xffff888107e39a00 */
 2)               |                    sched_rt_can_attach() {
 2)               |                      /* p_sched_rt_can_attach_0: (sched_rt_can_attach+0x4/0x30) tg=0xffff88810a1b1880 tsk=0xffff888107e39a00 arg3="systemd-journal" */
 2)   2.324 us    |                    } /* sched_rt_can_attach = 0x1 */
 2)   0.250 us    |                    cgroup_taskset_next(); /* = 0xffff88810862b400 */
 2)               |                    sched_rt_can_attach() {
 2)               |                      /* p_sched_rt_can_attach_0: (sched_rt_can_attach+0x4/0x30) tg=0xffff88810a1b1880 tsk=0xffff88810862b400 arg3="multipathd" */
 2)   2.014 us    |                    } /* sched_rt_can_attach = 0x0 */
 2) + 15.820 us   |                  } /* cpu_cgroup_can_attach = -22 */

kprobe_event的好处是,可以跟function_graph的日志一块结合起来看,也比较方便。上面的日志显示调用sched_rt_can_attach时,当进程是multipathd时,返回了0,进而导致cpu_cgroup_can_attach返回了-22.

标签:rt,使能,funcgraph,sched,bpftrace,us,attach,task,cgroup
From: https://www.cnblogs.com/pengdonglin137/p/17880808.html

相关文章

  • 恒驰服务 | 华为云数据使能专家服务offering之大数据建设
    恒驰大数据服务主要针对客户在进行智能数据迁移的过程中,存在业务停机、数据丢失、迁移周期紧张、运维成本高等问题,通过为客户提供迁移调研、方案设计、迁移实施、迁移验收等服务内容,支撑客户实现快速稳定上云,有效降低时间成本,保障客户业务不中断,实现业务稳定连续。大数据建设-适用......
  • 恒驰服务 | 华为云数据使能专家服务offering之数仓建设
    恒驰大数据服务主要针对客户在进行智能数据迁移的过程中,存在业务停机、数据丢失、迁移周期紧张、运维成本高等问题,通过为客户提供迁移调研、方案设计、迁移实施、迁移验收等服务内容,支撑客户实现快速稳定上云,有效降低时间成本,保障客户业务不中断,实现业务稳定连续。数仓建设-适用场......
  • 【WCH蓝牙系列芯片】-基于CH582开发板—从机主动使能通知(notify)
    -------------------------------------------------------------------------------------------------------------------------------------在EVT例程BLE-UART蓝牙透传功能中,通过串口发送数据至蓝牙时,每次需要开启notify,才能接受新的数据。当串口向蓝牙发送数据后,再打开notif......
  • 痞子衡嵌入式:MCUBootUtility v5.3发布,利用XMCD轻松使能外部RAM
    --痞子衡维护的NXP-MCUBootUtility工具距离上一个大版本(v5.0.0)发布过去4个多月了,期间痞子衡也做过三个小版本更新,但不足以单独介绍。这一次痞子衡为大家带来了全新重要版本v5.3.x,这次更新主要是想和大家特别聊聊XMCD这个特性的支持。一、v5.1-v5.3更新记录--v5.1.......
  • CCF HPC China2023|澎峰科技:使能先进计算,赋能行业应用
    CCFHPCChina2023圆满落幕! 桂秋八月,为期三天的中国高性能计算领域最高规格盛会——2023CCF全球高性能计算学术年会(HPCChina)在青岛红岛国际展览中心圆满落幕。行业超算大咖、顶级学界精英、先锋企业领袖参会者齐聚山东青岛,共同探讨高性能计算、人工领域、大数据等诸多前沿领域......
  • buildroot 构建根文件系统(2)使能 SSH
    一、开发背景承接上一章节,构建最小系统后成功运行后,发现没有SSH功能SSH:SecureShellProtocol,开发阶段常用SSH远程传输文件,只要匹配IP地址即可二、开发需求配置系统使能SSH功能三、开发环境LinuxUbuntu 4.15.0-65-generic+ buildroot-2023.0......
  • [ESP] 使能片外Flash导致iram编译失败
    esp-idf的版本是V4.4.2idfmenuconfig使能片外Flashidfbuild编译报错编译报错原因因为开了这个之后,iram0text字段的消耗变大,导致编译失败。通过idfsize可以看到iram已经超了。解决办法menuconfig->Compileroption->OptimizationLevel->Optimizeforsize从(-......
  • 盘古大模型加持,华为云开天aPaaS加速使能千行百业应用创新
    摘要:开天aPaaS,让优秀快速复制,支撑开发者及伙伴上好云、用好云。本文分享自华为云社区《盘古大模型加持,华为云开天aPaaS加速使能千行百业应用创新》,作者:开天aPaaS小助手。7月7-9日,华为开发者大会(Cloud)2023在东莞隆重召开。此次大会,华为云开天aPaaS带来了主题演讲、高峰论坛、开放......
  • 鼎桥携新品首秀新加坡科技展,使能数字经济高质量发展
    当前,数字经济的“飞轮”正在加速转动,数字技术在深刻影响社会生产生活的同时,也在持续推进全球经济格局的重塑。面对新的发展环境和态势,企业需要不断整合自身技术、经验以及产业优势资源,积极面向海内外拓展“朋友圈”,在瞬息万变的数智浪潮中探索更具确定性的数字蓝海。作为全球增长最......
  • 华为深耕基础软件开源,使能千行百业创新
    6月11日至13日,2023年开放原子全球开源峰会(以下简称“峰会”)在北京盛大召开。作为立足中国,面向世界的顶级开源盛宴,峰会依托国际化平台,聚集政、产、学、研、用、创、投、金等各领域的优势资源,共商开源发展大计,共筑开源发展未来。作为开源的坚定支持者与重要贡献者,华为也受......