视频教程在这:
cpu亲和性设置,NCCL,sched_setaffinity sched_getaffinity,CPU_ZERO、SET、ISSET、linux_哔哩哔哩_bilibili
一、CPU亲和性简介
CPU亲和性(CPU Affinity)设置是操作系统中一个重要的性能优化手段,它允许程序或进程被绑定到特定的CPU核心上运行。这样做的好处包括减少缓存未命中、降低线程迁移(context switching)的开销,以及提高缓存的局部性(cache locality),从而可能提升程序的整体性能。
对于我们NCCL集合通信,也用到亲和性设置,通过将需要与GPU交互的CPU设置为距离近的CPU核心,来优化GPU和CPU间的通信路径。
NCCL通信时也用到亲和性设置,来优化GPU和CPU间的通信路径。
二、Linux系统中CPU亲和性的设置方法
在Linux系统中,CPU亲和性可通过sched_setaffinity系统调用进行设置,可以将当前进程或线程绑定到一组特定的CPU上。
2.1 sched_setaffinity()和sched_getaffinity
这里大家重点了解两个函数:sched_setaffinity()和sched_getaffinity
#include <sched.h>
int sched_getaffinity(pid_t pid, size_t cpusetsize, cpu_set_t *mask);
int sched_setaffinity(pid_t pid, size_t cpusetsize, const cpu_set_t *mask);
sched_setaffinity():设置进程或线程的CPU亲和性 sched_ getaffinity():获取进程或线程的CPU亲和性
参数说明
pid:要获取 CPU 亲和性的进程或线程的 ID。对于当前进程,可以使用 0。 cpusetsize:cpu_set_t 类型变量的大小,通常通过 sizeof(cpu_set_t) 获得。 mask:指向 cpu_set_t 类型的指针,用于存储返回的 CPU 亲和性掩码。在这个掩码中,每个位代表一个 CPU,如果某位被设置(即值为 1),则表示该进程或线程可以被调度到对应的 CPU 上运行。
2.2 CPU_ZERO、CPU_SET、CPU_ISSET、CPU_CLR
CPU_ZERO
CPU_ZERO宏用于初始化cpu_set_t类型的变量,将其所有位都设置为0。这表示在初始状态下,没有CPU核心被选中。
cpu_set_t cpuset;
CPU_ZERO(&cpuset); // 初始化cpuset,所有位都设为0
CPU_SET
CPU_SET宏用于将cpu_set_t类型变量中指定的CPU核心对应的位设置为1。这表示该CPU核心被选中,进程或线程可以运行在该核心上。
CPU_SET(1, &cpuset); // 将cpuset中CPU 1对应的位设置为1
CPU_CLR
CPU_CLR宏用于将cpu_set_t类型变量中指定的CPU核心对应的位清除(即设置为0)。这表示该CPU核心不再被选中。
CPU_CLR(1, &cpuset); // 将cpuset中CPU 1对应的位清除
CPU_ISSET
CPU_ISSET宏用于检查cpu_set_t类型变量中指定的CPU核心对应的位是否被设置(即是否为1)。
if (CPU_ISSET(1, &cpuset)) {
// 如果cpuset中CPU 1对应的位被设置,则执行此代码块
}
三、代码示例
获取当前进程的亲和性,并将亲和性设置为CPU0和CPU1。
#include <stdio.h> // 引入标准输入输出头文件
#include <stdlib.h> // 引入标准库头文件,用于exit函数
#include <sched.h> // 引入调度头文件,提供CPU亲和性相关的函数和宏
#include <string.h> // 虽然在这个示例中未直接使用,但通常用于字符串操作
int main() {
cpu_set_t cpuset; // 定义一个cpu_set_t类型的变量cpuset,用于表示CPU集合
size_t cpusetsize = sizeof(cpu_set_t); // 获取cpu_set_t类型的大小,用作sched_setaffinity和sched_getaffinity的参数
// 验证并打印当前进程的CPU亲和性
cpu_set_t get_cpuset; // 定义一个变量get_cpuset用于获取当前进程的CPU亲和性
CPU_ZERO(&get_cpuset); // 初始化get_cpuset
// 尝试获取当前进程的CPU亲和性
if (sched_getaffinity(0, cpusetsize, &get_cpuset) == -1) {
perror("sched_getaffinity failed"); // 如果获取失败,则打印错误信息
exit(EXIT_FAILURE); // 并以失败状态退出程序
}
// 打印当前进程的CPU亲和性
printf("Current CPU affinity: ");
for (size_t i = 0; i < CPU_SETSIZE; i++) { // 遍历CPU_SETSIZE范围内的所有CPU编号
if (CPU_ISSET(i, &get_cpuset)) { // 检查get_cpuset中对应CPU的位是否被设置
printf("CPU %zu ", i); // 如果被设置,则打印该CPU编号
}
}
printf("\n"); // 换行
// 初始化CPU集合,将所有位清零
CPU_ZERO(&cpuset);
// 设置CPU亲和性,将CPU 0和CPU 1的位设置为1,表示希望将进程绑定到这两个CPU上
CPU_SET(0, &cpuset);
CPU_SET(1, &cpuset);
// 尝试设置当前进程的CPU亲和性
if (sched_setaffinity(0, cpusetsize, &cpuset) == -1) {
perror("sched_setaffinity failed"); // 如果设置失败,则打印错误信息
exit(EXIT_FAILURE); // 并以失败状态退出程序
}
// 验证并打印当前进程的CPU亲和性
CPU_ZERO(&get_cpuset); // 初始化get_cpuset
// 尝试获取当前进程的CPU亲和性
if (sched_getaffinity(0, cpusetsize, &get_cpuset) == -1) {
perror("sched_getaffinity failed"); // 如果获取失败,则打印错误信息
exit(EXIT_FAILURE); // 并以失败状态退出程序
}
// 打印当前进程的CPU亲和性
printf("Current CPU affinity: ");
for (size_t i = 0; i < CPU_SETSIZE; i++) { // 遍历CPU_SETSIZE范围内的所有CPU编号
if (CPU_ISSET(i, &get_cpuset)) { // 检查get_cpuset中对应CPU的位是否被设置
printf("CPU %zu ", i); // 如果被设置,则打印该CPU编号
}
}
printf("\n"); // 换行
// 假设我们想要清除CPU 1的亲和性设置(仅作为演示,不会实际影响进程)
CPU_CLR(1, &cpuset); // 修改cpuset变量,清除CPU 1的位
// 注意:这里的CPU_CLR只是修改了cpuset变量,并不会影响已经设置的进程亲和性
// 如果要重新设置进程的CPU亲和性,需要再次调用sched_setaffinity
// (可选)重新打印修改后的cpuset,但请注意它不会反映进程的当前亲和性
printf("Modified cpuset (not applied to process): ");
for (size_t i = 0; i < CPU_SETSIZE; i++) { // 再次遍历CPU_SETSIZE范围内的所有CPU编号
if (CPU_ISSET(i, &cpuset)) { // 检查cpuset中对应CPU的位是否被设置
printf("CPU %zu ", i); // 如果被设置,则打印该CPU编号
}
}
printf("\n"); // 换行
return 0; // 程序正常结束
}
程序输出结果:
我们在ubuntu用g++编译并运行,输出三行信息:
1、没有设置CPU亲和性前,当前进程可以在CPU0、CPU1、CPU2、CPU3上运行。
2、将当前进程的亲和性设置为CPU0和CPU1,第二行输出进程可以在CPU0、CPU1上运行。
3、是利用 CPU_CLR修改cpuset变量,清除CPU 1的位,并输出cpuset。(注意,只是改变了变量值,并没有对亲和性进行设置)