前言
本文主要会介绍笔者在学习Linux Cgroups时所总结的知识点,其中会涉及到Cgroups中的抽象概念、使用规则、实现原理以及API
等方面的相关内容。
笔者也会将自己的理解在文中进行阐述,这也算是在和大家交流心得的一个过程。若文中有错误的理解和概念,请大家及时纠正;吸纳大家的建议,对于我来说也是很重要的学习过程之一。
1.主要功能
Linux Cgroups(Control Groups)主要负责对指定的一组进程做资源限制,同时可以统计这些进程的资源使用情况
。
它主要的功能包括:
-
资源限制 限制进程使用的资源上限,比如最大内存、文件系统缓存使用限制。
-
优先级控制 不同的进程组可以有不同的优先级,比如 CPU 使用和磁盘 IO 吞吐。
-
审计 计算一个进程组的资源使用情况。
-
控制 挂起一组进程,或者重启一组进程。
2.核心概念
Linux Cgroups是用来对进程进行资源管理的,因此Cgrpups对相关概念进行了抽象
,并且定义了这些概念之间的组织关系(结构)。
Linux Cgroups中的核心概念分别是Task (任务)、Control Groups(控制组)、subsystem(子系统)、hierarchy(层级数)。
2.1 Task
Task即任务。对应于系统中运行的一个实体,一般是指进程
。
Linux内核本身的调度和管理并不对进程和线程进行区分,只是根据 clone 时传入的参数的不同来从概念上区分进程和线程。因此使用 Task 来表示系统的一个进程或线程。
2.2 Cgroups
Cgroups即控制组。Cgroups中包含了一组进程,是多个进程的集合
。同时,Cgroups可以看作是一组Task和subsystem的关联关系
,表示对一组Task进行怎样的资源管理策略。
在Cgroup v1版本中,Cgroups是从属于subsystem的;而在Cgroup v2版本中,Cgroups被提升到了最底层,subsystem降到从属于Cgroups。一个Task可以加入某个Cgroup,也可以从某个Cgroup 迁移到另一个 Cgroup。
2.3 hierarchy
hierarchy即层级树,一个操作系统中可以有多个 hierarchy
。
hierarchy是由一系列 Cgroup 组成的一个树形结构
,树中的每个节点都是一个 Cgroup;而每个Cgroup 可以有多个子节点,子节点默认会继承父节点的属性。
hierarchy将 Cgroup 通过树状结构串起来,通过虚拟文件系统(VFS)的方式暴露给用户。系统每次新建一个hierarchy时,该系统上的所有Task默认构成了这个新建的hierarchy的初始化cgroup,即root cgroup。
2.4 subsystem
subsystem即子系统,指的是具体的资源控制器
(resource class 或者 resource controller),控制某个特定的资源使用。比如 CPU 子系统可以控制 CPU 时间,memory 子系统可以控制内存使用量。
subsystem 作用于 hierarchy 的 Cgroup上,即帮助Cgroup控制其内部的多个进程的资源占用。
注意:
subsystem是绑定在cgroup节点上,而非绑定在hierarchy上
。之所以会说"subsystem作用在hierarchy上"是因为通常都会将subsystem绑定在一个hierarchy的root cgroup上。而root cgroup下的子cgroup节点就会继承root cgroup的属性,即使用绑定在root cgroup上的subsystem来进行资源管控。
2.5 实现原理
P代表一个进程。每个进程的描述符中有一个指针指向了一个辅助数据结构css_set(cgroups subsystem set)。指向某一个css_set的进程会被加入到当前css_set的进程链表中,一个进程只能隶属于一个css_set。一个css_set可以包含多个进程,隶属于同一css_set的进程受到同一个css_set所关联的hierarchy绑定的subsystem的资源限制。
css_set通过数据结构cgroup_subsys_state与cgroups节点进行多对多的关联:
-
css_set关联多个cgroups时 表明需要对当前css_set下的进程使用多种资源限制逻辑。
注意:不允许css_set同时关联同一个hierarchy中的多个cgroups节点,
-
cgroups节点关联多个css_set时 表明多个css_set下的进程使用同一份资源限制逻辑。
3.使用规则
对于 Task (任务)、Control Groups(控制组)、subsystem(子系统)、hierarchy(层级数),在实现和使用这几种概念需要遵守一定的规则,否则Cgroup的配置将无法生效。
- 同一个hierarchy能够附加一个或多个subsystem
- Task与Cgroup的关系
一个Task不能存在于同一个hierarchy的多个cgroup中
。如果操作时把一个Task添加到同一个hierarchy中的另一个cgroup中,则会从第一个cgroup中移除。但一个Task可以存在在不同hierarchy中的多个cgroup中
。
- 子Task自动继承父Task的Cgroup配置
对一个Task(Linux中的进程)进行fork操作后,生成的子Task会其在同一个Cgroup中,并且会自动继承父Task的Cgroup配置。而子Task可以根据需要移到其它不同的Cgroup中,即
父子Task之间是相互独立不依赖的
。
4.Cgroup驱动
Linux 内核提供了很多 Cgroup 驱动,容器中常用的是下面两种。
4.1 Cgroupfs 驱动
需要限制 CPU 或内存使用时,直接把容器进程的 PID 写入相应的 CPU 或内存的 Cgroup。
4.2 systemdCgroup 驱动
提供 Cgroup 管理,所有的 Cgroup 写操作需要通过 systemd 的接口来完成,不能手动修改。
5. API
5.1 实现原理
Linux 使用了多种数据结构在内核中实现了 Cgroups 的配置关联了进程和 Cgroups 节点,所以内核态的进程可直接调用操作配置Cgroup。但对于用户态的进程就需要使用Cgroups对外提供的一些API来对Cgroups进行操作
。
在 Linux 中,Cgroups 通过 VFS 把API暴露给用户态的进程的
。Cgroups 与 VFS 之间的衔接部分称之为 Cgroups 文件系统,即Cgroups以文件和目录的方式组织在操作系统的 /sys/fs/Cgroup 路径下。在 /sys/fs/Cgroup 下面有很多诸如 cpuset、cpu、 memory 这样的子目录,也就是Cgroup的各个子系统。
Tips: VFS 能够把具体文件系统的细节隐藏起来,给用户态进程提供一个统一的文件系统 API 接口。
在实际操作中需要通过mount操作、对目录层级操作以及在目录中编辑文件的方式来配置Cgroups,就是因为Cgroups的API是使用VFS来实现的。
5.2 调用方式
使用 Cgroups 的方式有几种:
-
使用 Cgroups 提供的虚拟文件系统 因为Cgroups实际上是对Linux VFS的一个实现,因此可以用类似文件系统的方式进行操作。即直接通过创建、读写,删除目录以及挂载来文件目录来配置Cgroups。
-
使用命令行工具 比如libcgroup包提供的 cgcreate、cgexec、cgclassify 命令。
-
使用rules engine daemon提供的配置文件
-
使用第三方工具 systemd、lxc、Docker这些封装了 软件也封装了Cgroups的接口
6.实现细节
6.1 目录层级结构
Cgroups的相关文件一般会挂载到/sys/fs/cgroup/中。在/sys/fs/cgroup/中会进一步按照子系统来区分目录,即/sys/fs/cgroup/{subsystem}/
。
Tips: 这里的subsystem也可以是多个subsystem组合的子系统集合。即表示绑在该hierarchy上的subsystem有多个。
在子系统目录中会建立不同的Cgroups目录,即/sys/fs/cgroup/{subsystem}/{cgroup}。也就是说,子系统目录中内部的目录层级描述的就是hierarchy的结构
。
6.2 Cgroup通用文件
每个Cgroup目录下面都会有描述该Cgroup的文件。其中除了每个Cgroup独特的资源控制文件,还有一些通用的文件:
-
tasks 当前Cgroup包含的任务(task)pid 列表。把某个进程的 pid 添加到这个文件中就等于把进程移到该 Cgroup。
-
cgroup.procs 当前Cgroup中包含的thread group 列表,使用逻辑和 tasks 相同。
-
notify_on_release 指是否在Cgroup销毁的时候执行发送通知操作,取值为0 或者 1。 如果为 1,那么当这个Cgroup最后一个任务离开时(退出或者迁移到其他Cgroup)并且最后一个子Cgroup被删除时系统会执行 release_agent 中指定的命令。可以理解为是触发了相关清理环境的hook。
-
release_agent 即定义相关的hook,用于清理环境。
6.3 资源管理文件
每个subsystem负责系统的一部分资源管理,subsystem中还分别提供多个参数可以进行细节控制。其中每个参数对应一个文件
,往文件中写入特定格式的内容就能控制该资源。
Tips: 注意这里并不是每一种subsystem对应一个资源管理文件。而是subsystem中的每一个配置参数对应一个文件,该文件中往往只有非常简短、简单的参数值。
6.4 相关操作
由于Cgroups是使用VFS实现的,因此对其操作实际上就是对文件系统的操作。
-
创建Cgroups 即系统挂载的Cgroups目录内,在相应的子系统目录内创建新目录即可。 例如:# mkdir /sys/fs/cgroup/cpu/mycgroup
-
删除Cgroups 直接删除系统挂载的Cgroups目录内,相应的子系统目录内指定目录即可。删除之后,如果 tasks 文件中有进程,它们会自动迁移到父 cgroup 中。
-
设定Cgroups参数 直接往特定的文件中写入特定格式的参数值即可。
-
将进程加入到 Cgroups 要把某个已经运行的进程加入到 Cgroups,可以直接往需要的 Cgroups tasks 文件中写入进程的 PID即可。 例如: # echo 23456 > /sys/fs/cgroup/memory/mycgroup/tasks
-
移动进程到其他Cgroups 操作方式依旧是把进程 PID 写入到目标 Cgroups tasks 文件中即可。此时原Cgroups的 tasks 文件会自动删除该进程。