https://zhuanlan.zhihu.com/p/72998605
在NUMA系统中,如果使用页面cache所带来的的收益超过数据存储在不同zone/node的损失,那么可以选择在当前zone内存不足时不进行回收(以保留页面cache),而是使用其他zone/node的空闲内存。
反之,如果数据的locality更加重要,则应该选择在当前zone进行本地回收。可通过"/proc/sys/vm/zone_reclaim_mode"设置是否优先使用本地回收,该参数的默认值是0,表示不开启本地回收。
不过,对于大多数的UMA系统来说,本地回收则是更普遍的现象。回收的触发大致分为两种。一种是在内存分配时发现空闲内存严重不足,直接启动内存回收操作,这种内存回收被称为"direct reclaim"。在direct reclaim模式下,分配和回收是同步的关系,内存分配的过程会被内存回收的操作所阻塞,增加等待的时间。
对于anonymous page的回收,swap out必然会引起相对慢速的I/O操作。对于page cache的回收,如果是"dirty"的,也需要write back,也会引起I/O操作。Direct reclaim造成内存分配的等待已经让它很不好意思了,为了避免I/O操作加剧等待时间,它通常会选择"clean"的page cache来作为回收的对象。
一个更理想的情况是,我们能在内存压力不那么大的时候,就提前启动内存回收。而且,在某些场景下(比如在interrupt context或持有spinlock时),内存分配根本就是不能等待的。因此,Linux中另一种更为常见的内存回收机制是使用kswapd。
每个node对应一个内核线程kswapd,kswapd在被唤醒后将扫描各个zone的内存使用状态,并据此进行必要的内存回收操作,因此kswapd的回收方式又被称为"background reclaim"。至于什么情况下触发direct reclaim,什么情况下又会触发background reclaim,是由内存的"watermark"决定的(关于这一块的详细介绍,请参考这篇文章)。
Kswapd虽然名字中含有"swap",但它不光处理anonymous page的swap out回收,同样处理page cache的回收,而且它还肩负着平衡active list和inactive list的重任,所以被它调用的函数叫做balance_pgdat()。
不管是direct reclaim,还是kswapd,最终都是调用shrink_zone() --> shrink_page_list() 进行回收操作。
static unsigned long shrink_list(enum lru_list lru, unsigned long nr_to_scan,
struct lruvec *lruvec, struct scan_control *sc)
{
if (is_active_lru(lru)) {
if (inactive_list_is_low(lruvec, is_file_lru(lru), sc, true))
shrink_active_list(nr_to_scan, lruvec, sc, lru);
return 0;
}
return shrink_inactive_list(nr_to_scan, lruvec, sc, lru);
}
当inactive list中的页面比较少时,shrink_active_list()会从active list尾端转移一部分页面到inactive list中。这里的“少”是相对的,通常物理内存越大,inactive list的页面占比可以越小(页面总数还是增加的),因为inactive list的长度主要是用来减少短时间内refault的(参考上篇文章)。
shrink_inactive_list --> shrink_page_list 将从inactive list尾端移除选定数目的页面,进行释放。
回收一个页面之前,如果该页面当前是被映射的(根据struct page的_mapcount域判断),需要调用try_to_unmap(),通过reserve mapping更改所有指向这个页面的PTEs。对于anonymous page,还需要在swap space中分配slot,并且将这个page标记为dirty的。anonymous page是没有backing store的,从dirty的角度,它可以算是一直dirty的。
前面提到过,不是所有的页面都可以被回收的。如果检测到页面的flag是PG_locked或者是PG_reserved的,则只能跳过。对于正在回写的(flag是PG_writeback的),通常也是放弃回收,有这功夫去等待回写完成,还不如去找链表上其他的clean page。
之后,对于flag是PG_dirty的页面,启动pageout()将这些页面备份或者同步到外部磁盘,这里“备份”针对的是anonymous page,“同步”针对的是page cache。
免死金牌
内存回收算法是根据过去的情况预测未来,而且作为工程应用,融入了很多经验的元素,有可能存在一个进程的页面不断被回收,而这个进程因为需要继续运行又不断申请内存页面的情况,导致大部分的时间耗费在磁盘访问上,而进程无法实质性地运行下去。这样的情况虽然少见,但还是有一定发生的几率。为了保证执行完成,进程可以用申请swap token,拥有了swap token,就可以被内存回收算法暂时豁免(相当于免死金牌),除非,内存实在已经紧张的不行了。
Swap token机制是从linux内核2.6.9版本引入的,整个系统只有一个,用swap_token_mm表示,swap_token_mm指向当前持有swap token的进程的mm_struct。为了保证公平性,每个进程持有swap token的时间是有限的,持有时间由一个定时器控制,定时器timeout后,swap token就会转移给下一个进程。
之后的2.6.20版本引入了更合理的swap token抢占机制:如果一个进程在一段时间内换入的页面较多,说明它可能受到页面换出的影响较大,则这样的进程可以获得在swap token抢占中更高的优先级。随着linux虚拟内存模型的不断演进,swap token机制并不能很好的和cgoups以及NUMA placement融合,因而在3.4版本中被移除了,详情请参考这个patch。
壮士断腕
尽管kswapd是很努力的,但它毕竟是周期性执行的,难免出现某个时刻系统中剩余的内存极少,少到可能连回收内存操作本身需要的内存都不够了。这时候只能使出终极武器了,那就是OOM killer,做法是选择一个进程(out_of_memory --> select_bad_process),然后kill掉(oom_kill_process中发送SIGKILL信号),把它占用的内存释放出来,牺牲了这个进程,保全了整个系统。虽然OOM killer有时候可能导致严重的损失,但总比系统完全崩溃要好。这个无辜的bad process(其实应该是victim啦)可不是随便挑的,应该优先选择这些:
- 占有page frames比较多的,占有的多释放的才多,kill掉才有意义。
- 静态优先级比较低的。
而不能选择这些:
- 内核线程,因为内核线程往往执行的都是比较关键的任务。
- 进程号为1的init进程。如果父进程退出,而它的一个或多个子进程还在运行,那么这些子进程将被init进程托管,如果init进程都挂了,那就……所以啊,kill掉init进程是内核不允许的行为。
- 直接访问硬件设备的进程,如果强行终结这样的进程,可能将硬件置于一个不确定的状态。
参考:
原创文章,转载请注明出处。
标签:swap,list,回收,内存,Linux,page,页面 From: https://www.cnblogs.com/tomato-haha/p/17664842.html