首页 > 其他分享 >Page Tables (页表) (翻译 by chatgpt)

Page Tables (页表) (翻译 by chatgpt)

时间:2023-12-07 23:26:11浏览次数:36  
标签:Tables 映射 fault +-----+ 层次结构 内存 chatgpt Page 页面

原文:https://www.kernel.org/doc/html/latest/mm/page_tables.html

分页虚拟内存是在1962年与虚拟内存概念一起在Ferranti Atlas计算机上发明的,这是第一台具有分页虚拟内存的计算机。随着时间的推移,这一特性迁移到了更新的计算机上,并成为所有类Unix系统的事实上的特性。1985年,这一特性被包含在Intel 80386中,而Linux 1.0是在该CPU上开发的。

页面表将CPU看到的虚拟地址映射为外部存储器总线上看到的物理地址。

Linux将页面表定义为当前高度为五级的层次结构。每个支持的体系结构的架构代码将把它映射到硬件的限制上。

与虚拟地址对应的物理地址通常由底层物理页帧引用。页帧号或PFN是页面的物理地址(在外部存储器总线上看到的)除以PAGE_SIZE。

物理内存地址0将是PFN 0,最高的PFN将是CPU的外部地址总线可以寻址的物理内存的最后一页。

以4KB的页面粒度和32位的地址范围为例,PFN 0位于地址0x00000000,PFN 1位于地址0x00001000,PFN 2位于0x00002000,依此类推,直到PFN 0xfffff位于0xfffff000。使用16KB的页面,PFS位于0x00004000、0x00008000...0xffffc000,PFN从0到0x3fffff。

正如您所见,对于4KB的页面,页面基地址使用地址的12-31位,这就是为什么在这种情况下,PAGE_SHIFT被定义为12,而PAGE_SIZE通常根据页面移位定义为(1 << PAGE_SHIFT)。

随着内存大小的增加,页面表的层次结构变得更深。在创建Linux时,使用了4KB的页面和一个名为swapper_pg_dir的单个页面表,其中包含1024个条目,覆盖了4MB的内存,这与Torvald的第一台计算机具有4MB的物理内存相吻合。在这个单个表中的条目被称为PTE(页面表条目)。

软件页面表层次结构反映了页面表硬件的层次结构化,并且这样做是为了节省页面表内存并加快映射速度。

当然,我们可以想象一个具有大量条目的单个线性页面表,将整个内存分解为单个页面。这样的页面表将非常稀疏,因为虚拟内存的大部分区域通常保持未使用状态。通过使用分层页面表,虚拟地址空间中的大空洞不会浪费宝贵的页面表内存,因为只需在页面表层次结构的较高级别上将大区域标记为未映射即可。

此外,在现代CPU上,较高级别的页面表条目可以直接指向物理内存范围,这允许在单个高级页面表条目中映射连续的几兆字节甚至几十亿字节的范围,从而在将虚拟内存映射到物理内存时节省遍历更深层次的开销:当找到这样的大映射范围时,无需继续遍历更深层次。

页面表层次结构现在发展成为以下形式:

+-----+
| PGD |
+-----+
   |
   |   +-----+
   +-->| P4D |
       +-----+
          |
          |   +-----+
          +-->| PUD |
              +-----+
                 |
                 |   +-----+
                 +-->| PMD |
                     +-----+
                        |
                        |   +-----+
                        +-->| PTE |
                            +-----+

页面表层次结构中不同级别的符号具有以下含义,从底部开始:

  • pte、pte_t、pteval_t = 页面表项 (Page Table Entry) - 如前所述。pte是pteval_t类型的PTRS_PER_PTE元素数组,每个元素将虚拟内存的单个页面映射到物理内存的单个页面。架构定义了pteval_t的大小和内容。

    一个典型的例子是,pteval_t是一个32位或64位的值,其中高位是pfn(页面帧号),低位是一些特定于架构的位,如内存保护。

    名称中的entry部分有点令人困惑,因为在Linux 1.0中,这确实指的是单个顶层页面表中的单个页面表项,但在首次引入两级页面表时,它被改装为映射元素的数组,因此pte是最底层的页面表,而不是页面表项。

  • pmd、pmd_t、pmdval_t = 页面中间目录 (Page Middle Directory),位于pte上方的层次结构,具有PTRS_PER_PMD个指向pte的引用。

  • pud、pud_t、pudval_t = 页面上层目录 (Page Upper Directory)是在其他级别之后引入的,用于处理4级页面表。它可能未使用,或者如后面将讨论的那样被折叠。

  • p4d、p4d_t、p4dval_t = 页面级别4目录 (Page Level 4 Directory)是在引入pud之后处理5级页面表的。现在清楚地表明,我们需要用表示目录级别的数字来替换pgd、pmd、pud等,而且我们不能再继续使用临时名称。这仅在实际具有5级页面表的系统上使用,否则会被折叠。

  • pgd、pgd_t、pgdval_t = 页面全局目录 (Page Global Directory) - Linux内核主页面表处理内核内存的PGD仍然可以在swapper_pg_dir中找到,但系统中每个用户空间进程也有自己的内存上下文,因此也有自己的pgd,可以在struct mm_struct中找到,而struct mm_struct又在每个struct task_struct中被引用。因此,任务在struct mm_struct形式中具有内存上下文,而这又具有指向相应页面全局目录的struct pgt_t *pgd指针。

重申一下:页面表层次结构中的每个级别都是指针数组,因此pgd包含PTRS_PER_PGD个指向下一级的指针,p4d包含PTRS_PER_P4D个指向pud项的指针,依此类推。每个级别上的指针数量由架构定义。

      PMD
--> +-----+           PTE
    | ptr |-------> +-----+
    | ptr |-        | ptr |-------> PAGE
    | ptr | \       | ptr |
    | ptr |  \        ...
    | ... |   \
    | ptr |    \         PTE
    +-----+     +----> +-----+
                       | ptr |-------> PAGE
                       | ptr |
                         ...

关于页面表折叠

如果架构不使用所有的页面表级别,它们可以被折叠,也就是跳过,所有在页面表上执行的操作都将在编译时增强,以便在访问下一个较低级别时只是跳过一个级别。

希望成为架构中立的页面表处理代码,比如虚拟内存管理器,需要被编写成遍历当前的五个级别。这种风格也应该被用于特定于架构的代码,以便对未来的更改具有鲁棒性。

MMU、TLB 和页面错误

内存管理单元(MMU)是处理虚拟地址到物理地址转换的硬件组件。它可能在硬件中使用相对较小的缓存,称为翻译后备缓冲器(TLB)和页面遍历缓存,以加速这些转换。

当 CPU 访问内存位置时,它向 MMU 提供一个虚拟地址,MMU 检查 TLB 或页面遍历缓存(在支持它们的架构上)中是否存在现有的转换。如果没有找到转换,MMU 将使用页面遍历来确定物理地址并创建映射。

页面的脏位在页面被写入时被设置(即打开)。每个内存页面都有相关的权限和脏位。后者表示自从加载到内存以来,页面已被修改。

如果没有任何阻碍,最终可以访问物理内存并执行对物理帧的请求操作。

MMU 无法找到某些转换的原因有几种。这可能是因为 CPU 尝试访问当前任务无权访问的内存,或者数据不在物理内存中。

当出现这些情况时,MMU 触发页面错误,这是一种信号 CPU 暂停当前执行并运行特殊函数来处理上述异常的类型。

页面错误有常见和预期的原因。这些是由进程管理优化技术触发的,称为“延迟分配”和“写时复制”。当帧已被交换到持久存储(交换分区或文件)并从其物理位置中驱逐时,也可能发生页面错误。

这些技术提高了内存效率,减少了延迟,并最小化了空间占用。本文不会深入探讨“延迟分配”和“写时复制”的细节,因为这些主题超出了范围,它们属于进程地址管理。

交换与其他提到的技术有所不同,因为它是不希望的,因为它是在内存压力下减少内存的手段。

交换无法用于由内核逻辑地址映射的内存。这些是内核虚拟空间的子集,直接映射了连续的物理内存范围。给定任何逻辑地址,它的物理地址是通过简单的偏移量进行确定的。对逻辑地址的访问很快,因为它们避免了复杂的页面表查找,但代价是帧不可驱逐和可分页。

如果内核无法为必须存在于物理帧中的数据腾出空间,内核将调用内存不足(OOM)杀手,通过终止优先级较低的进程来腾出空间,直到压力降到安全阈值以下。

此外,页面错误也可能是由代码错误或恶意构造的地址引起的。进程的线程可能使用指令来访问(非共享)不属于其自己地址空间的内存,或者尝试执行要写入只读位置的指令。

如果上述条件发生在用户空间,内核会向当前线程发送一个分段错误(SIGSEGV)信号。该信号通常导致线程和其所属进程的终止。

本文将简化并展示 Linux 内核如何处理这些页面错误的高层视图,创建表和表项,检查内存是否存在,如果不存在,则请求从持久存储或其他设备加载数据,并更新 MMU 及其缓存。

首先的步骤是与架构相关的。大多数架构都会跳转到 do_page_fault(),而 x86 中断处理程序由 DEFINE_IDTENTRY_RAW_ERRORCODE() 宏定义,该宏调用 handle_page_fault()

无论采用何种路线,所有架构最终都会调用 handle_mm_fault(),而后者又(很可能)最终调用 __handle_mm_fault() 来执行分配页面表的实际工作。

无法调用 __handle_mm_fault() 的不幸情况意味着虚拟地址指向的物理内存区域不允许被访问(至少从当前上下文来看)。这种情况会导致内核向进程发送上述 SIGSEGV 信号,并导致已经解释的后果。

__handle_mm_fault() 通过调用几个函数来查找页面表的上层条目的偏移量并分配可能需要的表来执行其工作。

查找偏移量的函数的名称类似于 *_offset(),其中 "*" 代表 pgd、p4d、pud、pmd、pte;而分配相应表的函数则称为 *_alloc,按照上述约定命名,以表的层次结构命名。

页面表遍历可能在中间或上层(PMD、PUD)结束。

Linux 支持比通常的 4KB 更大的页面大小(即所谓的大页面)。使用这些更大的页面时,更高级别的页面可以直接映射它们,无需使用较低级别的页面条目(PTE)。大页面包含大的连续物理区域,通常跨越从 2MB 到 1GB。它们分别由 PMD 和 PUD 页面条目映射。

大页面带来了几个好处,如减少 TLB 压力、减少页面表开销、内存分配效率以及对某些工作负载的性能改进。然而,这些好处伴随着一些权衡,比如浪费的内存和分配挑战。

在分配遍历的最后,如果没有返回错误,__handle_mm_fault()最终调用 handle_pte_fault(),后者通过 do_fault() 执行 do_read_fault()、do_cow_fault()、do_shared_fault() 中的一个。"read"、"cow"、"shared" 提供了关于处理的原因和故障类型的提示。

工作流程的实际实现非常复杂。其设计允许 Linux 处理页面错误的方式针对每个架构的特定特性进行定制,同时仍然共享一个共同的整体结构。

为了总结对 Linux 处理页面错误的高层视图,让我们补充一下,页面错误处理程序可以分别通过 pagefault_disable()pagefault_enable() 来禁用和启用。

许多代码路径使用后两个函数,因为它们需要禁用陷阱到页面错误处理程序,主要是为了防止死锁。

标签:Tables,映射,fault,+-----+,层次结构,内存,chatgpt,Page,页面
From: https://www.cnblogs.com/pengdonglin137/p/17876208.html

相关文章

  • Assembler Annotations (翻译 by chatgpt)
    原文:https://www.kernel.org/doc/html/latest/core-api/asm-annotations.html汇编注释版权所有(c)2017-2019JiriSlaby本文档描述了汇编中用于注释数据和代码的新宏。特别是,它包含了关于SYM_FUNC_START、SYM_FUNC_END、SYM_CODE_START等的信息。缘由一些代码,比如入口点、跳板......
  • Shrinker Debugfs Interface (翻译 by chatgpt)
    原文:https://www.kernel.org/doc/html/latest/admin-guide/mm/shrinker_debugfs.htmlShrinkerDebugfsInterface收缩器debugfs接口提供了对内核内存收缩子系统的可见性,并允许获取有关单个收缩器的信息并与其交互。对于系统中注册的每个收缩器,都会在<debugfs>/shrinker/目......
  • Symbol Namespaces (符号命名空间)(翻译 by chatgpt)
    原文:https://www.kernel.org/doc/html/latest/core-api/symbol-namespaces.html以下文件描述了如何使用符号命名空间来构造通过EXPORT_SYMBOL()宏系列导出的内核符号的导出表面。1.介绍符号命名空间被引入作为结构化内核API导出表面的一种手段。它允许子系统维护者将其导出的......
  • How to get printk format specifiers right (如何正确使用printk格式说明符)(翻译 by
    原文:https://www.kernel.org/doc/html/latest/core-api/printk-formats.html#printk-specifiers如何正确使用printk格式说明符整数类型如果变量是Type类型,则使用printk格式说明符:signedchar%d或%hhxunsignedchar%u或%xchar......
  • linux iptables操作
    1.查看iptables规则iptables-nL2.添加iptables规则iptables-AINPUT-s10.0.0.0/8-d10.0.0.0/8-ptcp-mmultiport--dports6379,6643-jACCEPT该命令使用 -AINPUT 将规则添加到过滤器的INPUT链(即入站流量),并指定以下条件:-s10.0.0.0/8:源IP地址是 10.0.0.......
  • 是什么让 ChatGPT 如此特别?
    “所以我听说RLHF使ChatGPT变得非常智能。”“ChatGPT使用强化学习,这就是它如此智能的原因。”嗯……有点。截至撰写本文时,人们对RLHF(即人类反馈强化学习)感到非常兴奋。我们做了一些事情来特别训练ChatGPT(以及越来越多的其他大型语言模型)。它们并不是全新的,但在ChatGPT发......
  • 在科技行业的热门趋势中,你必定无法忽视日益增长的人工智能大模型的影响力。无论是你热
    在科技行业的热门趋势中,你必定无法忽视日益增长的人工智能大模型的影响力。无论是你热衷浏览的短视频还是见不得的“AI绘画”,或者是你的朋友圈中充斥的“虚拟试衣”和智能聊天软件ChatGPT,这些都在告诉你,AI大模型正在为日常生活带来革命性的改变。今天,我们就来探讨如何使用AI大模型......
  • 文心一言 VS 讯飞星火 VS chatgpt (130)-- 算法导论11.2 2题
    二、用go语言,对于一个用链接法解决冲突的散列表,说明将关键字5,28,19,15,20,33,12,17,10插入到该表中的过程。设该表中有9个槽位,并设其散列函数为h(k)=kmod9。文心一言:在这个问题中,我们使用Go语言来解决一个散列(Hash)表的问题,该问题需要我们使用链接法解决冲突。我们的散列......
  • ChatGPT全线大崩溃!奥特曼亲自致歉:流量远超预期
    OpenAI前脚科技春晚炸翻全球,后脚自家院子却没能守住。原因无他,就是火爆......
  • 文心一言 VS 讯飞星火 VS chatgpt (129)-- 算法导论11.1 4题
    四、用go语言,我们希望在一个非常大的数组上,通过利用直接寻址的方式来实现一个字典。开始时该数组中可能包含一些无用信息,但要对整个数组进行初始化是不太实际的,因为该数组的规模太大。请给出在大数组上实现直接寻址字典的方案。每个存储对象占用O(1)空间;SEARCH、INSERT和DELETE操......