物理内存模型的演变

电子说

1.3w人已加入

描述

内存管理概述中,主要是以Linux v2.6.11为例进行分析的,但是计算技术在不断发展,新的存储架构、新的指令集架构、新的SoC架构等都对物理内存模型的抽象提出了更高要求。为此,必须抽象一种完全独立于硬件架构的物理内存模型。

1 NUMA和UMA

第一个要解决的问题就是非一致性内存访问(NUMA)。对于多核和多内存卡插槽的机器,内存位于不同的分组中,那么与处理器的距离不同,就会产生访问时间的差异。比如,可以将一组内存更靠近CPU,另一组内存更靠近外设,作为访问外设的DMA内存。

这样的每个分组称为一个节点(node)。不管是NUMA架构,还是UMA架构,Linux提供了一个统一的数据结构struct pglist_data表示节点信息。该列表中是类型为pg_data_t的数据结构,描述一个具体的节点,该数据结构可以通过NODE_DATA(nid)引用,这儿nid表示节点的ID。

对于NUMA架构,node数据结构是由特定于架构的代码在boot阶段分配的。通常,这些数据结构分配的就是本地的内存组(也就是离它们近的内存)。对于UMA体系结构,只使用一个名为cong_page_data的静态pg_data_t结构。节点将在下一节讨论。

2 内存分区(memory zone)

节点内的物理内存被划分为一个或多个区,这样的区称为Zone。这些内存分区的划分通常由硬件架构访问物理内存的限制决定。ZONE在内核中的数据类型是zone_t,结构是zone。zone的分类类型如下所示:

ZONE_DMA和ZONE_DMA32

当外设无法DMA访问所有可寻址内存(ZONE_NORMAL)时,使用ZONE_DMA和ZONE_DMA32。ZONE_DMA32用于覆盖整个32位地址空间的架构上。ZONE_DMA留给具有较小DMA寻址限制的区域。这种区别很重要,因为定义ZONE_DMA32时假定使用32位DMA掩码。某些64位平台可能需要2个区域,因为它们支持具有不同DMA寻址限制的外设。虽然近些年提供了更好、更强大的接口分配DMA内存(使用通用设备的动态DMA映射),但ZONE_DMA和ZONE_DMA32仍然表示对其访问方式受限制的内存。根据架构不同,可以使用CONFIG_ZONE_DMA和CONFIG_ZONE_DMA32配置选项,在构建内核时,禁用这些内存区域。

ZONE_NORMAL

普通内存,内核一直可以访问的内存区。如果DMA设备支持向所有可寻址内存的传输,则可以对这些内存页执行DMA操作。ZONE_NORMAL总是使能。

ZONE_HIGHMEM

是内核页表中永久映射未覆盖的物理内存部分。这个区域中的内存只能由内核使用临时映射访问。该区域仅在某些32位体系结构上可用,并通过CONFIG_HIGHMEM启用。

ZONE_MOVABLE

与ZONE_NORMAL类似。不同之处是ZONE_MOVABLE区的内存页是可移动的。也就是说,在这些内存页的虚拟地址不改变的情况下,他们的内容可以在不同的物理内存页之间搬运。ZONE_MOVABLE通常在内存热插拔期间进行填充,但也可以在boot阶段,使用kernelcore、movablecore和movable_node命令行参数之一进行填充。具体可以参考内存页迁移和热插拔

ZONE_DEVICE

表示驻留在PMEM和GPU等设备上的内存。它和内存ZONE类型有着不同,它的存在是为了设备驱动程序的物理内存范围提供page和内存映射服务。ZONE_DEVICE可以通过配置选项CONFIG_ZONE_DEVICE使能。设备内存热插拔支持在mem_map中建立PMEM或其它设备驱动程序发现的内存区域。这允许pfn_to_page()查找“设备物理”地址,这是在O_DIRECT操作中使用DAX映射所需要的。

需要注意的是,许多内核操作只能使用ZONE_NORMAL进行,因此它是性能最关键的ZONE区。

节点和ZONE之间的关系由固件报告的物理内存映射、内存寻址的体系结构约束和内核命令行中的某些参数决定。

例如,对于具有2GB内存的x86 UMA架构内核,整个内存将位于节点0上,分为3个区域:“ZONE_DMA”、“ZONE_NORMAL”和“ZONE_HIGHMEM”:

 

0                                                            2G
+-------------------------------------------------------------+
|                            node 0                           |
+-------------------------------------------------------------+

0         16M                    896M                        2G
+----------+-----------------------+--------------------------+
| ZONE_DMA |      ZONE_NORMAL      |       ZONE_HIGHMEM       |
+----------+-----------------------+--------------------------+

 

在ARM64机器上禁用ZONE_DMA并启用ZONE_DMA32的同时,使用movablecore = 80%参数启动内核时,在两个节点之间平均分配16G内存,则节点0上将有ZONE_DMA32,ZONE_NORMAL和ZONE_MOVABLE,节点1上将有ZONE_NORMAL和ZONE_MOVABLE:

 

1G                                9G                         17G
+--------------------------------+ +--------------------------+
|              node 0            | |          node 1          |
+--------------------------------+ +--------------------------+

1G       4G        4200M          9G          9320M          17G
+---------+----------+-----------+ +------------+-------------+
|  DMA32  |  NORMAL  |  MOVABLE  | |   NORMAL   |   MOVABLE   |
+---------+----------+-----------+ +------------+-------------+

 

内存组也可以交替分配给节点。在下面的示例中,x86机器具有16G的内存,分为4组,偶数组属于节点0,奇数组属于节点1:

 

0              4G              8G             12G            16G
+-------------+ +-------------+ +-------------+ +-------------+
|    node 0   | |    node 1   | |    node 0   | |    node 1   |
+-------------+ +-------------+ +-------------+ +-------------+

0   16M      4G
+-----+-------+ +-------------+ +-------------+ +-------------+
| DMA | DMA32 | |    NORMAL   | |    NORMAL   | |    NORMAL   |
+-----+-------+ +-------------+ +-------------+ +-------------+

 

在这种情况下,节点0将横跨0→12G,节点1将横跨4→16G。

3 节点

正如我们所提到的,内存中的每个节点都由pg_data_t描述,pg_data_t是结构体pglist_data的类型定义。在分配页面时,默认情况下Linux使用节点本地分配策略,从离运行CPU最近的节点分配内存。由于进程倾向于在同一个CPU上运行,因此很可能会使用当前节点的内存。分配策略可以由用户控制,详见NUMA内存策略。

大多数NUMA体系结构维护一个指向node结构的指针数组。实际的结构是在boot过程的早期分配的,当特定于体系结构的代码解析固件报告的物理内存映射时。节点初始化的大部分在boot过程中稍晚的时候通过free_area_init()函数进行,稍后将在初始化一节中描述。

除了node结构,内核还维护一个名为node_states的nodemask_t位掩码数组。这个数组中的每个位掩码代表一组具有特定属性的节点,这些属性由enum node_states定义:

N_POSSIBLE

节点可能在某个时间点在线。

N_ONLINE

节点在线。

N_NORMAL_MEMORY

节点具有常规内存。

N_HIGH_MEMORY

节点具有常规内存或高端内存。当CONFIG_HIGHMEM被禁用时,别名为N_NORMAL_MEMORY。

N_MEMORY

节点具有内存(常规、高、可移动).

N_CPU

节点内CPU数量。

对于具有上述属性的每个节点,将设置与node_states[]位掩码中节点ID对应的位。

例如,节点2,具有常规内存和CPU,位2将在下面设置:

 

    node_states[N_POSSIBLE]
    node_states[N_ONLINE]
    node_states[N_NORMAL_MEMORY]
    node_states[N_HIGH_MEMORY]
    node_states[N_MEMORY]
    node_states[N_CPU]

 

关于nodemask的各种操作,请参考include/linux/nodemask.h。

有了节点之后,LRU列表、页回收机制、交换区(kswapd)等等都需要在NONE分区之上添加处理。细节在此不再详述。

 审核编辑:汤梓红

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分