Linux内存系统_系统运维

维基百科——虚拟内存定义

All about Linux swap space

Linux将物理RAM （Random Access Memory）划分为称为页面的内存块。交换是将一页内存复制到硬盘上的预配置空间（称为交换空间）以释放改内存页面上的过程。物理内存和交换空间的组合就是可用的虚拟内存量。

虚拟内存的那点事儿

进程是与其他进程共享CPU和内存资源的。为了有效的管理内存并减少出错，现代 *** 作系统提供了一种对主存的抽象概念，即：虚拟内存（ Virtual Memory ）。 虚拟内存为每个进程提供一个一致的，私有的地址空间，每个进程拥有一片连续完整的内存空间。

正如维基百科所说，虚拟内存不只是“使用硬盘空间来扩展内存”的技术。 虚拟内存的重要意义是它定义了一个连续的虚拟地址空间， 使得程序编写难度降低。并且，把内存扩展到硬盘空间只是使用虚拟内存的必然结果，虚拟内存空间会存在硬盘中，并且会被全部放入内存中缓冲（按需），有的 *** 作系统还会在内存不够的情况下，将一进程的内存全部放入硬盘空间中，并在切换到进程时再从硬盘读取（这也是Windows会经常假死的原因...）。

虚拟内存主要提供了如下三个重要的能力：

内存通常被组织为一个由M个连续的字节大小的单元组成的数组。每个字节都有一个唯一的物理地址（Physical Address PA），作为到数组的索引。

CPU访问内存最简单直接的方法就是使用物理地址，这种寻址方式称为 物理寻址 。

现代计算机使用的是一种被称为虚拟寻址（Virtual Addressing）的寻址方式。 使用虚拟寻址，CPU需要将虚拟地址翻译成物理地址，这样才能访问到真实的物理内存。

虚拟寻址需要硬件与 *** 作系统之间相互合作。 CPU中含有一个被称为内存管理单元（Memory Management Unit，MMU）的硬件，它的功能是将虚拟地址转换称为物理地址，MMU需要借助存放在内存中的页表来动态翻译虚拟地址，该页表由 *** 作系统管理。

分页表是一种数据结构，它用于计算机 *** 作系统中虚拟内存系统，其存储了虚拟地址到物理地址之间的映射。虚拟地址在访问进程中是唯一的，而物理地址在硬件（比如内存）中是唯一的。

在 *** 作系统中使用 虚拟内存 ，每个进程会认为使用一块大的连续的内存，事实上，每个进程的内存散布在 物理内存 的不同区域。或者可能被调出到备份存储中（一般是硬盘）。当一个进程请求自己的内存， *** 作系统负责把程序生成的虚拟地址，映射到实际存储的物理内存上。 *** 作系统在 分页表 中存储虚拟地址到物理地址的映射。每个映射被称为 分页表项（page table entry ,PTE） 。

在一个简单的地址空间方案中，由虚拟地址寻址的页与物理内存中的帧之间的关系。物理内存可以包含属于许多进程的页。如果不经常使用，或者物理内存已满，可以将页面分页到磁盘。在上图中，并非所有页面都在物理内存中。

虚拟地址到物理地址的转换（即虚拟内存的管理）、内存保护、CPU高速缓存的控制。

现代的内存管理单元是以页的方式，分割虚拟地址空间（处理器使用的地址范围）的；页的大小是2的n次方，通常为几KB（字节）。地址尾部的n位（页大小的2的次方数）作为页内的偏移量保持不变。其余的地址位（address）为（虚拟）页号。

内存管理单元通常借助一种叫做转译旁观缓冲器（Translation Lookaside Buffer，TLB）和相联高速缓存来将虚拟页号转换为物理页号。当后备缓冲器中没有转换记录时，则使用一种较慢的机制，其中包括专用硬件的数据结构或软件辅助手段。这个数据结构称为 分页表 ，页表中的数据叫做 分页表项 （page table entry PTE）。物理页号结合页偏移量便提供了完整的物理地址。

页表或转换后备缓冲器数据项应该包括的信息有：

有时候，TLB和PTE会 禁止对虚拟页访问 ，这可能是因为没有RAM与虚拟页相关联。如果是这种情况，MMU将向CPU发出页错误的信号， *** 作系统将进行处理，也许会寻找RAM的空白帧，同时建立一个新的PTE将之映射到所请求的虚拟地址。如果没有空闲的RAM，可能必须关闭一个已经存在的页面，使用一些替换算法，将之保存到磁盘中（这被称为页面调度）。

当需要将虚拟地址转换为物理地址时，首先搜索TLB，如果找到匹配（TLB）命中，则返回物理地址并继续存储器访问。然而，如果没有匹配（称为TLB未命中），则MMU或 *** 作系统TLB未命中处理器通常会查找页表中的地址映射以查看是否存在映射（页面遍历），如果存在，则将其写回TLB（这必须完成，因为硬件通过虚拟存储器系统中的TLB访问存储器），并且重启错误指令（这也可以并行发生）。此后续转换找到TLB命中，并且内存访问将继续。

虚拟地址到物理地址的转换过程，如果虚拟内存不存在与TLB，转换会被重置并通过分页表和硬件寻找。

通常情况下，用于处理此中断的程序是 *** 作系统的一部分。如果 *** 作系统判断此次访问有效，那么 *** 作系统会尝试将相关的分页从硬盘上的虚拟内存文件调入内存。而如果访问是不被允许的，那么 *** 作系统通常会结束相关的进程。

虽然叫做“页缺失”错误，但实际上这并不一定是一种错误。而且这一机制是利用虚拟内存来增加程序可用内存空间。

发生这种情况的可能性：

当原程序再次需要该页内的数据时，如果这一页确实没有被分配出去，那么系统只需要重新为该页在MMU内注册映射即可。

*** 作系统需要：

硬性页缺失导致的性能损失是很大的。

另外，有些 *** 作系统会将程序的一部分延迟到需要使用的时候再加载入内存执行，以此提升性能。这一特性也是通过捕获硬性页缺失达到的。

当硬性页缺失过于频繁发生时，称发生 系统颠簸。

具体动作与所使用的 *** 作系统有关，比如Windows会使用异常机制向程序报告，而类Unix系统则使用信号机制。

尽管在整个运行过程中，程序引用不同的页面总数（也就是虚拟内存大小）可能超出了物理存储器（DRAM）总大小，但是程序常常在较小的活动页面上活动，这个集合叫做工作集或者常驻集。在工作集被缓存后，对它的反复调用会使程序命中提高，从而提高性能。

大部分的程序都可以在存储器获取数据和读取中达到稳定的状态，当程序达到稳定状态时，存储器的使用量通常都不会太大。虚拟内存虽然可以有效率控制存储器的使用， 但是大量的页缺失还是造成了系统迟缓的主要因素。 当工作集的大小超过物理存储器大小，程序将会发生一种不幸的情况，这种情况称为 “颠簸” ，页面将不停的写入、释放、读取，由于大量的丢失（而非命中）而损失极大性能。用户可以增加随机存取存储器的大小或是减少同时在系统里运行程序的数量来降低系统颠簸的记录。

推荐阅读：

*** 作系统--分页(一)

*** 作系统实现（二）：分页和物理内存管理

3种地址：虚拟地址、物理地址、逻辑地址

物理地址：内存的电路地址，对应内存地址线上的高低电平，物理可见的。

虚拟地址：分页机制的产物，也叫线性地址，是进程能看见的地址。

逻辑地址：分段机制的产物，属于inter cpu的历史遗留问题，linux可以当做不存在。

3种地址的转换：进程访问逻辑地址，linux内核根据分段机制装换成虚拟地址，然后把进程的页表和虚拟地址都告诉cpu，cpu就可以根据分页机制将虚拟地址装换成物理地址，然后访问内存。

linux内核中巧妙地屏蔽里分段机制，就是逻辑地址等于虚拟地址，访问内存只需要利用分页机制把虚拟地址转换成物理地址。

linux会为每个进程创建自己的虚拟地址空间，就是进程地址空间，64位系统就是128T的内存空间。需要注意的是，虚拟地址就是假的，一开始不和物理地址对应，也就是说不占用物理内存，只有当虚拟地址有写入 *** 作是，内核会触发缺页，分配真实的物理地址给虚拟地址。物理地址的管理可参考内核内存管理

从进程空间看，用户态闲置内存有3块，Stack、Memory Mapping Region、Heap，Stack是程序函数调用运行时需要的，不可控，能自由分配的内存就剩Memory Mapping Region、Heap了，linux系统提供的内存分配函数就是针对这两个区域的。

Heap *** 作函数：int brk(void *addr)、void *sbrk(intptr_t increment)

Memory Mapping Region *** 作函数：mmap()、munmap()

当然进程可以直接使用系统调用去申请内存，但是如果不管理的话，经过大量的申请和释放，会把进程空间切割的乱七八糟，导致不能申请大块的连续空间，为此就出现了内存管理模块，封装了系统调用，对进程提供malloc和free等高级函数。实际上，除了一些特殊程序，我们也很少用系统调用，一般都是使用内存管理模块提供的malloc和free，关系如下图：

内存管理模块用各种好处，例如不会每次 *** 作都去执行系统调用，减少内存碎片的产生等等。

当然也有很多实现方式，例如常用的glibc的Ptmalloc，google的tcmalloc，facebook的jemalloc等。各有各的应用场景，blablabla....

使用时，gcc默认会链接glibc的，如果想使用其他lib，gcc链接时指定就能覆盖掉glibc的。

我们重点讲Ptmalloc，从而启发程序员在写程序时多考虑下内存分配情况，可以选择或自己实现适合自己程序的内存管理lib。

Ptmalloc的历史发展，blablabla......，Ptmalloc采取内存池管理，进程malloc时，通过brk（小于128K的内存）、mmap（大内存）从系统获取地址空间，给进程使用，进程free时，不会立即通过brk、munmap将地址空间还给系统，会自己维护起来，叫做空闲内存，这些空闲内存在进程再次malloc时，还会被分出去，并且空闲内存会在特定条件下合并起来还给系统。

内存分配区，管理了一片内存，对外分发和回收，可以理解为一个内存池，分main arena和non main arena。

main arena：最早的分配区，管理着所有可分配的内存，通过brk，mmap等系统调用向系统申请内存。注意只有main arena可以 *** 作Heap。

non main arena：由于多线程的出现，如果多有线程都 *** 作main arena就会有竞争，需要加锁控制，所以出现了non main arena，通过mmap向main arena申请一大块内存，然后自己管理，可以理解为内存分销商。

只有主线程在main arena上申请内存，子线程在non main arena上，non main arena的个数是有上限的，所以non main arena允许多个子线程共用，这样就涉及到加锁，所以程序涉及应避免子线程个数太多。

进程申请到的一块内存叫做一个内存片，arena内部使用chunk数据结构来描述内存片，包括进程正在使用的内存片，和进程free掉的空闲内存片

A：是否main arena内存

M：使用mmap内存

P：上一块是否被使用

size of previous chunk：上一块没有被使用时，表示上块长度，被使用时是上块用来存User data的。

Size of chunk：就是下一块的size of previous chunk，释放时填上本块长度，供下块合并用。

分给进程的内存片arena可以不管，但是进程free回来的，arena需要通过一定方式组织起来，方便进程再次使用。组织方式有下面几种：

bins是个数组，包含128个bin，每个bin是个链表，分small bin和large bin两种，各64个，small bin中chunk大小固定，两个相邻的small bin中的chunk大小相差8bytes，large bin中chunk大小是一定范围内的，其中的chunk按大小排列。

空闲chunk按大小选择合适的bin，按新旧顺序挂到链表上，优先分配旧的chunk。

不大于max_fast （默认值为64B）的chunk被释放后，首先会被放到fast bins 中，fast bins中的chunk并不改变它的使用标志P。这样也就无法将它们合并，当需要给用户分配的chunk小于或等于max_fast时，ptmalloc首先会在fast bins中查找相应的空闲块。在特定的时候，ptmalloc会遍历fast bins中的chunk，将相邻的空闲chunk进行合并，并将合并后的chunk加入unsorted bin中。

进行malloc时，如果在fast bins中没有找到合适的chunk，则ptmalloc会先在unsorted bin中查找合适的空闲chunk，如果unsorted bin不能满足分配要求。malloc便会将unsorted bin中的chunk加入bins中。然后再从bins中继续进行查找和分配过程。从这个过程可以看出来，unsorted bin可以看做是bins的一个缓冲区，增加它只是为了加快分配的速度。

前面的bin中都是回收回来的内存，top chunk才是内存的初始来源，每个arena都有一个top chunk，用来管理Heap的，Heap会在arena第一次分配内存时初始化，会分配一块(chunk_size + 128K) align 4K的空间（132K）作为初始的Heap，top chunk占据整个空间，每次分配会在低地址出切出一片，如下图：

回收时，只有和top chunk相连的内存才能和top chunk合并，才能进而还给系统。

子线程Heap：在main arena中mmap出64M的空间，叫做sub-heap，再在sub-heap上初始化Heap。

主线程的Heap才是真Heap，使用进程Heap，使用brk申请内存。

子线程的heap不够用时，会在申请新的sub-heap，和老的sub-heap单向链表连起来，top chunk会搬到新sub-heap上。

描述mmap出来的内存，单独管理，free时按阈值来决定是否munmap，有动态调整阈值功能，防止太频繁的mmap和munmap。本文不关注。

即最后一次small request中因分割而得到的剩余部分，它有利于改进引用局部性，也即后续对 small chunk 的 malloc 请求可能最终被分配得彼此靠近。

当用户请求 small chunk而无法从small bin和unsorted bin得到时，会在large bin中找最合适的chunk，然后做切割，返回给用户的User chunk，剩下的是Remainder chunk添加到unsorted bin中。这一Remainder chunk就将成为last remainder chunk。

下一块为高地址，前一块为低地址。

Glibc内存管理华庭（庄明强）

在用户空间中动态申请内存的函数为malloc ()，这个函数在各种 *** 作系统上的使用都是一致的，malloc ()申请的内存的释放函数为free()。对于Linux而言，C库的malloc ()函数一般通过brk ()和mmap ()两个系统调用从内核申请内存。由于用户空间C库的malloc算法实际上具备一个二次管理能力，所以并不是每次申请和释放内存都一定伴随着对内核的系统调用。如，应用程序可以从内核拿到内存后，立即调用free()，由于free()之前调用了mallopt(M_TRIM_THRESHOLD，一1）和mallopt (M_MMAP_MAX，0)，这个free ()并不会把内存还给内核，而只是还给了C库的分配算法（内存仍然属于这个进程)，因此之后所有的动态内存申请和释放都在用户态下进行。另外，Linux内核总是采用按需调页（Demand Paging)，因此当malloc ()返回的时候，虽然是成功返回，但是内核并没有真正给这个进程内存，这个时候如果去读申请的内存，内容全部是0，这个页面的映射是只读的。只有当写到某个页面的时候，内核才在页错误后，真正把这个页面给这个进程。在Linux内核空间中申请内存涉及的函数主要包括kmalloc( ) 、get free pages ( )和vmalloc ()等。kmalloc ()和_get_free pages ()(及其类似函数）申请的内存位于DMA和常规区域的映射区，而且在物理上也是连续的，它们与真实的物理地址只有一个固定的偏移，因此存在较简单的转换关系。而vmalloc()在虚拟内存空间给出一块连续的内存区，实质上，这片连续的虚拟内存在物理内存中并不一定连续，而vmalloc (）申请的虚拟内存和物理内存之间也没有简单的换算关系。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/6163056.html

Linux内存系统

发表评论

评论列表（0条）