如何在linux内核中读写文件_系统运维

内核中读写文件

1.filp_open()在kernel中可以打开文件，其原形如下：

Struct file* filp_open(const char* filename, int open_mode, int mode)该函数返回strcut file*结构指针，供后继函数 *** 作使用，该返回值用IS_ERR()来检验其有效性。

2. 读写文件（vfs_read/vfs_write）

kernel中文件的读写 *** 作可以使用vfs_read()和vfs_write，在使用这两个函数前需要说明一下get_fs()和 set_fs()这两个函数。

vfs_read() vfs_write()两函数的原形如下：

ssize_t vfs_read(struct file* filp, char __user* buffer, size_t len, loff_t* pos)

ssize_t vfs_write(struct file* filp, const char __user* buffer, size_t len, loff_t* pos)

注意这两个函数的第二个参数buffer，前面都有__user修饰符，这就要求这两个buffer指针都应该指向用空的内存，如果对该参数传递kernel空间的指针，这两个函数都会返回失败-EFAULT。但在Kernel中，我们一般不容易生成用户空间的指针，或者不方便独立使用用户空间内存。要使这两个读写函数使用kernel空间的buffer指针也能正确工作，需要使用set_fs()函数或宏(set_fs()可能是宏定义)，如果为函数，其原形如下：

void set_fs(mm_segment_t fs)

该函数的作用是改变kernel对内存地址检查的处理方式，其实该函数的参数fs只有两个取值：USER_DS，KERNEL_DS，分别代表用户空间和内核空间，默认情况下，kernel取值为USER_DS，即对用户空间地址检查并做变换。那么要在这种对内存地址做检查变换的函数中使用内核空间地址，就需要使用set_fs(KERNEL_DS)进行设置。get_fs()一般也可能是宏定义，它的作用是取得当前的设置，这两个函数的一般用法为：

我们知道，直接从物理内存读写数据要比从硬盘读写数据要快的多，因此，我们希望所有数据的读取和写入都在内存完成，而内存是有限的，这样就引出了物理内存与虚拟内存的概念。

物理内存就是系统硬件提供的内存大小，是真正的内存，相对于物理内存，在linux下还有一个虚拟内存的概念，虚拟内存就是为了满足物理内存的不足而提出的策略，它是利用磁盘空间虚拟出的一块逻辑内存，用作虚拟内存的磁盘空间被称为交换空间（Swap Space）。

作为物理内存的扩展，linux会在物理内存不足时，使用交换分区的虚拟内存，更详细的说，就是内核会将暂时不用的内存块信息写到交换空间，这样以来，物理内存得到了释放，这块内存就可以用于其它目的，当需要用到原始的内容时，这些信息会被重新从交换空间读入物理内存。

Linux的内存管理采取的是分页存取机制，为了保证物理内存能得到充分的利用，内核会在适当的时候将物理内存中不经常使用的数据块自动交换到虚拟内存中，而将经常使用的信息保留到物理内存。

要深入了解linux内存运行机制，需要知道下面提到的几个方面：

Linux系统会不时的进行页面交换 *** 作，以保持尽可能多的空闲物理内存，即使并没有什么事情需要内存，Linux也会交换出暂时不用的内存页面。这可以避免等待交换所需的时间。

Linux 进行页面交换是有条件的，不是所有页面在不用时都交换到虚拟内存，linux内核根据”最近最经常使用“算法，仅仅将一些不经常使用的页面文件交换到虚拟内存，有时我们会看到这么一个现象：linux物理内存还有很多，但是交换空间也使用了很多。其实，这并不奇怪，例如，一个占用很大内存的进程运行时，需要耗费很多内存资源，此时就会有一些不常用页面文件被交换到虚拟内存中，但后来这个占用很多内存资源的进程结束并释放了很多内存时，刚才被交换出去的页面文件并不会自动的交换进物理内存，除非有这个必要，那么此刻系统物理内存就会空闲很多，同时交换空间也在被使用，就出现了刚才所说的现象了。关于这点，不用担心什么，只要知道是怎么一回事就可以了。

交换空间的页面在使用时会首先被交换到物理内存，如果此时没有足够的物理内存来容纳这些页面，它们又会被马上交换出去，如此以来，虚拟内存中可能没有足够空间来存储这些交换页面，最终会导致linux出现假死机、服务异常等问题，linux虽然可以在一段时间内自行恢复，但是恢复后的系统已经基本不可用了。

因此，合理规划和设计Linux内存的使用，是非常重要的.

在Linux *** 作系统中，当应用程序需要读取文件中的数据时， *** 作系统先分配一些内存，将数据从磁盘读入到这些内存中，然后再将数据分发给应用程序；当需要往文件中写数据时， *** 作系统先分配内存接收用户数据，然后再将数据从内存写到磁盘上。然而，如果有大量数据需要从磁盘读取到内存或者由内存写入磁盘时，系统的读写性能就变得非常低下，因为无论是从磁盘读数据，还是写数据到磁盘，都是一个很消耗时间和资源的过程，在这种情况下，Linux引入了buffers和 cached机制。

buffers与cached都是内存 *** 作，用来保存系统曾经打开过的文件以及文件属性信息，这样当 *** 作系统需要读取某些文件时，会首先在buffers 与cached内存区查找，如果找到，直接读出传送给应用程序，如果没有找到需要数据，才从磁盘读取，这就是 *** 作系统的缓存机制，通过缓存，大大提高了 *** 作系统的性能。但buffers与cached缓冲的内容却是不同的。

buffers是用来缓冲块设备做的，它只记录文件系统的元数据（metadata）以及 tracking in-flight pages，而cached是用来给文件做缓冲。更通俗一点说：buffers主要用来存放目录里面有什么内容，文件的属性以及权限等等。而cached直接用来记忆我们打开过的文件和程序。

为了验证我们的结论是否正确，可以通过vi打开一个非常大的文件，看看cached的变化，然后再次vi这个文件，感觉一下两次打开的速度有何异同，是不是第二次打开的速度明显快于第一次呢？接着执行下面的命令：

find / -name .conf 看看buffers的值是否变化，然后重复执行find命令，看看两次显示速度有何不同。

上面这个60代表物理内存在使用40%的时候才会使用swap（参考网络资料：当剩余物理内存低于40%（40=100-60）时，开始使用交换空间） swappiness=0的时候表示最大限度使用物理内存，然后才是 swap空间，swappiness＝100的时候表示积极的使用swap分区，并且把内存上的数据及时的搬运到swap空间里面。

值越大表示越倾向于使用swap。可以设为0，这样做并不会禁止对swap的使用，只是最大限度地降低了使用swap的可能性。

通常情况下：swap分区设置建议是内存的两倍（内存小于等于4G时），如果内存大于4G，swap只要比内存大就行。另外尽量的将swappiness调低，这样系统的性能会更好。

B. 修改swappiness参数

永久性修改：

立即生效，重启也可以生效。

一般系统是不会自动释放内存的关键的配置文件/proc/sys/vm/drop_caches。这个文件中记录了缓存释放的参数，默认值为0，也就是不释放缓存。他的值可以为0~3之间的任意数字，代表着不同的含义：

0 – 不释放 1 – 释放页缓存 2 – 释放dentries和inodes 3 – 释放所有缓存

前提：首先要保证内存剩余要大于等于swap使用量，否则会宕机！根据内存机制，swap分区一旦释放，所有存放在swap分区的文件都会转存到物理内存上。通常通过重新挂载swap分区完成释放swap。

a.查看当前swap分区挂载在哪？b.关停这个分区 c.查看状态：d.查看swap分区是否关停，最下面一行显示全 e.将swap挂载到/dev/sda5上 f.查看挂载是否成功

什么是虚拟内存？

Linux支持虚拟内存（virtual memory），虚拟内存是指使用磁盘当作RAM的扩展，这样可用的内存的大小就相应地增大了。内核会将暂时不用的内存块的内容写到硬盘上，这样一来，这块内存就可用于其它目的。当需要用到原始的内容时，它们被重新读入内存。这些 *** 作对用户来说是完全透明的；Linux下运行的程序只是看到有大量的内存可供使用而并没有注意到时不时它们的一部分是驻留在硬盘上的。当然，读写硬盘要比直接使用真实内存慢得多（要慢数千倍），所以程序就不会象一直在内存中运行的那样快。用作虚拟内存的硬盘部分被称为交换空间（swap space）。

Linux能够使用文件系统中的一个常规文件或一个独立的分区作为交换空间。交换分区要快一些，但是很容易改变交换文件的大小（也就无需重分区整个硬盘，并且可以从临时分区中安装任何东西）。当你知道你需要多大的交换空间时，你应该使用交换分区，但是如果你不能确定的话，你可以首先使用一个交换文件，然后使用一阵子系统，你就可以感觉到要有多大的交换空间，此时，当你能够确信它的大小时就创建一个交换分区。

你应该知道，Linux允许同时使用几个交换分区以及/或者交换文件。这意味着如果你只是偶尔地另外需要一个交换空间时，你可以在当时设置一个额外的交换文件，而不是一直分配这个交换空间。

*** 作系统术语注释：计算机科学常常将交换[swapping](将整个进程写到交换空间)与页面调度[paging]（在某个时刻，仅仅固定大小的几千字节写到交换空间内）加以区别。页面调度通常更有效，这也是Linux的做法，但是传统的Linux术语却指的是交换。

创建交换空间

一个交换文件是一个普通的文件；对内核来说一点也不特殊。对内核有关系的是它不能有孔，并且它是用mkswap来准备的。而且，它必须驻留在一个本地硬盘上，它不能由于实现的原因而驻留在一个通过NFS加载的文件系统中。

关于孔是重要的。交换文件保留了磁盘空间，以至于内核能够快速地交换出页面而无需做分配磁盘扇区给文件时所要做的一些事。内核仅仅是使用早已分配给交换文件的任何扇区而已。因为文件中的一个孔意味着没有磁盘扇区分配（给该文件的孔的相应部分），对内核来说就不能使用这类有孔的文件。

创建无孔的交换文件的一个好方法是通过下列命令：

$ dd if=/dev/zero of=/extra-swap bs=1024 count=1024 \

上面/extra-swap是交换文件的名字，大小由count=后面的数值给出。大小最好是4的倍数，因为内核写出的内存页面（memory pages）大小是4千字节。如果大小不是4的倍数，最后几千字节就用不上了。

一个交换分区也并没有什么特别的。你可以象创建其它分区一样地创建它；唯一的区别在于它是作为一个原始的分区使用的，也即，它不包括任何的文件系统。将交换分区标记为类型82（Linux交换分区）是个好主意；这将使得分区的列表更清楚，尽管对内核来说并不是一定要这样的。

在创建了一个交换文件或一个交换分区以后，你必须在它的开头部分写上一个签名；这个签名中包括了一些由内核使用的管理信息。这是用\cmd{mkswap}命令来做到的，用法如下：

$ mkswap /extra-swap 1024

Setting up swapspace, size = 1044480 bytes

请注意此时交换空间还没有被使用：它已存在，但内核还没有用它作为虚拟内存。你必须非常小心地使用mkswap，因为它不检查这个文件或分区是否已被别人使用。你可以非常容易地使用mkswap来覆盖重要的文件以及分区！幸运的是，仅仅在安装系统时，你才需要使用mkswap。

Linux内存管理程序限制每个交换空间最大约为127MB（由于各种技术上的原因，实际的限制大小为(4096-10) * 8 * 4096 = 133890048$ 字节，或127.6875兆字节）。然而，你可以同时使用多至16个交换空间，总容量几乎达2GB。

交换空间的使用

一个已初始化的交换空间是使用命令swapon投入正式使用的。该命令告诉内核这个交换空间可以被使用了。到交换空间的路径是作为参数给出的，所以，开始在一个临时交换文件上使用交换的命令如下：

$ swapon /extra-swap

通过把交换空间列入/etc/fstab文件中就能被自动地使用了。

/dev/hda8 none swap sw 0 0

/swapfile none swap sw 0 0

启动描述文件会执行命令swapon –a，这个命令会启动列于/etc/fstab中的所有交换空间。因此，swapon命令通常仅用于需要有外加的交换空间时。

你可以用free命令监视交换空间的使用情况。它将给出已使用了多少的交换空间。

total used free shared buffers

Swap: 32452 6684 25768

输出的第一行（Mem:）显示出物理内存的使用情况。总和(total)列中并没有显示出被内核使用的内存，它通常将近一兆字节。已用列(used column)显示出已用内存的总和（第二行没有把缓冲算进来）。空闲列（free column）显示了所有未被使用的空闲内存。共享列（shared column）显示出了被几个进程共享的内存的大小；共享的内存越多，情况就越好。缓存列（buffer column）显示出了当前磁盘缓存的大小。已缓冲列（cached column）显示出了已使用的缓存的大小。

最后一行（Swap:）显示出了与交换空间相应的信息。如果这一行的数值都是零，表示你的交换空间没有被击活。

也可通过用top命令来获得同样的信息，或者使用proc文件系统中的文件/proc/meminfo 。通常要取得指定交换空间的使用情况是困难的。

可以使用命令swapoff来移去一个交换空间。通常没有必要这样做，但临时交换空间除外。一般，在交换空间中的页面首先被换入内存；如果此时没有足够的物理内存来容纳它们又将被交换出来（到其他的交换空间中）。如果没有足够的虚拟内存来容纳所有这些页面，Linux就会波动而不正常；但经过一段较长的时间Linux会恢复，但此时系统已不可用了。在移去一个交换空间之前，你应该检查（例如，用free）是否有足够的空闲内存。

任何由swapon –a而自动被使用的所有交换空间都能够用swapoff –a命令移去；该命令参考/etc/fstab文件来确定移去什么。任何手工设置使用的交换空间将始终可以被使用。

有时，尽管有许多的空闲内存，仍然会有许多的交换空间正被使用。这是有可能发生的，例如如果在某一时刻有进行交换的必要，但后来一个占用很多物理内存的大进程结束并释放内存时。被交换出的数据并不会自动地交换进内存，除非有这个需要时。此时物理内存会在一段时间内保持空闲状态。对此并没有什么可担心的，但是知道了是怎么一回事我们也就放心了。

许多 *** 作系统使用了虚拟内存的方法。因为它们仅在运行时才需要交换空间，以即决不会在同一时间使用交换空间，因此，除了当前正在运行的 *** 作系统的交换空间，其它的就是一种浪费。所以让它们共享一个交换空间将会更有效率。这是可能的，但需要有一定的了解。在HOWTO技巧文档中含有如何实现这种做法的一些建议。

有些人会对你说需要用物理内存的两倍容量来分配交换空间，但这是不对的。下面是合适的做法：

。估计你的总内存需求。这是某一时刻你所需要的最大的内存容量，也就是在同一时刻你想运行的所有程序所需内存的总和。通过同时运行所有的程序你可以做到这一点。

例如，如果你要运行X，你将给它分配大约8MB内存，gcc需要几兆字节（有些文件要求异呼寻常的大量的内存量，多至几十兆字节，但通常约4兆字节应该够了），等等。内核本身要用大约1兆字节、普通的shell以及其它一些工具可能需要几百千字节（就说总和要1兆字节吧）。并不需要进行精确的计算，粗率的估计也就足够了，但你必须考虑到最坏的情况。

注意，如果会有几个人同时使用这个系统，他们都将消耗内存。然而，如果两个人同时运行一个程序，内存消耗的总量并不是翻倍，因为代码页以及共享的库只存在一份。

Free以及ps命令对估计所需的内存容量是很有帮助的。

对第一步中的估计放宽一些。这是因为对程序在内存中占用多少的估计通常是不准的，因为你很可能忘掉几个你要运行的程序，以及，确信你还要有一些多余的空间用于以防万一。这需几兆字节就够了。（多分配总比少分配交换空间要好，但并不需要过分这样以至于使用整个硬盘，因为不用的交换空间是浪费的空间；参见后面的有关增加交换空间。）同样，因为处理数值更好做，你可以将容量值加大到整数兆字节。

基于上面的计算，你就知道了你将需要总和为多少的内存。所以，为了分配交换空间，你仅需从所需总内存量中减去实际物理内存的容量，你就知道了你需要多少的交换空间。（在某些UNIX版本中，你还需要为物理内存的映像分配空间，所以第二步中算出的总量正是你所需要的交换空间的容量，而无需再做上述中的减法运算了。）

如果你计算出的交换空间容量远远大于你的物理内存（大于两倍以上），你通常需要再买些内存来，否则的话，系统的性能将非常低。

有几个交换空间是个好主意，即使计算指出你一个都不需要。Linux系统常常动不动就使用交换空间，以保持尽可能多的空闲物理内存。即使并没有什么事情需要内存，Linux也会交换出暂时不用的内存页面。这可以避免等待交换所需的时间：当磁盘闲着，就可以提前做好交换。

可以将交换空间分散在几个硬盘之上。针对相关磁盘的速度以及对磁盘的访问模式，这样做可以提高性能。你可能想实验几个方案，但是你要认识到这些实验常常是非常困难的。不要相信其中一个方案比另一个好的说法，因为并不总是这样的。　

高速缓冲

与访问（真正的）的内存相比，磁盘[3]的读写是很慢的。另外，在相应较短的时间内多次读磁盘同样的部分也是常有的事。例如，某人也许首先阅读了一段e-mail消息，然后为了答复又将这段消息读入编辑器中，然后又在将这个消息拷贝到文件夹中时，使得邮件程序又一次读入它。或者考虑一下在一个有着许多用户的系统中ls命令会被使用多少次。通过将信息从磁盘上仅读入一次并将其存于内存中，除了第一次读以外，可以加快所有其它读的速度。这叫作磁盘缓冲（disk buffering），被用作此目的的内存称为高速缓冲（buffer cache）。

不幸的是，由于内存是一种有限而又不充足的资源，高速缓冲不可能做的很大（它不可能包容要用到的所有数据）。当缓冲充满了数据时，其中最长时间不用的数据将被舍弃以腾出内存空间用于新的数据。

对写磁盘 *** 作来说磁盘缓冲技术同样有效。一方面，被写入磁盘的数据常常会很快地又被读出（例如，原代码文件被保存到一个文件中，又被编译器读入），所以将要被写的数据放入缓冲中是个好主意。另一方面，通过将数据放入缓冲中，而不是将其立刻写入磁盘，程序可以加快运行的速度。以后，写的 *** 作可以在后台完成，而不会拖延程序的执行。

大多数 *** 作系统都有高速缓冲（尽管可能称呼不同），但是并不是都遵守上面的原理。有些是直接写（write-through）：数据将被立刻写入磁盘（当然，数据也被放入缓存中）。如果写 *** 作是在以后做的，那么该缓存被称为后台写（write-back）。后台写比直接写更有效，但也容易出错：如果机器崩溃，或者突然掉电，或者是软盘在缓冲中等待写的数据被写入软盘之前被从驱动器中取走，缓冲中改变过的数据就被丢失了。如果仍未被写入的数据含有重要的薄记信息，这甚至可能意味着文件系统（如果有的话）已不完整。

由于上述原因，在使用适当的关闭过程之前，绝对不要关掉电源（见第六章），不要在卸载（如果已被加载）之前将软盘从驱动器中取出来，也不要在任何正在使用软盘的程序指示出完成了软盘 *** 作并且软盘灯熄灭之前将软盘取出来。sync命令倾空（flushes）缓冲，也即，强迫所有未被写的数据写入磁盘，可用以确定所有的写 *** 作都已完成。在传统的UNIX系统中，有一个叫做update的程序运行于后台，每隔30秒做一次sync *** 作，因此通常无需手工使用sync命令了。Linux另外有一个后台程序，bdflush，这个程序执行更频繁的但不是全面的同步 *** 作，以避免有时sync的大量磁盘I/O *** 作所带来的磁盘的突然冻结。

在Linux中，bdflush是由update启动的。通常没有理由来担心此事，但如果由于某些原因bdflush进程死掉了，内核会对此作出警告，此时你就要手工地启动它了（/sbin/update）。

缓存（cache）实际并不是缓冲文件的，而是缓冲块的，块是磁盘I/O *** 作的最小单元（在Linux中，它们通常是1KB）。这样，目录、超级块、其它文件系统的薄记数据以及非文件系统的磁盘数据都可以被缓冲了。

缓冲的效力主要是由它的大小决定的。缓冲大小太小的话等于没用：它只能容纳一点数据，因此在被重用时，所有缓冲的数据都将被倾空。实际的大小依赖于数据读写的频次、相同数据被访问的频率。只有用实验的方法才能知道。

如果缓存有固定的大小，那么缓存太大了也不好，因为这会使得空闲的内存太小而导致进行交换 *** 作（这同样是慢的）。为了最有效地使用实际内存，Linux自动地使用所有空闲的内存作为高速缓冲，当程序需要更多的内存时，它也会自动地减小缓冲的大小。

在Linux中，你不需要为使用缓冲做任何事情，它是完全自动处理的。除了上面所提到的有关按照适当的步骤来关机和取出软盘，你不用担心它。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/7669573.html

如何在linux内核中读写文件

发表评论

评论列表（0条）