linux中文件句柄未释放，会导致什么问题？_系统运维

linux删除文件后没有释放空间\x0d\x0a \x0d\x0a今天发现一台服务器的home空间满了，于是要清空没用的文件，当我删除文件后，发现可用空间没有变化\x0d\x0a \x0d\x0aos：centos4.7\x0d\x0a\x0d\x0a现象：\x0d\x0a \x0d\x0a发现当前磁盘空间使用情况：\x0d\x0a \x0d\x0a[root@ticketb ~]# df -h\x0d\x0aFilesystemSize Used Avail Use% Mounted on\x0d\x0a/dev/sda1 981M 203M 729M 22% /\x0d\x0anone 16G 0 16G 0% /dev/shm\x0d\x0a/dev/sda9 2.9G 37M 2.7G 2% /tmp\x0d\x0a/dev/sda7 4.9G 1.9G 2.7G 42% /usr\x0d\x0a/dev/sda8 2.9G 145M 2.6G 6% /var\x0d\x0a/dev/mapper/vghome-lvhome\x0d\x0a 20G 19G 11M 100% /home\x0d\x0a/dev/mapper/vgoradata-lvoradata\x0d\x0a 144G 48G 90G 35% /u01/oradata\x0d\x0a/dev/mapper/vgbackup-lvbackup\x0d\x0a 193G 7.8G 175G 5% /u01/backup\x0d\x0a\x0d\x0a通过以下的命令找到没用的文件，然后删除\x0d\x0a\x0d\x0a[root@ticketb ~]# find /home/oracle/admin/dbticb/udump/ -name "dbticb_*.trc" -mtime +50 | xargs rm -rf\x0d\x0a \x0d\x0a然后在查看磁盘空间使用情况，发现没有/home空间没有变化\x0d\x0a \x0d\x0a[root@ticketb ~]# df -h\x0d\x0aFilesystemSize Used Avail Use% Mounted on\x0d\x0a/dev/sda1 981M 203M 729M 22% /\x0d\x0anone 16G 0 16G 0% /dev/shm\x0d\x0a/dev/sda9 2.9G 37M 2.7G 2% /tmp\x0d\x0a/dev/sda7 4.9G 1.9G 2.7G 42% /usr\x0d\x0a/dev/sda8 2.9G 145M 2.6G 6% /var\x0d\x0a/dev/mapper/vghome-lvhome\x0d\x0a 20G 19G 11M 100% /home\x0d\x0a/dev/mapper/vgoradata-lvoradata\x0d\x0a 144G 48G 90G 35% /u01/oradata\x0d\x0a/dev/mapper/vgbackup-lvbackup\x0d\x0a 193G 7.8G 175G 5% /u01/backup\x0d\x0a \x0d\x0a这个郁闷啊，明明删除文件了，怎么空间没有被释放啊，rm命令应该是直接删除啊，在查看下/home下还有什么占用空间\x0d\x0a \x0d\x0a[root@ticketb ~]# du -h --max-depth=1 /home\x0d\x0a16K /home/lost+found\x0d\x0a2.6G/home/oracle\x0d\x0a2.6G/home\x0d\x0a \x0d\x0a可这里显示空间已经释放了啊，于是google下，\x0d\x0a \x0d\x0a未释放磁盘空间原因：\x0d\x0a \x0d\x0a在Linux或者Unix系统中，通过rm或者文件管理器删除文件将会从文件系统的文件夹结构上解除链接(unlink).然而假设文件是被\x0d\x0a打开的（有一个进程正在使用），那么进程将仍然能够读取该文件，磁盘空间也一直被占用。而我删除的是oracle的告警log文件\x0d\x0a删除的时候文件应该正在被使用\x0d\x0a \x0d\x0a解决方法\x0d\x0a \x0d\x0a首先获得一个已经被删除可是仍然被应用程序占用的文件列表，例如以下所看到的：\x0d\x0a\x0d\x0a[root@ticketb ~]# lsof |grep deleted\x0d\x0aoracle12639 oracle5w REG 253,0 648 215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc (deleted)\x0d\x0aoracle12639 oracle6w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)\x0d\x0aoracle12639 oracle7u REG 253,0 0 36282 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted)\x0d\x0aoracle12639 oracle8w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)\x0d\x0aoracle12641 oracle5w REG 253,0 648 215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc (deleted)\x0d\x0aoracle12641 oracle6w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)\x0d\x0a。\x0d\x0a。\x0d\x0a。\x0d\x0aoracle23492 oracle6w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)\x0d\x0aoracle23492 oracle7u REG 253,0 0 36282 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted)\x0d\x0aoracle23492 oracle8w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)\x0d\x0aoracle23494 oracle 10u REG 253,0 0 36307 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstrmandb (deleted)\x0d\x0a\x0d\x0a从输出结果能够看到/home/oracle/admin/dbticb/bdump/alert_dbticb.log还被使用，未被释放空间\x0d\x0a \x0d\x0a怎样让进程释放呢？\x0d\x0a \x0d\x0a一种方法是kill掉相应的进程，或者停掉使用这个文件的应用，让os自己主动回收磁盘空间\x0d\x0a我这个环境有非常多进程在使用的这个文件，停掉进程有点麻烦，再有就是风险非常大\x0d\x0a \x0d\x0a当linux打开一个文件的时候,Linux内核会为每个进程在/proc/ 『/proc/nnnn/fd/文件夹（nnnn为pid）』建立一个以其pid\x0d\x0a为名的文件夹用来保存进程的相关信息，而其子文件夹fd保存的是该进程打开的全部文件的fd（fd：file descriptor）。\x0d\x0akill进程是通过截断proc文件系统中的文件能够强制要求系统回收分配给正在使用的的文件。\x0d\x0a这是一项高级技术，仅到管理员确定不会对执行中的进程造成影响时使用。应用程序对这样的方\x0d\x0a式支持的并不好，当一个正在使用的文件被截断可能会引发不可预知的问题\x0d\x0a \x0d\x0a所以我还是采用停应用来解决\x0d\x0a \x0d\x0arestart oracle数据库，发现/home/oracle/admin/dbticb/bdump/alert_dbticb.log相应的空间被释放\x0d\x0a \x0d\x0a在查看磁盘空间的使用情况，发现空间已经回收了\x0d\x0a\x0d\x0a[root@ticketb ~]# df -h\x0d\x0aFilesystemSize Used Avail Use% Mounted on\x0d\x0a/dev/sda1 981M 203M 729M 22% /\x0d\x0anone 16G 0 16G 0% /dev/shm\x0d\x0a/dev/sda9 2.9G 37M 2.7G 2% /tmp\x0d\x0a/dev/sda7 4.9G 1.9G 2.7G 42% /usr\x0d\x0a/dev/sda8 2.9G 145M 2.6G 6% /var\x0d\x0a/dev/mapper/vghome-lvhome\x0d\x0a 20G 2.6G 16G 15% /home\x0d\x0a/dev/mapper/vgoradata-lvoradata\x0d\x0a 144G 48G 90G 35% /u01/oradata\x0d\x0a/dev/mapper/vgbackup-lvbackup\x0d\x0a 193G 7.8G 175G 5% /u01/backup\x0d\x0a\x0d\x0aok，问题解决，然后做下收尾工作就可以\x0d\x0a \x0d\x0a-------------------------------------------------------------------------------------------------\x0d\x0a \x0d\x0a学习下lsof命令\x0d\x0a \x0d\x0alsof全名list opened files，也就是列举系统中已经被打开的文件。我们都知道，linux环境中，不论什么事物都是文件，\x0d\x0a设备是文件，文件夹是文件，甚至sockets也是文件。所以，用好lsof命令，对日常的linux管理非常有帮助。\x0d\x0a \x0d\x0alsof是linux最常常使用的命令之中的一个，通常的输出格式为：\x0d\x0a \x0d\x0a引用\x0d\x0aCOMMAND PID USER FD TYPE DEVICE SIZE NODE NAME

ulimit：

1，查看进程允许打开的最大文件句柄数

ulimit -n

2，设置进程能打开的最大文件句柄数

ulimit -n xxx

-H 指定资源的硬限制

-S 指定资源的软限制

hard 代表当前硬限制

soft 代表当前软件限制

unlimited 代表不限制.

3, 文件限制配置文件

/etc/security/limits.conf

4，文件句柄最大数据配置

配置文件：/proc/sys/fs/file-max

这个参数的默认值和内存大小有关系，可以使用公式：file-max 内存大小/ 10k.

4.1 建议将整个系统的文件句柄值至少设置为 65536

4.2 echo "65536" >/proc/sys/fs/file-max

4.3 sysctl -w fs.file-max=65536

4.4 echo "fs.file-max=65536" >>/etc/sysctl.conf

5，文件句柄使用情况配置文件：/proc/sys/fs/file-nr

这三个值分别指：系统已经分配出去的句柄数、已经分配但是还没有使用的句柄数以及系统最大的句柄数(和file-max一样)。

6，查看进程打开的文件句柄数

lsof：列出当前系统打开文件的工具。

磁盘结构与数据存储方式, 数据是如何存储的，又通过怎样的方式被访问？

机械硬盘主要由磁盘盘片、磁头、主轴与传动轴等组成；数据就存放在磁盘盘片中

现代硬盘寻道都是采用CHS( Cylinder Head Sector )的方式，硬盘读取数据时，读写磁头沿径向移动，移到要读取的扇区所在磁道的上方，这段时间称为 寻道时间(seek time) 。 因读写磁头的起始位置与目标位置之间的距离不同，寻道时间也不同 。磁头到达指定磁道后，然后通过盘片的旋转，使得要读取的扇区转到读写磁头的下方，这段时间称为 旋转延迟时间(rotational latencytime) 。然后再读写数据，读写数据也需要时间，这段时间称为 传输时间(transfer time) 。

固态硬盘主要由主控芯片、闪存颗粒与缓存组成；数据就存放在闪存芯片中

通过主控芯片进行寻址，因为是电信号方式，没有任何物理结构，所以寻址速度非常快且与数据存储位置无关

如何查看系统IO状态

查看磁盘空间

调用 open , fwrite 时到底发生了什么?

在一个IO过程中，以下5个API/系统调用是必不可少的

Create 函数用来打开一个文件，如果该文件不存在，那么需要在磁盘上创建该文件

Open 函数用于打开一个指定的文件。如果在 Open 函数中指定 O_CREATE 标记，那么 Open 函数同样可以实现 Create 函数的功能

Clos e函数用于释放文件句柄

Write 和 Read 函数用于实现文件的读写过程

O_SYNC (先写缓存, 但是需要实际落盘之后才返回, 如果接下来有读请求, 可以从内存读 ), write-through

O_DSYNC (D=data, 类似O_SYNC, 但是只同步数据, 不同步元数据)

O_DIRECT (直接写盘, 不经过缓存)

O_ASYNC (异步IO, 使用信号机制实现, 不推荐, 直接用aio_xxx)

O_NOATIME (读取的时候不更新文件 atime(access time))

sync() 全局缓存写回磁盘

fsync() 特定fd的sync()

fdatasync() 只刷数据, 不同步元数据

mount noatime(全局不记录atime), re方式(只读), sync(同步方式)

一个IO的传奇一生这里有一篇非常好的资料，讲述了整个IO过程；

下面简单记录下自己的理解的一次常见的Linux IO过程，想了解更详细及相关源码，非常推荐阅读上面的原文

Linux IO体系结构

[站外图片上传中...(image-38a7b-1644137945193)]

Superblock 超级描述了整个文件系统的信息。为了保证可靠性，可以在每个块组中对superblock进行备份。为了避免superblock冗余过多，可以采用稀疏存储的方式，即在若干个块组中对superblock进行保存，而不需要在所有的块组中都进行备份

GDT 组描述符表 组描述符表对整个组内的数据布局进行了描述。例如，数据块位图的起始地址是多少？inode位图的起始地址是多少？inode表的起始地址是多少？块组中还有多少空闲块资源等。组描述符表在superblock的后面

数据块位图 数据块位图描述了块组内数据块的使用情况。如果该数据块已经被某个文件使用，那么位图中的对应位会被置1，否则该位为0

Inode位图 Inode位图描述了块组内inode资源使用情况。如果一个inode资源已经使用，那么对应位会被置1

Inode表 （即inode资源）和数据块。这两块占据了块组内的绝大部分空间，特别是数据块资源

一个文件是由inode进行描述的。一个文件占用的数据块block是通过inode管理起来的 。在inode结构中保存了直接块指针、一级间接块指针、二级间接块指针和三级间接块指针。对于一个小文件，直接可以采用直接块指针实现对文件块的访问；对于一个大文件，需要采用间接块指针实现对文件块的访问

最简单的调度器。它本质上就是一个链表实现的 fifo 队列，并对请求进行简单的合并处理。

调度器本身并没有提供任何可以配置的参数

读写请求被分成了两个队列，一个用访问地址作为索引，一个用进入时间作为索引，并且采用两种方式将这些request管理起来；

在请求处理的过程中，deadline算法会优先处理那些访问地址临近的请求，这样可以最大程度的减少磁盘抖动的可能性。

只有在有些request即将被饿死的时候，或者没有办法进行磁盘顺序化 *** 作的时候，deadline才会放弃地址优先策略，转而处理那些即将被饿死的request

deadline算法可调整参数

read_expire : 读请求的超时时间设置(ms)。当一个读请求入队deadline的时候，其过期时间将被设置为当前时间＋read_expire，并放倒fifo_list中进行排序

write_expire :写请求的超时时间设置(ms)

fifo_batch :在顺序（sort_list）请求进行处理的时候，deadline将以batch为单位进行处理。每一个batch处理的请求个数为这个参数所限制的个数。在一个batch处理的过程中，不会产生是否超时的检查，也就不会产生额外的磁盘寻道时间。这个参数可以用来平衡顺序处理和饥饿时间的矛盾，当饥饿时间需要尽可能的符合预期的时候，我们可以调小这个值，以便尽可能多的检查是否有饥饿产生并及时处理。增大这个值当然也会增大吞吐量，但是会导致处理饥饿请求的延时变长

writes_starved :这个值是在上述deadline出队处理第一步时做检查用的。用来判断当读队列不为空时，写队列的饥饿程度是否足够高，以时deadline放弃读请求的处理而处理写请求。当检查存在有写请求的时候，deadline并不会立即对写请求进行处理，而是给相关数据结构中的starved进行累计，如果这是第一次检查到有写请求进行处理，那么这个计数就为1。如果此时writes_starved值为2，则我们认为此时饥饿程度还不足够高，所以继续处理读请求。只有当starved >= writes_starved的时候，deadline才回去处理写请求。可以认为这个值是用来平衡deadline对读写请求处理优先级状态的，这个值越大，则写请求越被滞后处理，越小，写请求就越可以获得趋近于读请求的优先级

front_merges :当一个新请求进入队列的时候，如果其请求的扇区距离当前扇区很近，那么它就是可以被合并处理的。而这个合并可能有两种情况，一个是向当前位置后合并，另一种是向前合并。在某些场景下，向前合并是不必要的，那么我们就可以通过这个参数关闭向前合并。默认deadline支持向前合并，设置为0关闭

在调度一个request时，首先需要选择一个一个合适的cfq_group。Cfq调度器会为每个cfq_group分配一个时间片，当这个时间片耗尽之后，会选择下一个cfq_group。每个cfq_group都会分配一个vdisktime，并且通过该值采用红黑树对cfq_group进行排序。在调度的过程中，每次都会选择一个vdisktime最小的cfq_group进行处理。

一个cfq_group管理了7棵service tree，每棵service tree管理了需要调度处理的对象cfq_queue。因此，一旦cfq_group被选定之后，需要选择一棵service tree进行处理。这7棵service tree被分成了三大类，分别为RT、BE和IDLE。这三大类service tree的调度是按照优先级展开的

通过优先级可以很容易的选定一类Service tree。当一类service tree被选定之后，采用service time的方式选定一个合适的cfq_queue。每个Service tree是一棵红黑树，这些红黑树是按照service time进行检索的，每个cfq_queue都会维护自己的service time。分析到这里，我们知道，cfq算法通过每个cfq_group的vdisktime值来选定一个cfq_group进行服务，在处理cfq_group的过程通过优先级选择一个最需要服务的service tree。通过该Service tree得到最需要服务的cfq_queue。该过程在 cfq_select_queue 函数中实现

一个cfq_queue被选定之后，后面的过程和deadline算法有点类似。在选择request的时候需要考虑每个request的延迟等待时间，选择那种等待时间最长的request进行处理。但是，考虑到磁盘抖动的问题，cfq在处理的时候也会进行顺序批量处理，即将那些在磁盘上连续的request批量处理掉

cfq调度算法的参数

back_seek_max :磁头可以向后寻址的最大范围，默认值为16M

back_seek_penalty :向后寻址的惩罚系数。这个值是跟向前寻址进行比较的

fifo_expire_async :设置异步请求的超时时间。同步请求和异步请求是区分不同队列处理的，cfq在调度的时候一般情况都会优先处理同步请求，之后再处理异步请求，除非异步请求符合上述合并处理的条件限制范围内。当本进程的队列被调度时，cfq会优先检查是否有异步请求超时，就是超过fifo_expire_async参数的限制。如果有，则优先发送一个超时的请求，其余请求仍然按照优先级以及扇区编号大小来处理

fifo_expire_sync :这个参数跟上面的类似，区别是用来设置同步请求的超时时间

slice_idle :参数设置了一个等待时间。这让cfq在切换cfq_queue或service tree的时候等待一段时间，目的是提高机械硬盘的吞吐量。一般情况下，来自同一个cfq_queue或者service tree的IO请求的寻址局部性更好，所以这样可以减少磁盘的寻址次数。这个值在机械硬盘上默认为非零。当然在固态硬盘或者硬RAID设备上设置这个值为非零会降低存储的效率，因为固态硬盘没有磁头寻址这个概念，所以在这样的设备上应该设置为0，关闭此功能

group_idle :这个参数也跟上一个参数类似，区别是当cfq要切换cfq_group的时候会等待一段时间。在cgroup的场景下，如果我们沿用slice_idle的方式，那么空转等待可能会在cgroup组内每个进程的cfq_queue切换时发生。这样会如果这个进程一直有请求要处理的话，那么直到这个cgroup的配额被耗尽，同组中的其它进程也可能无法被调度到。这样会导致同组中的其它进程饿死而产生IO性能瓶颈。在这种情况下，我们可以将slice_idle ＝ 0而group_idle ＝ 8。这样空转等待就是以cgroup为单位进行的，而不是以cfq_queue的进程为单位进行，以防止上述问题产生

low_latency :这个是用来开启或关闭cfq的低延时（low latency）模式的开关。当这个开关打开时，cfq将会根据target_latency的参数设置来对每一个进程的分片时间（slice time）进行重新计算。这将有利于对吞吐量的公平（默认是对时间片分配的公平）。关闭这个参数（设置为0）将忽略target_latency的值。这将使系统中的进程完全按照时间片方式进行IO资源分配。这个开关默认是打开的

target_latency :当low_latency的值为开启状态时，cfq将根据这个值重新计算每个进程分配的IO时间片长度

quantum :这个参数用来设置每次从cfq_queue中处理多少个IO请求。在一个队列处理事件周期中，超过这个数字的IO请求将不会被处理。这个参数只对同步的请求有效

slice_sync :当一个cfq_queue队列被调度处理时，它可以被分配的处理总时间是通过这个值来作为一个计算参数指定的。公式为： time_slice = slice_sync + (slice_sync/5 * (4 - prio)) 这个参数对同步请求有效

slice_async :这个值跟上一个类似，区别是对异步请求有效

slice_async_rq :这个参数用来限制在一个slice的时间范围内，一个队列最多可以处理的异步请求个数。请求被处理的最大个数还跟相关进程被设置的io优先级有关

通常在Linux上使用的IO接口是同步方式的，进程调用 write / read 之后会阻塞陷入到内核态，直到本次IO过程完成之后，才能继续执行，下面介绍的异步IO则没有这种限制，但是当前Linux异步IO尚未成熟

目前Linux aio还处于较不成熟的阶段，只能在 O_DIRECT 方式下才能使用(glibc_aio)，也就是无法使用默认的Page Cache机制

正常情况下，使用aio族接口的简要方式如下：

io_uring 是 2019 年 5 月发布的 Linux 5.1 加入的一个重大特性 —— Linux 下的全新的异步 I/O 支持，希望能彻底解决长期以来 Linux AIO 的各种不足

io_uring 实现异步 I/O 的方式其实是一个生产者-消费者模型:

逻辑卷管理

RAID0

RAID1

RAID5（纠错）

条带化

Linux系统性能调整：IO过程

Linux的IO调度

一个IO的传奇一生

理解inode

Linux 文件系统是怎么工作的？

Linux中Buffer cache性能问题一探究竟

Asynchronous I/O and event notification on linux

AIO 的新归宿：io_uring

Linux 文件 I/O 进化史（四）：io_uring —— 全新的异步 I/O

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/7354192.html

linux中文件句柄未释放，会导致什么问题？

发表评论

评论列表（0条）