linux如何查看系统占用磁盘空间最大的文件及让文件按大小排序

linux如何查看系统占用磁盘空间最大的文件及让文件按大小排序,第1张

df -hl 查看磁盘剩余空间du -sm 文件夹返回该文件夹总M数更多功能请查看:df --helpdu --helpdu -sh (这个目录的名字)是查这个目录的大小使用du命令可以查看目录,例如查看/home/kuuyee目录占用磁盘空间大小可以使用下面的命令:# du /home/kuuyee -sh我的home目录下有上百个构建项目,一个一个的差看目录占用情况太麻烦了用命令:#du /home --max-depth=1 -h这样的话就吧所有的子目录的磁盘占用情况都列出来了!这里的--max-depth参数代表着要列出目录的深度,如果要列出两级目录就设置为2,以此类推。如果想吧结果输出到文件里可以这样:# du /home --max-depth=1 -h > disk_statustxt用df -h 查每个根下面的目录的分区大小 就可以知道了用法:du [选项]… [文件]…或:du [选项]… –files0-from=F总结每个<文件>的磁盘用量,目录则取总用量。df命令是linux系统以磁盘分区为单位查看文件系统,可以加上参数查看磁盘剩余空间信息,命令格式:df -hl显示格式为: 文件系统 容量 已用 可用 已用% 挂载点 FilesystemSize Used Avail Use% Mounted on/dev/hda2 45G 19G 24G 44% //dev/hda1 494M 19M 450M 4% /boot/dev/hda6 49G 22G 25G 47% /home/dev/hda5 97G 29G 64G 31% /optnone 1009M 0 1009M 0% /dev/shm/dev/hda3 97G 72G 21G 78% /usr/local/dev/hdb2 75G 75G 0 100% //dev/hdb2 75G 75G 0 100% /以上面的输出为例,表示的意思为:HD硬盘接口的第二个硬盘(b),第二个分区(2),容量是75G,用了75G,可用是0,因此利用率是100%, 被挂载到根分区目录上(/)。例子1)查看文件大小 查看当前文件夹下所有文件大小(包括子文件夹) du -sh # du -h15M /package16K /fontconfig40K /cache51M /rpmdb20M 查看指定文件夹下所有文件大小(包括子文件夹)# du -h ftp38G ftp/sanya/doc38G ftp/sanya40K ftp/testftp/doc14M ftp/testftp875M ftp/platform/doc/002-录像27M ftp/platform/doc/001-PDF52M ftp/platform/doc/BBFlash12G ftp/platform/doc/003-录音21G ftp/platform/doc21G ftp/platform40K ftp/pmo/doc20K ftp/pmo36M ftp/uf/doc/innovate-20120736M ftp/uf/doc36M ftp/uf446M ftp/code/doc446M ftp/code63G ftp 查看指定文件大小# du -h /package/compat-libstdc++-33-323-69el6x86_64rpm 184K /package/compat-libstdc++-33-323-69el6x86_64rpm 查看指定文件夹大小# du -hs ftp63G ftp统计总数大小du -sh xmldb/du -sm sort -n //统计当前目录大小 并安大小 排序du -sk sort -ndu -sk grep guojf //看一个人的大小du -m cut -d "/" -f 2 //看第二个/ 字符前的文字查看此文件夹有多少文件 /// 有多少文件du xmldb/du xmldb/// wc -l40752解释:wc [-lmw]参数说明:-l :多少行-m:多少字符-w:多少字参数含义如下:-s 对每个Names参数只给出占用的数据块总数。-a 递归地显示指定目录中各文件及子孙目录中各文件占用的数据块数。若既不指定-s,也不指定-a,则只显示Names中的每一个目录及其中的各子目录所占的磁盘块数。-b 以字节为单位列出磁盘空间使用情况(系统缺省以 k 字节为单位)。-k 以1024字节为单位列出磁盘空间使用情况。-c 最后再加上一个总计(系统缺省设置)。-l 计算所有的文件大小。

通过使用内存管理Linux特定命令行工具,可以查看Linux内存使用情况,包括物理内存大小和空闲内存空间。

使用free命令可以确定Linux系统上空闲的物理内存大小,如下:

[root@rhel5 ~]# free

total used free shared buffers cached

Mem: 16383748 16420192 63556 0 2148 985144

-/+ buffers/cache: 15363044 1017044

Swap: 15997748 177 15997571

在上述结果中,free指令输出Linux内存状态,其中可以看到free表示当前可用的物理内存大小。

Linux中传统的I/O *** 作是一种缓存I/O,I/O过程中产生的数据传输通常需要在缓冲区中进行多次拷贝。当应用程序需要访问某个数据(read() *** 作)时, *** 作系统会先判断这块数据是否在内核缓冲区中,如果在内核缓冲区中找不到这块数据,内核会先将这块数据从磁盘中读出来放到内核缓冲区中,应用程序再从缓冲区中读取。当应用程序需要将数据输出(write())时,同样需要先将数据拷贝到输出堆栈相关的内核缓冲区,再从内核缓冲区拷贝到输出设备中。

以一次网络请求为例,如下图。对于一次数据读取,用户应用程序只需要调用read()及write()两个系统调用就可以完成一次数据传输,但这个过程中数据经过了四次拷贝,且数据拷贝需要由CPU来调控。在某些情况下,这些数据拷贝会极大地降低系统数据传输的性能,比如文件服务器中,一个文件从磁盘读取后不加修改地回传给调用方,那么这占用CPU时间去处理这四次数据拷贝的性价比是极低的。

一次处理网络调用的系统I/O的流程:

以上可以发现,传统的Linux系统I/O *** 作要进行4次内核空间与应用程序空间的上下文切换,以及4次数据拷贝。

直接内存访问(Direct Memory Access,DMA)是计算机科学中的一种内存访问技术,允许某些电脑内部的硬件子系统独立地读取系统内存,而不需要中央处理器(CPU)的介入。在同等程度的处理器负担下,DMA是一种快速的数据传送方式。这类子系统包括硬盘控制器、显卡、网卡和声卡。

在Linux系统中,当应用程序需要读取文件中的数据时, *** 作系统先分配一些内存,将数据从存储设备读入到这些内存中,然后再将数据传递应用进程;当需要往文件中写数据时, *** 作系统先分配内存接收用户数据,然后再将数据从内存写入磁盘。文件cache管理就是对这些由 *** 作系统分配并用开存储文件数据的内存的管理。

在Linux系统中,文件cache分为两个层面,page cache 与 Buffer cache,每个page cache包含若干个buffer cache。 *** 作系统中,磁盘文件都是由一系列的数据块(Block)组成,buffer cache也叫块缓存,是对磁盘一个数据块的缓存,目的是为了在程序多次访问同一个磁盘块时减少访问时间;而文件系统对数据的组织形式为页,page cache为页缓存,是由多个块缓存构成,其对应的缓存数据块在磁盘上不一定是连续的。也就是说buffer cache缓存文件的具体内容--物理磁盘上的磁盘块,加速对磁盘的访问,而page cache缓存文件的逻辑内容,加速对文件内容的访问。

buffer cache的大小一般为1k,page cache在32位系统上一般为4k,在64位系统上一般为8k。磁盘数据块、buffer cache、page cache及文件的关系如下图:

文件cache的目的是加快对数据文件的访问,同时会有一个预读过程。对于每个文件的第一次读请求,系统会读入所请求的页面并读入紧随其后的几个页面;对于第二次读请求,如果所读页面在cache中,则会直接返回,同时又一个异步预读的过程(将读取页面的下几页读入cache中),如果不在cache中,说明读请求不是顺序读,则会从磁盘中读取文件内容并刷新cache。因此在顺序读取情况下,读取数据的性能近乎内存读取。

DMA允许硬件子系统直接将数据从磁盘读取到内核缓冲区,那么在一次数据传输中,磁盘与内核缓冲区,输出设备与内核缓冲区之间的两次数据拷贝就不需要CPU进行调度,CPU只需要进行缓冲区管理、以及创建和处理DMA。而Page Cache/Buffer Cache的预读取机制则加快了数据的访问效率。如下图所示,还是以文件服务器请求为例,此时CPU负责的数据拷贝次数减少了两次,数据传输性能有了较大的提高。

使用DMA的系统I/O *** 作要进行4次内核空间与应用程序空间的上下文切换,2次CPU数据拷贝及2次DMA数据拷贝。

Mmap内存映射与标准I/O *** 作的区别在于当应用程序需要访问数据时,不需要进行内核缓冲区到应用程序缓冲区之间的数据拷贝。Mmap使得应用程序和 *** 作系统共享内核缓冲区,应用程序直接对内核缓冲区进行读写 *** 作,不需要进行数据拷贝。Linux系统中通过调用mmap()替代read() *** 作。

同样以文件服务器获取文件(不加修改)为例,通过mmap *** 作的一次系统I/O过程如下:

通过以上流程可以看到,数据拷贝从原来的4次变为3次,2次DMA拷贝1次内核空间数据拷贝,CPU只需要调控1次内核空间之间的数据拷贝,CPU花费在数据拷贝上的时间进一步减少(4次上下文切换没有改变)。对于大容量文件读写,采用mmap的方式其读写效率和性能都比较高。(数据页较多,需要多次拷贝)

注:mmap()是让应用程序空间与内核空间共享DMA从磁盘中读取的文件缓冲,也就是应用程序能直接读写这部分PageCache,至于上图中从页缓存到socket缓冲区的数据拷贝只是文件服务器的处理,根据应用程序的不同会有不同的处理,应用程序也可以读取数据后进行修改。重点是虚拟内存映射,内核缓存共享。

djk中nio包下的MappedByteBuffer,官方注释为 A direct byte buffer whose content is a memory-mapped region of a file,即直接字节缓冲区,其内容是文件的内存映射区域。 FileChannel是是nio *** 作文件的类,其map()方法在在实现类中调用native map0()本地方法,该方法通过mmap()实现,因此是将文件从磁盘读取到内核缓冲区,用户应用程序空间直接 *** 作内核空间共享的缓冲区,Java程序通过MappedByteBuffer的get()方法获取内存数据。

MappedByteBuffer允许Java程序直接从内存访问文件,可以将整个文件或文件的一部分映射到内存中,由 *** 作系统进行相关的请求并将内存中的修改写入到磁盘中。

FileChannel map有三种模式

MappedByteBuffer的应用,以rocketMQ为例(简单介绍)。

producer端发送消息最终会被写入到commitLog文件中,consumer端消费时先从订阅的consumeQueue中读取持久化消息的commitLogOffset、size等内容,随后再根据offset、size从commitLog中读取消息的真正实体内容。其中,commitLog是混合部署的,所有topic下的消息队列共用一个commitLog日志数据文件,consumeQueue类似于索引,同时区分开不同topic下不同MessageQueue的消息。

rocketMQ利用MappedByteBuffer及PageCache加速对持久化文件的读写 *** 作。rocketMQ通过MappedByteBuffer将日志数据文件映射到OS的虚拟内存中(PageCache),写消息时首先写入PageCache,通过刷盘方式(异步或同步)将消息批量持久化到磁盘;consumer消费消息时,读取consumeQueue是顺序读取的,虽然有多个消费者 *** 作不同的consumeQueue,对混合部署的commitLog的访问时随机的,但整体上是从旧到新的有序读,加上PageCache的预读机制,大部分情况下消息还是从PageCache中读取,不会产生太多的缺页中断(要读取的消息不在pageCache中)而从磁盘中读取。

rocketMQ利用mmap()使程序与内核空间共享内核缓冲区,直接对PageCache中的文件进行读写 *** 作,加速对消息的读写请求,这是其高吞吐量的重要手段。

使用mmap能减少CPU数据拷贝的次数,但也存在一些问题。

从Linux21开始,Linux引入sendfile()简化 *** 作。取消read()/write(),mmap()/write()。

调用sendfile的流程如下:

通过sendfile()的I/O进行了2次应用程序空间与内核空间的上下文切换,以及3次数据拷贝,其中2次是DMA拷贝,1次是CPU拷贝。sendfile相比起mmap,数据信息没有进入到应用程序空间,所以能减少2次上下文切换的开销,而数据拷贝次数是一样的。

上述流程也可以看出,sendfile()适合对文件不加修改的I/O *** 作。

sendfile()只是减少应用程序空间与内核空间的上下文切换,并没有减少CPU数据拷贝的次数,还存在一次内核空间的两个缓冲区的数据拷贝。要实现CPU零数据拷贝,需要引入一些硬件上的支持。在上一小节的sendfile流程中,数据需要从内核缓冲区拷贝到内核空间socket缓冲区,数据都是在内核空间,如果socket缓冲区到网卡的这次DMA数据传输 *** 作能直接读取到内核缓冲区中的数据,那么这一次的CPU数据拷贝也就能避免。要达到这个目的,DMA需要知道存有文件位置和长度信息的缓冲区描述符,即socket缓冲区需要从内核缓冲区接收这部分信息,DMA需要支持数据收集功能。

sendfile()调用后,数据从磁盘文件拷贝到内核缓冲区中,然后将文件位置和长度信息的缓冲区描述符传递到socket缓冲区,此时数据并没有被拷贝。之后网卡子系统根据socket缓冲区中的文件信息利用DMA技术收集拷贝数据。整个过程进行了2次内核空间和应用程序空间的上下文切换,及2次DMA数据拷贝,CPU不需要参与数据拷贝工作,从而实现零拷贝。当然DMA收集拷贝功能需要硬件和驱动程序的支持。

在 *** 作系统中,硬件和软件之间的数据传输可以通过DMA来进行,DMA进行数据传输的过程几乎不需要CPU参与,但是在内核缓冲区(页缓存)与应用程序缓冲区之间的数据拷贝并没有类似于DMA之类的工具可以使用,mmap、sendfile都是为了减少数据在内核空间与应用程序空间传输时的数据拷贝和上下文切换次数,有效地改善数据在两者之间传递的效率。

linux *** 作系统的零拷贝技术并不单指某一种方式,现有的零拷贝技术种类非常多,在不同的Linux内核版本上有不同的支持。常见的,如果应用程序需要修改数据,则使用mmap(),如果只进行文件数据传输,则可选择sendfile()。

另外,关于零拷贝技术适用于什么场景?在上述的描述中,数据在传递过程中,除了mmap外,应用程序和 *** 作系统几乎是没有改变数据的,mmap的内存映射也是没有改变数据的,也就是说在静态资源的读取场景下,零拷贝更能发挥作用。正如其名,拷贝是在不改变数据的情况下,零是利用手段去减少CPU参与数据拷贝的次数,以释放CPU去进行其他系统调用与计算。

1、若要查看硬盘剩余空间,首先要登录linux服务

2、打开系统的控制面板,然后输入系统命令“df”,如图所示

3、使用命令“df -lh”,可以更详细地显示磁盘使用情况

4、如果使用命令“df  -a ”,则是全部硬盘的使用与剩余情况,如图所示

要理解下面内容,最好对 *** 作系统存储有一定的了解,包括缺页中断等对于物理内存的使用方式和cpu *** 作硬盘的大概过程等。

linux存在系统buff/cache和CPU cache不同的缓存机制,系统的buff/cache是用于提高硬件IO的 *** 作效率,cpu cache的左右是提高cpu *** 作内存的效率,这摘抄部分关于系统cache的内容,关于cpu内容的后续会补上。

我们在用户层面上对磁盘文件的各种访问,体现在内核里,则最终转化为针对磁盘(块设备)的一系列I/O *** 作。

扇区是块设备的基本单元,也是最小的寻址单元,但是内核却并不是按照扇区来执行磁盘 *** 作,而是于扇区之上又抽象出了一个“块”的概念。内核执行的所有磁盘 *** 作都是按照块来进行的,每个块的大小必须数倍于扇区,而且不能超过一个页面的长度,所以块通常的大小是512Byte、1KB或者4KB。

内核只能基于块来访问物理文件系统,所以与扇区是块设备的最小寻址单元相对应,块也被称为是文件系统的最小寻址单元。一个磁盘块被调入内存时,它需要存储在一个缓冲区中,这个缓冲区就是块在内存中的表示,它在内核中使用structbuffer_head来描述。每个块在内存中都与一个缓冲区相对应,同时都拥有一个buffer_head对象。

内核只能基于块来访问物理文件系统,所以与扇区是块设备的最小寻址单元相对应,块也被称为是文件系统的最小寻址单元。一个磁盘块被调入内存时,它需要存储在一个缓冲区中,这个缓冲区就是块在内存中的表示,它在内核中使用structbuffer_head来描述。每个块在内存中都与一个缓冲区相对应,同时都拥有一个buffer_head对象。

因为内核基于块来访问物理文件系统,而磁盘块与内存中的缓冲区又是一一对应的映射关系,所以为了提高对磁盘的存取效率,内核引入了缓冲区缓存的机制,将通过VFS访问的块的内容缓存在内存中。

在旧版本的内核中,page cache和buffer cache是两个独立的缓存, 前者缓存页,后者缓存块,但是一个磁盘块可以在两个缓存中同时存在,因此除了耗费了额外的内存外,还需要对两个缓存中的内容进行同步 *** 作。 从2410内核开始,buffer cache不再是一个独立的缓存,如图108所示的那样,它被包含在page cache中,通过page cache来实现。 对于4KB大小的page来说,根据不同的块大小,它可以包含1~8个缓冲区。

摘自《linux内核修炼之道》

不清楚你用的哪个,AS/CentOSDEBIANBSD

AS:echo

<n>

>

/proc/sys/vm/drop_caches

n

==

1

:

释放page

cache

2

:

释放dentries和inodes占用的

3

:

释放page

cache和dentries、inodes

dirty的inodes和dentries是没法释放的,所以如果想释放更多的内存,需要先sync一下。

以上就是关于linux如何查看系统占用磁盘空间最大的文件及让文件按大小排序全部的内容,包括:linux如何查看系统占用磁盘空间最大的文件及让文件按大小排序、linux怎么过滤出物理内存大小和空闲内存空间、Linux系统I/O *** 作与零拷贝等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9559947.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-29
下一篇2023-04-29

发表评论

登录后才能评论

评论列表(0条)

    保存