利用Linux命令行进行文本按行去重并按重复次数排序_系统运维

利用linux命令行进行文本按行去重并按重复次数排序linux命令行提供了非常强大的文本处理功能，组合利用linux命令能实现好多强大的功能。本文这里举例说明如何利用linux命令行进行文本按行去重并按重复次数排序。主要用到的命令有sort，uniq和cut。其中，sort主要功能是排序，uniq主要功能是实现相邻文本行的去重，cut可以从文本行中提取相应的文本列(简单地说，就是按列 *** 作文本行)。用于演示的测试文件内容如下：[plain]Hello

World.

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

The

Iphone

Apple

company.

Hello

World.

The

Iphone

Apple

company.

name

Friendfish.

Hello

World.

Apple

and

Nokia.

实现命令及过程如下：[plain]1、文本行去重

(1)排序

由于uniq命令只能对相邻行进行去重复 *** 作，所以在进行去重前，先要对文本行进行排序，使重复行集中到一起。

sort

test.txt

Apple

and

Nokia.

Apple

and

Nokia.

Hello

World.

Hello

World.

Hello

World.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

The

Iphone

Apple

company.

(2)去掉相邻的重复行

sort

test.txt

uniq

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

2、文本行去重并按重复次数排序

(1)首先，对文本行进行去重并统计重复次数(uniq命令加-c选项可以实现对重复次数进行统计。)。

sort

test.txt

uniq

-c

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

(2)对文本行按重复次数进行排序。

sort

-n可以识别每行开头的数字，并按其大小对文本行进行排序。默认是按升序排列，如果想要按降序要加-r选项(sort

-rn)。

sort

test.txt

uniq

-c

sort

-rn

Hello

World.

The

Iphone

Apple

company.

Apple

and

Nokia.

name

Friendfish.

wanna

buy

Apple

device.

(3)每行前面的删除重复次数。

cut命令可以按列 *** 作文本行。可以看出前面的重复次数占8个字符，因此，可以用命令cut

-c

取出每行第9个及其以后的字符。

sort

test.txt

uniq

-c

sort

-rn

cut

-c

Hello

World.

The

Iphone

Apple

company.

Apple

and

Nokia.

name

Friendfish.

wanna

buy

Apple

device.

下面附带说一下cut命令的使用，用法如下：[plain]cut

-b

list

[-n]

[file

...]

cut

-c

list

[file

...]

cut

-f

list

[-d

delim][-s][file

...]

上面的-b、-c、-f分别表示字节、字符、字段（即byte、character、field）；

list表示-b、-c、-f *** 作范围，-n常常表示具体数字；

file表示的自然是要 *** 作的文本文件的名称；

delim（英文全写：delimiter）表示分隔符，默认情况下为TAB；

-s表示不包括那些不含分隔符的行（这样有利于去掉注释和标题）

三种方式中，表示从指定的范围中提取字节（-b）、或字符（-c）、或字段（-f）。

范围的表示方法：

只有第n项

从第n项一直到行尾

n-m

从第n项到第m项(包括m)

-m

从一行的开始到第m项(包括m)

从一行的开始到结束的所有项

在写这篇文章的时候，用到了vim的大小写转化的快捷键：gu变小写，gU变大写。结合ctrl+v能够将一片文字中的字符进行大小写转换，非常好用。

通常如果我们想获取一个文件里不重复的行的时候，我们可以直接通过 sort -u 命令，先把文件排序，然后去掉连续的重复行就行。

可是，如果我们去掉重复行之后，还想保留文件原有的顺序，该怎么办呢？

虽然 Linux 下有个看上去似乎很有用的命令叫uniq，但事实上 uniq 命令仅仅只对连续的重复行有效。

如果不排序，直接使用 uniq 命令是没有用的；使用 sort -u 的话，我们就丢失了文件原有的行的顺序了。

一个终极的解决方案是使用 awk：

简要解释一下：awk 的基本执行流程是，对文件的每一行，做一个指定的逻辑判断，如果逻辑判断成立，则执行指定的命令；如果逻辑判断不成立，则直接跳过这一行。

我们这里写的 awk 命令是!x[$0]++，意思是，首先创建一个 map 叫x，然后用当前行的全文$0作为 map 的 key，到 map 中查找相应的 value，如果没找到，则整个表达式的值为真，可以执行之后的语句；如果找到了，则表达式的值为假，跳过这一行。

由于表达式之后有++，因此如果某个 key 找不到对应的 value，该++ *** 作会先把对应的 value 设成 0，然后再自增成 1，这样下次再遇到重复的行的时候，对应的 key 就能找到一个非 0 的 value 了。

我们前面说过，awk 的流程是先判断表达式，表达式为真的时候就执行语句，可是我们前面写的这个 awk 命令里只有表达式，没有语句，那我们执行什么呢？原来，当语句被省略的时候，awk 就执行默认的语句，即打印整个完整的当前行。就这样，我们通过这个非常简短的 awk 命令实现了去除重复行并保留原有文件顺序的功能。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/8623822.html

利用Linux命令行进行文本按行去重并按重复次数排序

发表评论

评论列表（0条）