Linux常见日志统计分析命令_系统运维

在上文中，我们已经详细介绍 linux 三剑客的基本使用，接下来我们看看具体在性能测试领域的运用，本文主要介绍的是在 Tomcat 和 Nginx access日志的统计分析。

server.xml 使用配置方式，%D-请求时间，%F-响应时间

字段说明如下：

日志样例：

使用默认 combined 的经典格式上扩展response_time&upstream_response_time

nginx.conf 使用配置方式：

字段说明如下：

日志示例：

为了能理解 AWK 程序，我们下面概述其基本知识。

模式( pattern ) 用于匹配输入中的每行文本。对于匹配上的每行文本，awk 都执行对应的动作( action )。模式和动作之间使用花括号隔开。awk 顺序扫描每一行文本，并使用记录分隔符（一般是换行符）将读到的每一行作为记录，使用域分隔符( 一般是空格符或制表符 ) 将一行文本分割为多个域，每个域分别可以使用 2, … 表示。1 表示第一个域，表示第二个域，n 表示第 n 个域。 $0 表示整个记录。模式或动作都可以不指定，缺省模式的情况下，将匹配所有行。缺省动作的情况下，将执行动作 {print}，即打印整个记录。

此处使用Nginx access.log 举例，Tomcat 日志自己举一反三。使用 awk 分解出Nginx access日志中的信息

以此类推…… 当我们使用默认的域分割符时，我们可以从日志中解析出下面不同类型的信息：

我们不难发现，仅使用默认的域分隔符，不方便解析出请求行、引用页和浏览器类型等其他信息，因为这些信息之中包含不确定个数的空格。因此，我们需要把域分隔符修改为 “ ，就能够轻松读出这些信息。

注意：这里为了避免 Linux Shell 误解 “ 为字符串开始，我们使用了反斜杠，转义了 “ 。现在，我们已经掌握了 awk 的基本知识，以及它是怎样解析日志的。

此处使用Nginx access.log 举例，Tomcat 日志自己举一反三。

如果我们想知道那些类型的浏览器访问过网站，并按出现的次数倒序排列，我可以使用下面的命令：

此命令行首先解析出浏览器域，然后使用管道将输出作为第一个 sort 命令的输入。第一个 sort 命令主要是为了方便 uniq 命令统计出不同浏览器出现的次数。最后一个 sort 命令将把之前的统计结果倒序排列并输出。

我们可以使用下面的命令行，统计服务器返回的状态码，发现系统可能存在的问题。

正常情况下，状态码 200 或 30x 应该是出现次数最多的。40x 一般表示客户端访问问题。50x 一般表示服务器端问题。下面是一些常见的状态码：

HTTP 协议状态码定义可以参阅： https://www.w3.org/Protocols/rfc2616/rfc2616.html

查找并显示所有状态码为 404 的请求

统计所有状态码为 404 的请求

现在我们假设某个请求 ( 例如 : URI: /path/to/notfound ) 产生了大量的 404 错误，我们可以通过下面的命令找到这个请求是来自于哪一个引用页，和来自于什么浏览器。

有时候会发现其他网站出于某种原因，在他们的网站上使用保存在自己网站上的图片。如果您想知道究竟是谁未经授权使用自己网站上的图片，我们可以使用下面的命令：

注意：使用前，将 www.example.com 修改为自己网站的域名。

统计共有多少个不同的 IP 访问：

统计每一个 IP 访问了多少个页面：

将每个 IP 访问的页面数进行从小到大排序：

统计 2018 年 8 月 31 日 14 时内有多少 IP 访问 :

统计访问最多的前十个 IP 地址

查看某一个 IP访问了哪些页面：

统计某个 IP 的详细访问情况,按访问频率排序

列出传输大小最大的几个文件

列出输出大于 204800 byte ( 200kb) 的页面以及对应页面发生次数

列出访问最频的页面(TOP100)

列出访问最频的页面([排除php页面】(TOP100)

列出页面访问次数超过100次的页面

列出最近1000条记录，访问量最高的页面

统计每分钟的请求数,top100的时间点(精确到分钟)

统计每小时的请求数,top100的时间点(精确到小时)

统计每秒的请求数,top100的时间点(精确到秒)

统计当天的 pv

说明：

可以使用下面的命令统计出所有响应时间超过 3 秒的日志记录。

注意：NF 是当前记录中域的个数。$NF 即最后一个域。

列出php页面请求时间超过3秒的页面，并统计其出现的次数，显示前100条

列出相应时间超过 5 秒的请求，显示前20条

统计蜘蛛抓取次数

统计蜘蛛抓取404的次数

通过本文的介绍，我相信同学们一定会发现 linux三剑客强大之处。在命令行中，它还能够接受，和执行外部的 AWK 程序文件，可以对文本信息进行非常复杂的处理，可以说“只有想不到的，没有它做不到的”。

　Linux系统下Nginx 日志可以查看系统运行记录和出错说明，对Nginx 日志的分析可以了解系统运行的状态。那么Linux系统Nginx日志怎么分析呢？

Nginx 日志相关配置有 2 个地方：access_log 和 log_format 。

默认的格式：

access_log /data/logs/nginx-access.log

log_format old ‘$remote_addr ［$time_local］ $status $request_time $body_bytes_sent ’

‘“$request” “$http_referer” “$http_user_agent”’

相信大部分用过 Nginx 的人对默认 Nginx 日志格式配置都很熟悉，对日志的内容也很熟悉。但是默认配置和格式虽然可读，但是难以计算。

Nginx 日志刷盘相关策略可配置：

比如，设置 buffer，buffer 满 32k 才刷盘；假如 buffer 不满 5s 钟强制刷盘的配置如下：

access_log /data/logs/nginx-access.log buffer=32k flush=5s

这决定了是否实时看到日志以及日志对磁盘 IO 的影响。

Nginx 日志能够记录的变量还有很多没出现在默认配置中：

比如：

请求数据大小：$request_length

返回数据大小：$bytes_sent

请求耗时：$request_time

所用连接序号：$connection

当前连接发生请求数：$connection_requests

Nginx 的默认格式不可计算，需要想办法转换成可计算格式，比如用控制字符 ^A （Mac 下 ctrl+v ctrl+a 打出）分割每个字段。

log_format 的格式可以变成这样：

log_format new ‘$remote_addr^A$http_x_forwarded_for^A$host^A$time_local^A$status^A’

‘$request_time^A$request_length^A$bytes_sent^A$http_referer^A$request^A$http_user_agent’

这样之后就通过常见的 Linux 命令行工具进行分析了：

查找访问频率最高的 URL 和次数：

cat access.log | awk -F ‘^A’ ‘{print $10}’ | sort | uniq -c

查找当前日志文件 500 错误的访问：

cat access.log | awk -F ‘^A’ ‘{if（$5 == 500） print $0}’

查找当前日志文件 500 错误的数量：

cat access.log | awk -F ‘^A’ ‘{if（$5 == 500） print $0}’ | wc -l

查找某一分钟内 500 错误访问的数量：

cat access.log | awk -F ‘^A’ ‘{if（$5 == 500） print $0}’ | grep ’09:00’ | wc-l

查找耗时超过 1s 的慢请求：

tail -f access.log | awk -F ‘^A’ ‘{if（$6》1） print $0}’

假如只想查看某些位：

tail -f access.log | awk -F ‘^A’ ‘{if（$6》1） print $3″|”$4}’

查找 502 错误最多的 URL：

cat access.log | awk -F ‘^A’ ‘{if（$5==502） print $11}’ | sort | uniq -c

查找 200 空白页

cat access.log | awk -F ‘^A’ ‘{if（$5==200 &&$8 《 100） print $3″|”$4″|”$11″|”$6}’

查看实时日志数据流

tail -f access.log | cat -e

或者

tail -f access.log | tr ‘^A’ ‘|’

照着这个思路可以做很多其他分析，比如 UA 最多的访问；访问频率最高的 IP；请求耗时分析；请求返回包大小分析；等等。

这就是一个大型 Web 日志分析系统的原型，这样的格式也是非常方便进行后续大规模 batching 和 streaming 计算。

以上就是Linux系统Nginx日志怎么分析的全部内容了，可以看出来Nginx日志还是有很强大的作用的。

1. 前言

在Linux日常管理中，我们肯定有查看某些服务的日志需求，或者是系统本身的日志。本文主要介绍如何查看Linux的系统日志，包括文件的路径、工具的使用等等。会看Linux日志是非常重要的，不仅在日常 *** 作中可以迅速排错，也可以快速的定位。

2. 如何查看Linux日志

Linux日志文件的路径一般位于,/var/log/，比如ngix的日志路径为/var/log/nginx/，如果要查看某服务的日志，还可以使用systemctl status xxx，比如查看ssh服务的壮态，systemctl status sshd

查看Linux某服务的日志

Liunx的配置文件在/etc/rsyslog.d里，可以看到如下信息

在linux系统当中，有三个主要的日志子系统：

1、连接时间日志：由多个程序执行，把记录写入到/var/log/wtmp和/var/run/utmp，

login等程序会更新wtmp和utmp文件，使系统管理员能够跟踪谁在何时登录到系统。

2、进程统计：由系统内核执行，当一个进程终止时，为每个进程往进程统计文件中写一个记录。进程统计的目的是为系统中的基本服务提供命令使用统计

3、错误日志：由rsyslogd守护程序执行，各种系统守护进程、用户程序和内核通过rsyslogd守护程序向文件/var/log/messages报告值得注意的时间。另外有许多linux程序创建日志，像HTTP和FTP这样提供的服务器也保持详细的日志。

4、其他日志……

查看Linux日志默认路径

可以看到在/var/log目录下存在很多的日志文件，接下来就对里面的一些常用日志文件进行分析

主要日志文件介绍：

内核及公共消息日志:/var/log/messages

计划任务日志：/var/log/cron

系统引导日志：/var/log/dmesg

邮件系统日志:/var/log/maillog

用户登录日志：/var/log/lastlog

/var/log/boot.log（记录系统在引导过程中发生的时间）

/var/log/secure (用户验证相关的安全性事件)

/var/log/wtmp(当前登录用户详细信息)

/var/log/btmp（记录失败的的记录）

/var/run/utmp（用户登录、注销及系统开、关等事件）

日志文件详细介绍：

/var/log/secure

Linux系统安全日志，记录用户和工作组的情况、用户登陆认证情况

例子：我创建了一个zcwyou的用户，然后改变了该用户的密码，于是该信息就被记录到该日志下

Linux系统安全日志默认路径

该日志就详细的记录了我 *** 作的过程。

内核及公共信息日志，是许多进程日志文件的汇总，从该文件中可以看出系统任何变化

查看Linux内核及公共信息日志

系统引导日志

该日志使用dmesg命令快速查看最后一次系统引导的引导日志

查看Linux系统系统引导日志

最近的用户登录事件，一般记录最后一次的登录事件

该日志不能用诸如cat、tail等查看，因为该日志里面是二进制文件，可以用lastlog命令查看，它根据UID排序显示登录名、端口号（tty）和上次登录时间。如果一个用户从未登录过，lastlog显示 Never logged。

该日志文件永久记录每个用户登录、注销及系统的启动、停机的事件。该日志为二进制文件，不能用诸如tail/cat/等命令，使用last命令查看。

记录邮件的收发

此文件是记录错误登录的日志，可以记录有人使用暴力破解ssh服务的日志。该文件用lastb打开

该日志记录当前用户登录的情况，不会永久保存记录。可以用who/w命令来查看

3. 常用的日志分析工具与使用方法

3.1 统计一个文本中包含字符个数

3.2 查看当天访问排行前10的url

3.3 查看apache的进程数

3.4 访问量前10的IP

cut部分表示取第1列即IP列，取第4列则为URL的访问量

3.5 查看最耗时的页面

按第2列响应时间逆序排序

3.6 使用grep查找文件中指定字符出现的次数

-o 指示grep显示所有匹配的地方，并且每一个匹配单独一行输出。这样只要统计输出的行数就可以知道这个字符出现的次数了。

4. 总结

查看Linux日志需求了解和熟悉使用一些常用的工具方能提升我们的查找和定位效率。比如使用 Grep 搜索，使用Tail命令，使用Cut，使用AWK 和 Grok 解析日志和使用 Rsyslog 和 AWK 过滤等等，只要能掌握这些工具。我们才能高效地处理和定位故障点。

https://www.linuxrumen.com/rmxx/647.html

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/7558191.html

Linux常见日志统计分析命令

发表评论

评论列表（0条）