Tcpdump 看这一篇就够了

Tcpdump 看这一篇就够了,第1张

tcpdump 是一款强大的网络抓包工具,它使用 libpcap 库来抓取网络数据包,这个库在几乎在所有的 Linux/Unix 中都有。熟悉 tcpdump 的使用能够帮助你分析调试网络数据,本文将通过一个个具体的示例来介绍它在不同场景下的使用方法。不管你是系统管理员,程序员,云原生工程师还是 yaml 工程师,掌握 tcpdump 的使用都能让你如虎添翼,升职加薪。

tcpdump 的常用参数如下:

额外再介绍几个常用参数:

-A 表示使用 ASCII 字符串打印报文的全部数据,这样可以使读取更加简单,方便使用 grep 等工具解析输出内容。 -X 表示同时使用十六进制和 ASCII 字符串打印报文的全部数据。这两个参数不能一起使用。例如:

后面可以跟上协议名称来过滤特定协议的流量,以 UDP 为例,可以加上参数 udp 或 protocol 17 ,这两个命令意思相同。

同理, tcp 与 protocol 6 意思相同。

使用过滤器 host 可以抓取特定目的地和源 IP 地址的流量。

也可以使用 src 或 dst 只抓取源或目的地:

使用 tcpdump 截取数据报文的时候,默认会打印到屏幕的默认输出,你会看到按照顺序和格式,很多的数据一行行快速闪过,根本来不及看清楚所有的内容。不过,tcpdump 提供了把截取的数据保存到文件的功能,以便后面使用其他图形工具(比如 wireshark,Snort)来分析。

-w 选项用来把数据报文输出到文件:

如果想实时将抓取到的数据通过管道传递给其他工具来处理,需要使用 -l 选项来开启行缓冲模式(或使用 -c 选项来开启数据包缓冲模式)。使用 -l 选项可以将输出通过立即发送给其他命令,其他命令会立即响应。

过滤的真正强大之处在于你可以随意组合它们,而连接它们的逻辑就是常用的 与/AND/&& 、 或/OR/|| 和 非/not/!。

关于 tcpdump 的过滤器,这里有必要单独介绍一下。

机器上的网络报文数量异常的多,很多时候我们只关系和具体问题有关的数据报(比如访问某个网站的数据,或者 icmp 超时的报文等等),而这些数据只占到很小的一部分。把所有的数据截取下来,从里面找到想要的信息无疑是一件很费时费力的工作。而 tcpdump 提供了灵活的语法可以精确地截取关心的数据报,简化分析的工作量。这些选择数据包的语句就是过滤器(filter)!

Host 过滤器用来过滤某个主机的数据报文。例如:

该命令会抓取所有发往主机 1234 或者从主机 1234 发出的流量。如果想只抓取从该主机发出的流量,可以使用下面的命令:

Network 过滤器用来过滤某个网段的数据,使用的是 CIDR[2] 模式。可以使用四元组(xxxx)、三元组(xxx)、二元组(xx)和一元组(x)。四元组就是指定某个主机,三元组表示子网掩码为 2552552550,二元组表示子网掩码为 25525500,一元组表示子网掩码为 255000。例如,

抓取所有发往网段 1921681x 或从网段 1921681x 发出的流量:

抓取所有发往网段 10xxx 或从网段 10xxx 发出的流量:

和 Host 过滤器一样,这里也可以指定源和目的:

也可以使用 CIDR 格式:

Proto 过滤器用来过滤某个协议的数据,关键字为 proto,可省略。proto 后面可以跟上协议号或协议名称,支持 icmp, igmp, igrp, pim, ah, esp, carp, vrrp, udp和 tcp。因为通常的协议名称是保留字段,所以在与 proto 指令一起使用时,必须根据 shell 类型使用一个或两个反斜杠(/)来转义。Linux 中的 shell 需要使用两个反斜杠来转义,MacOS 只需要一个。

例如,抓取 icmp 协议的报文:

Port 过滤器用来过滤通过某个端口的数据报文,关键字为 port。例如:

截取数据只是第一步,第二步就是理解这些数据,下面就解释一下 tcpdump 命令输出各部分的意义。

最基本也是最重要的信息就是数据报的源地址/端口和目的地址/端口,上面的例子第一条数据报中,源地址 ip 是 1921681106,源端口是 56166,目的地址是 12419213254,目的端口是 80。> 符号代表数据的方向。

此外,上面的三条数据还是 tcp 协议的三次握手过程,第一条就是 SYN 报文,这个可以通过 Flags [S] 看出。下面是常见的 TCP 报文的 Flags:

下面给出一些具体的例子,每个例子都可以使用多种方法来获得相同的输出,你使用的方法取决于所需的输出和网络上的流量。我们在排障时,通常只想获取自己想要的内容,可以通过过滤器和 ASCII 输出并结合管道与 grep、cut、awk 等工具来实现此目的。

例如,在抓取 >

用Python开发爬虫很方便。

本质:抓取---分析---存储

要点:

(1)get请求:最基本抓取。用到 urllib  urllib2  requests  >

以前购买了51Talk的课程,上了一段时间没有再上了,现在课程剩两个月了,还有150节课,为了能够不浪费,自己只能含泪每天上两节课来弥补以前懒惰造成的后果,结果发现课程太难约了,尤其是好的老师还有指定的时间的课程,自己想找收藏1000+以上的老师,还要一页一页的翻,可是结果也只能是事倍功半,1000+的老师太难找了,并且我自己的预约时间更是没有课,太惨了,最近刚学了Python,想着能不能通过爬虫来预约课程,于是就有了这个脚本 51TalkBookLesson 来预约收藏1000+老师的课。

Scrapy中的CrawlSpider能够通过Rule规则提取对应的链接并进跟进请求,非常的方便,不需要我们自己一步一步的去请求每一个URL,这非常适合51Talk中老师比较多,页面比较多的情况。

由于51Talk预约课程是需要登录的,所以我使用Cookie来进行账号的识别,我们需要为每一个请求的header添加一个Cookie

1、搜索菲律宾老师的请求

2、老师的信息课程列表的详情

follow=False 是因为,老师详情页面会有一些推荐老师,这些老师可能是欧美外教,是需要使用4次次卡的,我们禁止跟进这些意外情况。

这些请求我们都需要添加Cookie,请求1是需要放在start_urls里面的,请求2的链接是通过Rule规则提取出来的,预约课程请求我则使用python的requests模块,之所以不使用scrapy的FormRequest,是因为FormRequest会被放在已经添加在Scrapy队列里的页面spider请求后面,当前面这些Spider请求完成之后,才能执行我们的预约课程,可是到那时候课程估计已经都没有了,我们需要的是当找到课程之后能够马上请求

1、在根目录下创建一个名字为cookie的文件

2、我们需要先登录51Talk网站,在开发模式下的控制台输入 documentcookie按回车,将cookie输出并粘贴到cookie文件,不需要双引号

Python中reques模块中的请求,Cookie的格式是字符串类型的,可以直接使用,而scrapy>

以上就是关于Tcpdump 看这一篇就够了全部的内容,包括:Tcpdump 看这一篇就够了、现在用scrapy爬一个网站始终遇到521错误,是怎么回事、Python爬虫与mac下Scrapy配置等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9421797.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-28
下一篇2023-04-28

发表评论

登录后才能评论

评论列表(0条)

    保存