
1. 百度蜘蛛爬行的次数
cat access.log | grep Baiduspider | wc
最左面的数值显示的就是爬行次数。
2. 百度蜘蛛的详细记录(Ctrl C可以终止)
cat access.log | grep Baiduspider
也可以用下面的命令:
cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10
只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。
3. 百度蜘蛛抓取首页的详细记录
cat access.log | grep Baiduspider | grep “GET / HTTP”
百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。
4. 百度蜘蛛派性记录时间点分布
cat access.log | grep “Baiduspider ” | awk ‘{print $4}'
5. 百度蜘蛛爬行页面按次数降序列表
cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r
文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。
附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录
cat access.log | grep Mediapartners
Mediapartners-Google是什么呢?Google adsense广告之所以能与内容相关,因为每个包含着adsense的广告被访问后,很快就有个Mediapartners-Google蜘蛛来到这个页面,所以几分钟后再刷新就能显示相关性广告了,真厉害啊!
ps:linux下nginx如何启用网站日志,查看蜘蛛爬虫
默认的路径是你安装时候指定的
如果用的LNMP之类的安装包
你可以在SHELL下
whereisnginx
找到相应的路径之后
在NGINX下的CONF文件夹里看配置文件,日志文件如果记录了话
在配置文件里有路径的~
用途
tcpdump简义:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具。
tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。
语法
tcpdump [-adeflnNOpqStvx][-c<数据包数目>][-dd][-ddd][-F<表达文件>][-i<网络界面>]
[-r<数据包文件>][-s<数据包大小>][-tt][-T<数据包类型>][-vv][-w<数据包文件>][输出数据栏位]
参数说明:http://write.blog.csdn.net/postedit/72898655
-a 尝试将网络和广播地址转换成名称。
-c<数据包数目>收到指定的数据包数目后,就停止进行倾倒 *** 作。
-d 把编译过的数据包编码转换成可阅读的格式,并倾倒到标准输出。
-dd 把编译过的数据包编码转换成C语言的格式,并倾倒到标准输出。
-ddd 把编译过的数据包编码转换成十进制数字的格式,并倾倒到标准输出。
-e 在每列倾倒资料上显示连接层级的文件头。
-f 用数字显示网际网络地址。
-F<表达文件>指定内含表达方式的文件。
-i<网络界面>使用指定的网络截面送出数据包。
-l 使用标准输出列的缓冲区。
-n 不把主机的网络地址转换成名字。
-N 不列出域名。
-O 不将数据包编码最佳化。
-p 不让网络界面进入混杂模式。
-q 快速输出,仅列出少数的传输协议信息。
-r<数据包文件>从指定的文件读取数据包数据。
-s<数据包大小>设置每个数据包的大小。
-S 用绝对而非相对数值列出TCP关联数。
-t 在每列倾倒资料上不显示时间戳记。
-tt 在每列倾倒资料上显示未经格式化的时间戳记。
-T<数据包类型>强制将表达方式所指定的数据包转译成设置的数据包类型。
-v 详细显示指令执行过程。
-vv 更详细显示指令执行过程。
-x 用十六进制字码列出数据包资料。
-w<数据包文件>把数据包数据写入指定的文件。
案例
tcpdump -s 0 -i eth1 -w 94ip.cap
注:监听 ETH1网站 保存文件为94ip.cap
网云互联(www.94ip.net/www.94ip.com)是一家从事服务器安全防护、入侵检测、服务器代维等为一体的公司,免费服务器安全检测,并有24小时在线运维工程师为您服务。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)