如何使用爬虫监控一系列网站的更新情况

如何使用爬虫监控一系列网站的更新情况,第1张

1 第一态锋凳次先请求某个网页,抓取到本地,假设文件名为 a.html。这时文件系统有个文帆旅件的修改时间。

2 第二次访问网页,如果发现本地已经有了 a.html,则向服务器发送一个 If-Modified-Since 的请求(http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html)。 把基租 a.html 的修改时间写到请求里。

3 如果网页更新了,服务器会返回一个 200 的应答,这时就重新抓取网页,更新本地文件。

4 如果网页没有更新,服务器会返回一个304的应答。这时就不需要更新文件了。

爬虫跟踪下戚纯一页的差仔缓方法是自己模拟点击下一页连接,然后发出新的请求。请看虚模: item1 = Item()yield item1item2 = Item()yield item2req = Request(url='下一页的链接', callback=self.parse)yield req 注意使用yield时不要用return语句。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/12370358.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-23
下一篇2023-05-23

发表评论

登录后才能评论

评论列表(0条)

    保存