如何使用爬虫监控一系列网站的更新情况

哥也搞•2023-5-23•软件运维•阅读18

1 第一态锋凳次先请求某个网页，抓取到本地，假设文件名为 a.html。这时文件系统有个文帆旅件的修改时间。

2 第二次访问网页，如果发现本地已经有了 a.html，则向服务器发送一个 If-Modified-Since 的请求（http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html）。把基租 a.html 的修改时间写到请求里。

3 如果网页更新了，服务器会返回一个 200 的应答，这时就重新抓取网页，更新本地文件。

4 如果网页没有更新，服务器会返回一个304的应答。这时就不需要更新文件了。

爬虫跟踪下戚纯一页的差仔缓方法是自己模拟点击下一页连接，然后发出新的请求。请看虚模： item1 = Item()yield item1item2 = Item()yield item2req = Request(url='下一页的链接', callback=self.parse)yield req 注意使用yield时不要用return语句。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/12370358.html