在scrapy中设置IP代理池（手动代理池）_IT百科

1.在 settings 配置文件中新增IP池:

2.修改中间件文件 middlewares.py

3.在 settings 中设置 DOWNLOADER_MIDDLEWARES

有些用户反映在爬虫的过程中，使用了代理IP但是依旧出现请求失败的情况，这到底是怎么一回事，其实如果爬虫使用不当或者用了低质量的代理IP都会导致上述情况的发生。

那么遇到这种情况大家也不用慌，我们可以采取以下措施：

1、放慢爬取速度，减少对于目标网站带来的压力，但会减少单位时间类的爬取量。测试出网站设置的限制速度阈值，设置合理的访问速度。

2、时间间隔访问，对于多少时间间隔进行采集，可以先测试目标网站所允许的最大访问频率，越贴近最大访问频率，越容易被封IP，这就需要设置一个合理的时间间隔，既能满足采集速度，也可以不被限制IP。

3、使用高匿名代理IP，对于python网络爬虫来说，有时候业务量繁重，分布式爬虫是最佳的增强效率方式，而分布式爬虫又急切需要数目众多的IP资源，这一点免费IP是满足不了的，并且免费代理一般不提供高匿名的代理IP，因此不建议大家使用免费的代理IP。高匿名代理IP可以完全隐藏用户的IP及信息，让目标网站不会有丝毫的察觉，无论是用来做什么工作都可以放心使用。

4.多线程爬取，多线程是为了同步完成多项任务，通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。也就是使用多个爬虫同时去抓取。人多力量大，爬虫也是如此，这样可以极大地提高爬取速率。

文章部分内容源于网络，联系侵删*

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/bake/11267011.html

在scrapy中设置IP代理池（手动代理池）

发表评论

评论列表（0条）