如何处理python爬虫ip被封

如何处理python爬虫ip被封,第1张

1、放慢爬取速度,减小对于目标网站造成的压力。但是这样会减少单位时间类的爬取量。

第二种方法是通过设置IP等手段,突破反爬虫机制继续高频率爬取。网站的反爬机制会检查来访的IP地址,为了防止IP被封,这时就可以使用>

设置ua

添加requests的headers,如refer,content length等

添加cookie

爬取过于频繁,每爬完一个网页sleep一段时间,一般1-5秒,越长越不容易被检测出来,也可以考虑sleep随机的时间

终极大杀招,模拟浏览器,selenium工具

具体方法自行google

python爬虫没有用户名密码可以这样做:

11 使用表单登陆

这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

12 使用cookie登陆

使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。

则需要采用cookie登陆。

配置文件configini,其中包括用户名密码信息,如果有验证码情况,需要手动登陆一次网站获取cookie信息。

判断登陆成功与否,看生成的html文件中有没有用户信息。

以上就是关于如何处理python爬虫ip被封全部的内容,包括:如何处理python爬虫ip被封、python爬虫,遇到403 forbidden,求助、python爬虫没有用户名密码等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9709725.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-01
下一篇2023-05-01

发表评论

登录后才能评论

评论列表(0条)

    保存