
1、放慢爬取速度,减小对于目标网站造成的压力。但是这样会减少单位时间类的爬取量。
第二种方法是通过设置IP等手段,突破反爬虫机制继续高频率爬取。网站的反爬机制会检查来访的IP地址,为了防止IP被封,这时就可以使用>
设置ua
添加requests的headers,如refer,content length等
添加cookie
爬取过于频繁,每爬完一个网页sleep一段时间,一般1-5秒,越长越不容易被检测出来,也可以考虑sleep随机的时间
终极大杀招,模拟浏览器,selenium工具
具体方法自行google
python爬虫没有用户名密码可以这样做:
11 使用表单登陆
这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。
12 使用cookie登陆
使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。
则需要采用cookie登陆。
配置文件configini,其中包括用户名密码信息,如果有验证码情况,需要手动登陆一次网站获取cookie信息。
判断登陆成功与否,看生成的html文件中有没有用户信息。
以上就是关于如何处理python爬虫ip被封全部的内容,包括:如何处理python爬虫ip被封、python爬虫,遇到403 forbidden,求助、python爬虫没有用户名密码等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)