
有时在做python爬虫时,需要访问登录后才可以访问的网页,利用已经登录的cookie文件就可以达到此目的。下面以迅雷网为例来做实验,实验平台为Linux。
1 首先在Firefox浏览器端登录迅雷网,使用Firebug插件导出cookies。
2 修改cookies的格式,假设文件名为xunleitxt,
cookie的原理,楼主有时间,应该多看看。
把数据保存到cookie中,在服务器的响应的时候,就会把cookie保存到客户端(一般是浏览器)的硬盘中。当你第二次(关键)访问的时候,浏览器才会将cookie带过来。 而楼主你的代码中,根本就没有二次访问,所以就肯定获取不到值了。
这种情况是可以保存在session中。
试了下,给不了你最终想要的答案,只能说说
1,我肯定的是你第二个访问的地址是错的
2,这种网页就是加入反爬虫加密,也就是我说的第1的原因
3,要去解这个加密需要有一定JS基础才行
主要是jschl_answer是经过JS计算后得出来的,而不是通过页面取就可以
到Temporary Internet Files的文件下看看有没有
注意吧Path 和Domain 都添加上看看
————
应该是Domain 的问题,在设置的时候原则上是
>
以上就是关于如何获取登陆后的cookies全部的内容,包括:如何获取登陆后的cookies、向浏览器发送cookie再获取,为什么获取不到刚刚发送的cookie、cookie与爬虫无关吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)