浅析python中cookie写入和读取

浅析python中cookie写入和读取,第1张

通常情况下,一个请求对于cookie有不同的 *** 作方式,如cookie写入和cookie读取2种最基本的方式

cookie的读取

url = selfget_response_url()+"&callback=jQuery21008240514814031887_1508666806688&_=1508666806689"

cookie = requestsget(url)cookies

return cookie

这里的cookie的读取是通过url请求返回cookie得到cookiejar的值

cookie写入

cookie = requestsutilsdict_from_cookiejar(selfget_cookie())

op_json = OperetionJson()

op_jsonwrite_data(cookie)

这里的cookie的写入是通过获取后,在cookiejar的dict中获取到cookie,然后将cookie写入到json中,即可实现cookie写入的功能

有些网站需要登录后才能爬取所需要的信息,此时可以设计爬虫进行模拟登录,原理是利用浏览器cookie。

一、浏览器访问服务器的过程:

(1)浏览器(客户端)向Web服务器发出一个>

二、利用Fiddler查看浏览器行为信息:

>

(1)起始行:包括请求方法、请求的资源、>

这里GET请求没有消息主体,因此消息头后的空白行中没有其他数据。

(2)消息头:包含各种属性

(3)消息头结束后的空白行

(4)可选的消息体:包含数据

>

(1)起始行:包括>

(2)消息头:包含各种属性

(3)消息体:包含数据

从上面可见,cookie在>

三、什么是cookie:

当用户通过浏览器首次访问一个域名时,访问的Web服务器会给客户端发送数据,以保持Web服务器与客户端之间的状态,这些数据就是Cookie。

它是站点创建的,为了辨别用户身份而储存在用户本地终端上的数据,其中的信息一般都是经过加密的,存在缓存或硬盘中,在硬盘中是一些小文本文件。

当访问该网站时,就会读取对应网站的Cookie信息。

作用:记录不同用户的访问状态。

四、 *** 作过程:

在知乎登录界面输入用户名和密码,然后登录。

利用Fiddler来查看这期间浏览器和知乎服务器之间的信息交互。

(1)浏览器给服务器发送了一个POST,携带帐号和密码等信息;

从起始行可见,POST是发送给>

可以发现,信息里不仅有帐号(email)和密码(password),其实还有_xsrf(具体作用往后看)和remember_me(登录界面的“记住我”)两个值。

那么,在python爬虫中将这些信息同样发送,就可以模拟登录。

在发送的信息里出现了一个项:_xsrf,值为2fc4ab0f0f144c2e478c436fe3160443

这个项其实是在访问知乎登录网页>

所以需要先从登录网址>

并连同帐号、密码等信息再POST到真正接收请求的>

(2)获取_xsrf的值:

爬取登录网址>

(3)发送请求:

xsrf = 获取的_xsrf的值

data = {"email":"xxx","password":"xxx","_xsrf":xsrf}

login = spost(loginURL, data = data, headers = headers)

loginURL:是真正POST到的网址,不一定等同于登录页面的网址;

(4)爬取登录后的网页:

response = sget(getURL, cookies = logincookies, headers = headers)

getURL:要爬取的登陆后的网页;

logincookies:登陆时获取的cookie信息,存储在login中。

(5)输出内容:

print responsecontent

五、具体代码:

[python] view plain copy

# -- coding:utf-8 --

# author:Simon

# updatetime:2016年3月17日 17:35:35

# 功能:爬虫之模拟登录,urllib和requests都用了

import urllib

import urllib2

import requests

import re

headers = {'User-Agent':'Mozilla/50 (Windows NT 62) AppleWebKit/53511 (KHTML, like Gecko) Chrome/17096312 Safari/53511'}

def get_xsrf():

firstURL = ">

request = urllib2Request(firstURL,headers = headers)

response = urllib2urlopen(request)

content = responseread()

pattern = recompile(r'name="_xsrf" value="()"/>',reS)

_xsrf = refindall(pattern,content)

return _xsrf[0]

def login(par1):

s = requestssession()

afterURL = ">

loginURL = ">

login = spost(loginURL, data = par1, headers = headers)                  # 发送登录信息,返回响应信息(包含cookie)

response = sget(afterURL, cookies = logincookies, headers = headers)    # 获得登陆后的响应信息,使用之前的cookie

return responsecontent

xsrf = get_xsrf()

print "_xsrf的值是:" + xsrf

data = {"email":"xxx","password":"xxx","_xsrf":xsrf}

print login(data)

六、补充:

用知乎网做完试验,发现这里好像并不需要发送_xsrf这个值。

不过有的网站在登陆时确实需要发送类似这样的一个值,可以用上述方法。

一个浏览器登录新浪微博后cookie应该都有区别吧,cookie可以登录的时间等因素有关,python登录新浪微博的时候,你可以模拟你网页登录的形式登录试试看你和网页登录的cookie一样不

给你一个例子,可以看看:

import requests

import time

import json

import os

import re

import sys

import subprocess

from bs4 import BeautifulSoup as BS

class ZhiHuClient(object):

"""连接知乎的工具类,维护一个Session

20151111

用法:

client = ZhiHuClient()

# 第一次使用时需要调用此方法登录一次,生成cookie文件

# 以后可以跳过这一步

clientlogin("username", "password")

# 用这个session进行其他网络 *** 作,详见requests库

session = clientgetSession()

"""

# 网址参数是账号类型

TYPE_PHONE_NUM = "phone_num"

TYPE_EMAIL = "email"

loginURL = r">

以上就是关于浅析python中cookie写入和读取全部的内容,包括:浅析python中cookie写入和读取、python爬虫模拟登录是什么意思、python登录新浪微博后的cookie怎么和网页登录的cookie不一致等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9835619.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-02
下一篇2023-05-02

发表评论

登录后才能评论

评论列表(0条)

    保存