python爬虫(1)-----涉及到的网络知识

python爬虫(1)-----涉及到的网络知识,第1张

python爬虫(1)-----涉及到的网络知识

端口

每一个应用程序都有自己独立的标识,标识简称端口

通信协议

国际组织定义了通信协议是TCP/Ip

所谓的协议就是计算机共同遵守的规则或者规定

爬虫遵守的协议是http协议(超文本传输协议),80

网络模型

https=HTTP+SSL,是以安全为目的的http通道(保密传输)

http请求

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E7%8E%8B%E5%85%88%E7%94%9F
​
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E7%8E%8B%E5%85%88%E7%94%9F(%16进制)
​
General:全部的
Request url:请求的地址 (加)
Request method:get,post请求方法(一般情况下,网站上面是什么请求方式,爬虫程序上面写啥请求方式,特殊具体情况具体分析)
Status Code:状态码 200请求成功
​
如果有一些静态的页面,简单来说数据都是在网页的源码里面
如果是动态页面,Request url(目标url,得分析,查找响应的结果)
​
Resopnse Headers 服务器的响应
Request headers 客户端的请求
Query String Paramenters 参数
​
Request headers 
host:www.baidu.com(主机:域名/端口)
Connection:keep-alive(保持长连接)
Tcp三次握手(百度发起请求一次,如果是长链接,可以缩短消耗时间,减少资源的消耗,)
User-Agent:用户代理,爬虫一般都是会添加的,防止一些网站来检测ua( 反 反爬的第一步)
cookie:(记录用户的相关信息,有道翻译到)
​
referer:url的地址(次级页面发起请求),视情况而定,有时间限制

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5711807.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-17
下一篇2022-12-17

发表评论

登录后才能评论

评论列表(0条)

    保存