python爬虫（1）-----涉及到的网络知识_随笔

python爬虫（1）-----涉及到的网络知识

端口

每一个应用程序都有自己独立的标识，标识简称端口

通信协议

国际组织定义了通信协议是TCP/Ip

所谓的协议就是计算机共同遵守的规则或者规定

爬虫遵守的协议是http协议（超文本传输协议），80

网络模型

https=HTTP+SSL,是以安全为目的的http通道（保密传输）

http请求

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E7%8E%8B%E5%85%88%E7%94%9F

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E7%8E%8B%E5%85%88%E7%94%9F(%16进制)

General：全部的
Request url：请求的地址 （加）
Request method：get,post请求方法（一般情况下，网站上面是什么请求方式，爬虫程序上面写啥请求方式，特殊具体情况具体分析）
Status Code:状态码 200请求成功

如果有一些静态的页面，简单来说数据都是在网页的源码里面
如果是动态页面，Request url（目标url，得分析，查找响应的结果）

Resopnse Headers 服务器的响应
Request headers 客户端的请求
Query String Paramenters 参数

Request headers 
host:www.baidu.com(主机:域名/端口)
Connection:keep-alive(保持长连接)
Tcp三次握手（百度发起请求一次，如果是长链接，可以缩短消耗时间，减少资源的消耗，）
User-Agent:用户代理，爬虫一般都是会添加的，防止一些网站来检测ua（ 反 反爬的第一步）
cookie：（记录用户的相关信息，有道翻译到）

referer：url的地址（次级页面发起请求），视情况而定，有时间限制

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/5711807.html

python爬虫（1）-----涉及到的网络知识

发表评论

评论列表（0条）