
每一个应用程序都有自己独立的标识,标识简称端口
通信协议
国际组织定义了通信协议是TCP/Ip
所谓的协议就是计算机共同遵守的规则或者规定
爬虫遵守的协议是http协议(超文本传输协议),80
网络模型
https=HTTP+SSL,是以安全为目的的http通道(保密传输)
http请求
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E7%8E%8B%E5%85%88%E7%94%9F https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E7%8E%8B%E5%85%88%E7%94%9F(%16进制) General:全部的 Request url:请求的地址 (加) Request method:get,post请求方法(一般情况下,网站上面是什么请求方式,爬虫程序上面写啥请求方式,特殊具体情况具体分析) Status Code:状态码 200请求成功 如果有一些静态的页面,简单来说数据都是在网页的源码里面 如果是动态页面,Request url(目标url,得分析,查找响应的结果) Resopnse Headers 服务器的响应 Request headers 客户端的请求 Query String Paramenters 参数 Request headers host:www.baidu.com(主机:域名/端口) Connection:keep-alive(保持长连接) Tcp三次握手(百度发起请求一次,如果是长链接,可以缩短消耗时间,减少资源的消耗,) User-Agent:用户代理,爬虫一般都是会添加的,防止一些网站来检测ua( 反 反爬的第一步) cookie:(记录用户的相关信息,有道翻译到) referer:url的地址(次级页面发起请求),视情况而定,有时间限制
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)