关于爬虫的一些想法_随笔

关于爬虫的一些想法 1.学号爬虫需要的知识。

1.计算机网络（http/https协议,tcp/ip协议,socket编程）。因为很多时候我们需要对协议很清楚。这样才能模拟出需要的请求。

2.前端的基础。（html+css+js）内容的获取和解析,需要前端的知识。xpath和bs4，都是要有一定的前端知识作为铺垫。

3.正则表达式（用于内容解析）

4.数据存储技术（分布式存储）当数据量达到很大的级别。需要对存储这块深入。

5.并发处理技术(多线程,多进程，线程池，协程)

6.图像识别(处理反爬，验证码),机器学习算法（验证码,数据解析）。

2.爬虫中要解决的问题

1.爬虫的采集和更新策略。

2.解决反爬。

3.数据解析

4.数据存储

5.模拟登录（验证码识别）

6.爬虫的监控和部署

7.数据的去重（url去重，内容去重）

3.正确的看待爬虫

1.爬虫不应该毫无节制。

2.robots协议的遵循

3.法律问题。

4.爬虫不能抓取页面上看不到的数据。爬虫是做一些重复的工作。

5.目标网站不会让我们随便爬取数据，需要有一定的反爬技术。

欢迎分享，转载请注明来源：内存溢出

关于爬虫的一些想法