关于爬虫的一些想法

关于爬虫的一些想法,第1张

关于爬虫的一些想法 1.学号爬虫需要的知识。

1.计算机网络(http/https协议,tcp/ip协议,socket编程)。因为很多时候我们需要对协议很清楚。这样才能模拟出需要的请求。

2.前端的基础。(html+css+js)内容的获取和解析,需要前端的知识。xpath和bs4,都是要有一定的前端知识作为铺垫。

3.正则表达式(用于内容解析)

4.数据存储技术(分布式存储)当数据量达到很大的级别。需要对存储这块深入。

5.并发处理技术(多线程,多进程,线程池,协程)

6.图像识别(处理反爬,验证码),机器学习算法(验证码,数据解析)。

2.爬虫中要解决的问题

1.爬虫的采集和更新策略。

2.解决反爬。

3.数据解析

4.数据存储

5.模拟登录(验证码识别)

6.爬虫的监控和部署

7.数据的去重(url去重,内容去重)

3.正确的看待爬虫

1.爬虫不应该毫无节制。

2.robots协议的遵循

3.法律问题。

4.爬虫不能抓取页面上看不到的数据。爬虫是做一些重复的工作。

5.目标网站不会让我们随便爬取数据,需要有一定的反爬技术。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5491034.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-12
下一篇2022-12-12

发表评论

登录后才能评论

评论列表(0条)

    保存