网络爬虫的几种常见类型_软件运维

1、批量型的网络爬虫

这种类型是针对用户有着明确的抓取范围和目标，当达到既定的目标之后，抓取工作就会停止。这个羡搏目标可以是抓取的时间，也可以是抓取的数量等。

2、增量式网络爬虫

这种爬虫类型不同于批量型爬虫，没有固定的限制，且需要程序持续不断的运行，对于抓取到的数据定期的更新。它针对的是网页在不断变化的，增脊模量式爬虫只需要抓取新产生或者发生新变化的网页，他不会重复的抓取没有变化的网页，这样可以缩减时间和存储空间，当然这种爬虫程序运行起来是相对有难度的。

3、通用爬虫

通用网络爬虫也叫作全网爬虫，它是搜索引擎抓取系统的重要组成部分。主要樱派缓为门户网站站点搜索引擎和大型 Web 服务提供商采集网络数据。这类网络爬虫的爬行范畴和数量比较大，所以对于爬取速度和存储空间的要求很高。

4、聚焦网络爬虫

聚焦网络爬虫是指有针对性的爬取，和通用网络爬虫相比对于硬件的要求有所降低，而且所抓取的数据垂直性更高，可以满足特定人群的需求。

通俗来讲，爬虫就是利用代码编写的程序或脚本，帮助你对互联网海量信息进行过滤、筛选，批量自动抓取网站中你想获取的信息，并猛信宽对其进行整理排序。网络爬虫又被成为网枝亮络蜘蛛，如果将互联网比喻成一个蜘蛛网，那么这个程序或脚本，就是在网上爬来爬去的蜘蛛。归结为一句话就是进行互联网信息的自动化检索，其实就是获取数据的一种手段。目前常见的坦行搜索引擎都离不开爬虫，举个例子，百度搜索引擎的爬虫叫做百度蜘蛛，百度蜘蛛每天会自动在海量的互联网信息中进行爬取，筛选出较为优质的信息进行收录，当你检索相关关键词时，会立刻将对应的信息按照一定的排序规则呈现在你的眼前。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/12214917.html

网络爬虫的几种常见类型

发表评论

评论列表（0条）