Scrapy 可以实现用户动态添加起始URL吗

Scrapy 可以实现用户动态添加起始URL吗,第1张

使用scrapy-redis管理url队列,能随时向redis里面push新的start_urls,可以实现你的需求

使用很简单 pip install scrapy-redis 安装

然后修改常规spider文件

1.引入RedisCrawlSpider

from scrapy_redis.spiders import RedisCrawlSpider

2.将spider类继承改为RedisCrawlSpider

class BaiduSpider(RedisCrawlSpider):

3.将

start_urls = (

'https://www.baidu.com',

)

替换为

redis_key = 'baidu_spider:start_urls'

4.然后在setting里面设置redis数据库的地址等

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

SCHEDULER_PERSIST = True

SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

REDIS_URL = 'redis://127.0.0.1:6379'

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

5.然后启动爬虫,此时已经在使用redis管理url队列,但是redis里面还没有start_urls

使用命令

lpush baidu_spider:start_urls https://www.baidu.com

将start_urls push进redis

然后爬虫就会开始爬取了哦

中途任意时间可以运行上面的命令将start_urls push进redis 进行爬取

最近测试redis性能,需要批量插入1千万条以上的数据,

就简单进行了研究,大概有以下几种方法:

一:java程序调用,简单的for循环,通过Jedis的方法,直接插入,

       至于速度,不用看,不用试,根本不行,就不给实现了。

二:通过shell脚本,也比较简单,但也是因为要通过port端口的形式,

       连接到redis,速度也是慢的不行,放弃。

三:通过redis提供管道,感觉这种方法是最靠谱的,一下是实现:

 步骤1:首先简单写一个shell脚本:

目的是生成一个用批量插入的脚本文件,

步骤2:这里linux或者windows上生成的文件不能直接当做redis语句来跑,

简单来说,就是因为linux,windows和dos的换行并不一样,

所以需要简单转换一下:

转换的方法有好多种:

1:一般Linux发行版中都带有这个小工具,只能把DOS转换为UNIX文件,命令如下:

上面的命令会去掉行尾的^M符号。(如果机器上没有安装nuix2dos,直接用方法2即可)

2:用vim,vim是vi的改进版本,使用方式:

一行命令即可,保存退出,

步骤3:就是跑脚本了,通过redis提供的管道--pipe形式,

三步即可,完成redis的批量插入,速度,在2000万条的情况下,生成脚本的速度稍慢,插入的速度还在几分钟,

速度可以说是非常快了~

本文来自PHP中文网的 redis教程 ​栏目: https://www.php.cn/redis/

使用scrapy-redis管理url队列,能随时向redis里面push新的start_urls,可以实现你的需求 使用很简单 pip install scrapy-redis 安装 然后修改常规spider文件 1.引入RedisCrawlSpider from scrapy_redis.spiders import RedisCrawlSpider 2.将spi


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/bake/11882484.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-19
下一篇2023-05-19

发表评论

登录后才能评论

评论列表(0条)

    保存