
使用很简单 pip install scrapy-redis 安装
然后修改常规spider文件
1.引入RedisCrawlSpider
from scrapy_redis.spiders import RedisCrawlSpider
2.将spider类继承改为RedisCrawlSpider
class BaiduSpider(RedisCrawlSpider):
3.将
start_urls = (
'https://www.baidu.com',
)
替换为
redis_key = 'baidu_spider:start_urls'
4.然后在setting里面设置redis数据库的地址等
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
REDIS_URL = 'redis://127.0.0.1:6379'
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
5.然后启动爬虫,此时已经在使用redis管理url队列,但是redis里面还没有start_urls
使用命令
lpush baidu_spider:start_urls https://www.baidu.com
将start_urls push进redis
然后爬虫就会开始爬取了哦
中途任意时间可以运行上面的命令将start_urls push进redis 进行爬取
最近测试redis性能,需要批量插入1千万条以上的数据,
就简单进行了研究,大概有以下几种方法:
一:java程序调用,简单的for循环,通过Jedis的方法,直接插入,
至于速度,不用看,不用试,根本不行,就不给实现了。
二:通过shell脚本,也比较简单,但也是因为要通过port端口的形式,
连接到redis,速度也是慢的不行,放弃。
三:通过redis提供管道,感觉这种方法是最靠谱的,一下是实现:
步骤1:首先简单写一个shell脚本:
目的是生成一个用批量插入的脚本文件,
步骤2:这里linux或者windows上生成的文件不能直接当做redis语句来跑,
简单来说,就是因为linux,windows和dos的换行并不一样,
所以需要简单转换一下:
转换的方法有好多种:
1:一般Linux发行版中都带有这个小工具,只能把DOS转换为UNIX文件,命令如下:
上面的命令会去掉行尾的^M符号。(如果机器上没有安装nuix2dos,直接用方法2即可)
2:用vim,vim是vi的改进版本,使用方式:
一行命令即可,保存退出,
步骤3:就是跑脚本了,通过redis提供的管道--pipe形式,
三步即可,完成redis的批量插入,速度,在2000万条的情况下,生成脚本的速度稍慢,插入的速度还在几分钟,
速度可以说是非常快了~
本文来自PHP中文网的 redis教程 栏目: https://www.php.cn/redis/
使用scrapy-redis管理url队列,能随时向redis里面push新的start_urls,可以实现你的需求 使用很简单 pip install scrapy-redis 安装 然后修改常规spider文件 1.引入RedisCrawlSpider from scrapy_redis.spiders import RedisCrawlSpider 2.将spi欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)