
使用很简单 pip install scrapy-redis 安装
然后修改常规spider文件
1.引入RedisCrawlSpider
from scrapy_redis.spiders import RedisCrawlSpider
2.将spider类继承改为RedisCrawlSpider
class BaiduSpider(RedisCrawlSpider):
3.将
start_urls = (
'https://www.baidu.com',
)
替换为
redis_key = 'baidu_spider:start_urls'
4.然后在setting里面设置redis数据库的地址等
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
REDIS_URL = 'redis://127.0.0.1:6379'
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
5.然后启动爬虫,此时已经在使用redis管理url队列,但是redis里面还没有start_urls
使用命令
lpush baidu_spider:start_urls https://www.baidu.com
将start_urls push进redis
然后爬虫就会开始爬取了哦
中途任意时间可以运行上面的命令将start_urls push进redis 进行爬取
最近重构一个Scrapy爬虫项目,需要将300个spider的调度任务在jenkins中添加。这已经超过了手动一个一个添加任务的极限,是时候要借助工具批量添加了。
Jenkins提供了一套远端访问的API,目前有3种方式:
远程API可以执行以下这些功能:
本文的思路是先在网页上手动创建一个Job,然后将Job的配置文件拷贝至本地,制作成模板。
模板job主要有两块内容:
1,【构建触发器】定时构建
其中HOST_TEST,PROJECT_TEST是在jenkins系统配置中设置的环境变量,目的是为了更换scrapyd服务器时更加灵活。
进入到jenkins的安装目录(默认为/var/lib/jenkins/),在/var/lib/jenkins/jobs/【采集】template目录下找到config.xml文件,拷贝至本地
批量创建的job主要差异在spider名称和crontab定时任务的设置不同,将这两处模板化:
config.xml
该文件中有4个变量要配置:
搞定!分分钟创建了几百个job。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)