Scrapy 可以实现用户动态添加起始URL吗_IT百科

使用scrapy-redis管理url队列，能随时向redis里面push新的start_urls，可以实现你的需求

使用很简单 pip install scrapy-redis 安装

然后修改常规spider文件

1.引入RedisCrawlSpider

from scrapy_redis.spiders import RedisCrawlSpider

2.将spider类继承改为RedisCrawlSpider

class BaiduSpider(RedisCrawlSpider):

3.将

start_urls = (

'https://www.baidu.com',

)

替换为

redis_key = 'baidu_spider:start_urls'

4.然后在setting里面设置redis数据库的地址等

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

SCHEDULER_PERSIST = True

SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

REDIS_URL = 'redis://127.0.0.1:6379'

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

5.然后启动爬虫，此时已经在使用redis管理url队列，但是redis里面还没有start_urls

使用命令

lpush baidu_spider:start_urls https://www.baidu.com

将start_urls push进redis

然后爬虫就会开始爬取了哦

中途任意时间可以运行上面的命令将start_urls push进redis 进行爬取

最近重构一个Scrapy爬虫项目，需要将300个spider的调度任务在jenkins中添加。这已经超过了手动一个一个添加任务的极限，是时候要借助工具批量添加了。

Jenkins提供了一套远端访问的API，目前有3种方式：

远程API可以执行以下这些功能：

本文的思路是先在网页上手动创建一个Job，然后将Job的配置文件拷贝至本地，制作成模板。

模板job主要有两块内容：

1，【构建触发器】定时构建

其中HOST_TEST，PROJECT_TEST是在jenkins系统配置中设置的环境变量，目的是为了更换scrapyd服务器时更加灵活。

进入到jenkins的安装目录（默认为/var/lib/jenkins/)，在/var/lib/jenkins/jobs/【采集】template目录下找到config.xml文件，拷贝至本地

批量创建的job主要差异在spider名称和crontab定时任务的设置不同，将这两处模板化：

config.xml

该文件中有4个变量要配置：

搞定！分分钟创建了几百个job。

欢迎分享，转载请注明来源：内存溢出

Scrapy 可以实现用户动态添加起始URL吗