使用Scrapy抓取多个域而无需纵横交错

使用Scrapy抓取多个域而无需纵横交错,第1张

使用Scrapy抓取多个域而无需纵横交错

我现在没有规则就实现了它。我

meta
为每个属性都附加了一个属性
start_url
,然后简单地检查一下自己是否链接属于原始域,并相应地发出新请求

因此,请覆盖

start_requests

def start_requests(self):    return [Request(url, meta={'domain': domain}, callback=self.parse_item) for url, domain in zip(self.start_urls, self.start_domains)]

在随后的解析方法中,我们获取

meta
属性
domain =response.request.meta['domain']
,将域与提取的链接进行比较,然后自己发出新请求



欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5674810.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-16
下一篇2022-12-17

发表评论

登录后才能评论

评论列表(0条)

    保存