
我现在没有规则就实现了它。我
meta为每个属性都附加了一个属性
start_url,然后简单地检查一下自己是否链接属于原始域,并相应地发出新请求。
因此,请覆盖
start_requests:
def start_requests(self): return [Request(url, meta={'domain': domain}, callback=self.parse_item) for url, domain in zip(self.start_urls, self.start_domains)]在随后的解析方法中,我们获取
meta属性
domain =response.request.meta['domain'],将域与提取的链接进行比较,然后自己发出新请求。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)