
上一篇:【Scrapy框架一】初步认识爬虫框架
文章目录
- 系列文章目录
- 前言
- 一、settings参数介绍
- 二、部分参数验证
- 2.1 ROBOTSTXT_OBEY验证
- 2.2 待补充...
- 总结
前言
了解爬虫的配置文件settings.py各个字段的含义,对使用scrapy框架会有很大帮助,比如如何设置并发量,如何设置请求延时,如何设置遵守robots协议等等。所以在学习过程中,对接触到的爬虫参数做了归纳。
一、settings参数介绍
查看下默认的settings.py文件
| 参数名称 | 参数含义 | 备注 |
|---|---|---|
| BOT_NAME | ||
| SPIDER_MODULES | ||
| NEWSPIDER_MODULE | ||
| USER_AGENT | ||
| ROBOTSTXT_OBEY | True:表示遵守robots协议 False:表示不遵守 | |
| CONCURRENT_REQUESTS | 爬虫并发请求数量,默认是16 | |
| CONCURRENT_REQUESTS_PER_DOMAIN | ||
| CONCURRENT_REQUESTS_PER_IP | ||
| DOWNLOAD_DELAY | 下载延时,默认是0,请求之间不等待 | |
| COOKIES_ENABLED | 是否启用cookie,默认启用 | |
| TELNETCONSOLE_ENABLED | ||
| DEFAULT_REQUEST_HEADERS | 默认请求报头 | |
| SPIDER_MIDDLEWARES | 爬虫中间件 | |
| DOWNLOADER_MIDDLEWARES | 下载中间件,指定的值越小优先级越高,启动顺序按照优先级从高到低 | |
| EXTENSIONS | ||
| ITEM_PIPELINES | 管道文件,值越小优先级越高,启动顺序按照优先级从高到低 | |
| AUTOTHROTTLE_ENABLED | ||
| AUTOTHROTTLE_START_DELAY | ||
| AUTOTHROTTLE_MAX_DELAY | ||
| AUTOTHROTTLE_TARGET_CONCURRENCY | ||
| AUTOTHROTTLE_DEBUG | ||
| HTTPCACHE_ENABLED | ||
| HTTPCACHE_EXPIRATION_SECS | ||
| HTTPCACHE_DIR | ||
| HTTPCACHE_IGNORE_HTTP_CODES | ||
| HTTPCACHE_STORAGE |
当ROBOTSTXT_OBEY=True时,爬虫会遵守robots协议,如果爬取到robots.txt不允许爬的内容,就会出现下图中的提示:
查看下robots.txt中的内容,发现/目录下的内容都不让爬取。
如果设置ROBOTSTXT_OBEY=False,会不会真的能爬取下数据,看下图确实是爬取下来了:
上面的网站是B站UP主‘程序员鱼皮’给粉丝做的一个关于学习网络安全的网站,很有趣,这个UP主实力也很强,能了解到不少知识。
总结
除了以上默认的参数外,还有其他参数,遇到再进行补充。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)