
前面介绍过实用的效率小工具,真的帮了我很多忙,这次给小伙伴们再种草一些数据源网站。
现在有很多免费的数据可以供使用分析,不过很少有人能找的到,或者没能力找,这就是所谓的信息差吧。其实数据获取分为两方面,一是“拿来的”数据,也就是现成的;二是“爬来的”数据,这种一般通过爬虫等手段去采集数据。
“拿来的”数据可以在各大官方平台或者社区去找,一般各行各业都会有自己的数据库。我常用的数据网站有以下这些:
百度指数: 百度搜索汇总的数据,能看到各种关键词的搜索热度趋势,优点数据量大,能反映真实的话题热度变化,适合做需求洞察、用户画像、舆情监测、市场分析。
百度指数规则,是以网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。
微信指数: 微信生态的大数据,反映关键词热度,和百度指数类似。但微信指数数据来源微信各种内容渠道,包括搜一搜、视频号、公众号等,适合做微信生态人群画像、内容推广、舆情监控的研究。
Google Trends: 和百度指数类似的产品,基于google生态汇总的大数据。比百度数据来源更丰富也更广泛,包含了google、youtube等,毕竟是全球应用。缺点是对国内搜索分析的指导意义不大,还是百度指数更具指导意义。
微博指数: 微博内容提及量、阅读量、互动量加权得出的综合指数,优点比较有时效性,而且数据基数大,可以实时反映热度变化情况,适合实时捕捉当前 社会 热点事件、热点话题等,快速响应舆论走向等。
这种数据包含了网站、APP、自媒体账号等监测数据,大多是商业付费类
Alexa: 用于查询全球网站排名和流量的平台,可以看到PV、UV、排名、区域分布等信息。
新榜: 新媒体专属的数据平台,用于查看抖音、快手、公众号、小红书等平台KOL账号的数据。数据包括了粉丝、浏览、互动、声量等,一般用于广告投放监测、自媒体数据运营等。
猫眼数据: 影视相关数据。汇总了电影票房、网播热度、电视收视等数据,适合做票房预测、节目热度监测。
艾瑞指数: APP、Web、手机等排行榜数据,包括各大移动设备装机指数、APP热度指数、PC Web热度指数、网络广告指数等等,适合做广告营销投放等。
新浪 财经 数据中心:新浪 财经 大数据,汇总了股票、基金、期货、黄金、货币等各种 财经 数据,种类很齐全,应该有数据接口。
Wind:国内比较早的金融数据服务商,数据种类最齐全,而且有各种金融分析工具,也支持Python、R等量化分析。但Wind很贵,个人很难承担的起。
Tushare: 免费的金融数据库,支持Python接口,数据也非常齐全,包含了股票、基金、期权、债券、外汇、公司报表等各种 财经 数据。只要你会用Python,就可以调用里面的各种数据,非常便捷。
这种一般包含政府开放数据、统计数据,以及各种民生数据。
国家统计局: 最权威的国内宏观数据网站,包括人口、经济、农业等等。
上海公共数据开放平台: 上海市各行各业的免费数据,对公众开放下载,非常适合做城市规划分析。
其他城市官方数据:
这一类数据适合做机器学习、统计分析、算法研究等,是学术界、工业界用于数据驱动业务典型数据。
kaggle: 全球最大的数据科学比赛平台,也是google旗下的产品。kaggle拥有丰富的数据集和各种解决方案,适合对数据感兴趣的小伙伴去研究学习。
天池: 阿里云里面的数据比赛平台,也拥有很多比赛数据,质量相对较高。
一般有一下几种一些常用的方法
IP代理
对于IP代理,各个语言的Native
Request
API都提供的IP代理响应的API,
需要解决的主要就是IP源的问题了.
网络上有廉价的代理IP(1元4000个左右),
我做过简单的测试,
100个IP中,
平均可用的在40-60左右,
访问延迟均在200以上.
网络有高质量的代理IP出售,
前提是你有渠道.
因为使用IP代理后,
延迟加大,
失败率提高,
所以可以将爬虫框架中将请求设计为异步,
将请求任务加入请求队列(RabbitMQ,Kafka,Redis),
调用成功后再进行回调处理,
失败则重新加入队列.
每次请求都从IP池中取IP,
如果请求失败则从IP池中删除该失效的IP.
Cookies
有一些网站是基于cookies做反爬虫,
这个基本上就是如
@朱添一
所说的,
维护一套Cookies池
注意研究下目标网站的cookies过期事件,
可以模拟浏览器,
定时生成cookies
限速访问
像开多线程,循环无休眠的的暴力爬取数据,
那真是分分钟被封IP的事,
限速访问实现起来也挺简单(用任务队列实现),
效率问题也不用担心,
一般结合IP代理已经可以很快地实现爬去目标内容.
一些坑
大批量爬取目标网站的内容后,
难免碰到红线触发对方的反爬虫机制.
所以适当的告警提示爬虫失效是很有必有的.
一般被反爬虫后,
请求返回的HttpCode为403的失败页面,
有些网站还会返回输入验证码(如豆瓣),
所以检测到403调用失败,
就发送报警,
可以结合一些监控框架,
如Metrics等,
设置短时间内,
告警到达一定阀值后,
给你发邮件,短信等.
当然,
单纯的检测403错误并不能解决所有情况.
有一些网站比较奇葩,
反爬虫后返回的页面仍然是200的(如去哪儿),
这时候往往爬虫任务会进入解析阶段,
解析失败是必然的.
应对这些办法,
也只能在解析失败的时候,
发送报警,
当告警短时间到达一定阀值,
再触发通知事件.
当然这个解决部分并不完美,
因为有时候,
因为网站结构改变,
而导致解析失败,
同样回触发告警.
而你并不能很简单地区分,
告警是由于哪个原因引起的.
万方,维普和中国知网(CNKI)都是比较著名的数据库网站,都是需要收费的。但是可以通过网上公布的免费账号进行下载,或者在百度知道-资源共享-文档共享分类下发帖,通过可以免费下载的用户帮你下载。
如果想要付费下载的话,一般可以通过短信支付或者购买充值卡充值的方式进行,安全性也是有保障的。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)