
一、使用的技术栈:
爬虫:python27 +requests+json+bs4+time
分析工具: ELK套件
开发工具:pycharm
数据成果简单的可视化分析
1性别分布
0 绿色代表的是男性 ^ ^
1 代表的是女性
-1 性别不确定
可见知乎的用户男性颇多。
二、粉丝最多的top30
粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。
三、写文章最多的top30
四、爬虫架构
爬虫架构图如下:
说明:
选择一个活跃的用户(比如李开复)的url作为入口url并将已爬取的url存在set中。
抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。
解析该用户的个人信息,并存取到本地磁盘。
logstash取实时的获取本地磁盘的用户数据,并给elsticsearchkibana和elasticsearch配合,将数据转换成用户友好的可视化图形。
五、编码
爬取一个url:
解析内容:
存本地文件:
代码说明:
需要修改获取requests请求头的authorization。
需要修改你的文件存储路径。
源码下载:点击这里,记得star哦!>
最近读取数据的时候时候经常出现科学计数法,非常烦人。
解决方法:
读取:
pandasread_excel(path, dtype='str')
保存成excel时,先把 该列给转为字符型,然后再存储就可以。
这是之前存的表,有点问题;
改为:
data3['user_id'] = data3['user_id']astype('str')
然后再 data3to_excel()
大功告成!
以上就是关于如何使用python爬取知乎数据并做简单分析全部的内容,包括:如何使用python爬取知乎数据并做简单分析、python 读取大文件数据怎么快速读取、python读取或保存excel出现科学计数法问题等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)