如何使用python爬取知乎数据并做简单分析_框架

一、使用的技术栈：

爬虫：python27 +requests+json+bs4+time

分析工具： ELK套件

开发工具：pycharm

数据成果简单的可视化分析

1性别分布

0 绿色代表的是男性 ^ ^

1 代表的是女性

-1 性别不确定

可见知乎的用户男性颇多。

二、粉丝最多的top30

粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。

三、写文章最多的top30

四、爬虫架构

爬虫架构图如下：

说明：

选择一个活跃的用户（比如李开复）的url作为入口url并将已爬取的url存在set中。

抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。

解析该用户的个人信息，并存取到本地磁盘。

logstash取实时的获取本地磁盘的用户数据，并给elsticsearchkibana和elasticsearch配合，将数据转换成用户友好的可视化图形。

五、编码

爬取一个url:

解析内容：

存本地文件：

代码说明：

需要修改获取requests请求头的authorization。

需要修改你的文件存储路径。

源码下载：点击这里，记得star哦！>

最近读取数据的时候时候经常出现科学计数法，非常烦人。

解决方法：

读取：

pandasread_excel(path, dtype='str')

保存成excel时，先把该列给转为字符型，然后再存储就可以。

这是之前存的表，有点问题；

改为：

data3['user_id'] = data3['user_id']astype('str')

然后再 data3to_excel()

大功告成！

以上就是关于如何使用python爬取知乎数据并做简单分析全部的内容，包括:如何使用python爬取知乎数据并做简单分析、python 读取大文件数据怎么快速读取、python读取或保存excel出现科学计数法问题等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

如何使用python爬取知乎数据并做简单分析