Python爬虫实战（3）selenium完成瀑布流数据爬取_sql

爬取时间：2021/01/27

系统环境：Windows 10

所用工具：Jupyter Notebook\Python 3.0

涉及的库：selenium\time\pandas\matplotlib\jieba\stylecloud

蛋肥想法： 借助selenium，实现对“查看更多”的自动点击，目标是获取2020年的文章相关数据。

蛋肥想法： 36氪的数据很满足强迫症，没有空格换行，只需筛选出2020年的数据保存。

蛋肥想法： 此次重点是学习selenium，所以只简单做一下数据可视化。

Selenium是一个基于浏览器的自动化工具，它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分：

· Selenium IDE： Firefox浏览器的一个插件（扩展），它可以进行录制回放，并且可以把录制的 *** 作以多种语言（如JAVA、Python、C#等）的形式导出成测试用例。

· Selenium WebDriver：提供Web自动化所需的API，主要用作浏览器控制、页面元素选择和调试。不同的浏览器需要不同的WebDriver。

· Selenium Grid：提供了在不同机器的不同浏览器上运行selenium测试的能力。

这里的框架主要使用Python结合Selenium WebDriver库进行搭建的。通常，一个典型的自动化测试框架一般包括用例管理模板、自动化执行控制器、报表生成模块、日志模块和邮件发送模块等。

欢迎分享，转载请注明来源：内存溢出

Python爬虫实战（3）selenium完成瀑布流数据爬取