Python爬虫实战(3)selenium完成瀑布流数据爬取

Python爬虫实战(3)selenium完成瀑布流数据爬取,第1张

爬取时间:2021/01/27

系统环境:Windows 10

所用工具:Jupyter Notebook\Python 3.0

涉及的库:selenium\time\pandas\matplotlib\jieba\stylecloud

蛋肥想法: 借助selenium,实现对“查看更多”的自动点击,目标是获取2020年的文章相关数据

蛋肥想法: 36氪的数据很满足强迫症,没有空格换行,只需筛选出2020年的数据保存。

蛋肥想法: 此次重点是学习selenium,所以只简单做一下数据可视化。

Selenium是一个基于浏览器的自动化工具,它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分:

· Selenium IDE: Firefox浏览器的一个插件(扩展),它可以进行录制回放,并且可以把录制的 *** 作以多种语言(如JAVA、Python、C#等)的形式导出成测试用例。

· Selenium WebDriver: 提供Web自动化所需的API,主要用作浏览器控制、页面元素选择和调试。不同的浏览器需要不同的WebDriver。

· Selenium Grid: 提供了在不同机器的不同浏览器上运行selenium测试的能力。

这里的框架主要使用Python结合Selenium WebDriver库进行搭建的。通常,一个典型的自动化测试框架一般包括用例管理模板、自动化执行控制器、报表生成模块、日志模块和邮件发送模块等。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/6843898.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-29
下一篇2023-03-29

发表评论

登录后才能评论

评论列表(0条)

    保存