
爬取时间:2021/01/27
系统环境:Windows 10
所用工具:Jupyter Notebook\Python 3.0
涉及的库:selenium\time\pandas\matplotlib\jieba\stylecloud
蛋肥想法: 借助selenium,实现对“查看更多”的自动点击,目标是获取2020年的文章相关数据。
蛋肥想法: 36氪的数据很满足强迫症,没有空格换行,只需筛选出2020年的数据保存。
蛋肥想法: 此次重点是学习selenium,所以只简单做一下数据可视化。
Selenium是一个基于浏览器的自动化工具,它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分:
· Selenium IDE: Firefox浏览器的一个插件(扩展),它可以进行录制回放,并且可以把录制的 *** 作以多种语言(如JAVA、Python、C#等)的形式导出成测试用例。
· Selenium WebDriver: 提供Web自动化所需的API,主要用作浏览器控制、页面元素选择和调试。不同的浏览器需要不同的WebDriver。
· Selenium Grid: 提供了在不同机器的不同浏览器上运行selenium测试的能力。
这里的框架主要使用Python结合Selenium WebDriver库进行搭建的。通常,一个典型的自动化测试框架一般包括用例管理模板、自动化执行控制器、报表生成模块、日志模块和邮件发送模块等。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)