python爬虫如何提取br标签

python爬虫如何提取br标签,第1张

from pyquery import PyQuery as Q

html = '''

<div style="position: absolute; display: none; border-style: solid; white-space: nowrap; z-index: 9999999; transition: left 04s cubic-bezier(023, 1, 032, 1), top 04s cubic-bezier(023, 1, 032, 1); background-color: rgba(50, 50, 50, 07); border-width: 0px; border-color: rgb(51, 51, 51); border-radius: 4px; color: rgb(255, 255, 255); font-style: normal; font-variant: normal; font-weight: normal; font-stretch: normal; font-size: 14px; font-family: "Microsoft YaHei"; line-height: 21px; padding: 5px; left: 620518px; top: 173333px;">

20170712

<br>

行业中位数:35,326

<br>

支付宝:4

<br>

</div>

'''

print Q(html)text()

知识点:

知识点:了解 driver对象的常用属性和方法

注意:最新版本的selenium已经取消了这种格式,取而代之的是:

你要先导入:

然后再:

知识点:掌握 driver对象定位标签元素获取标签对象的方法

代码实现,如下,获取腾讯新闻首页的新闻标签的内容。

知识点:掌握 元素对象的 *** 作方法

参考代码示例:

知识点:掌握 selenium控制标签页的切换

知识点:掌握 selenium控制frame标签的切换

知识点:掌握 利用selenium获取cookie的方法

知识点:掌握 selenium控制浏览器执行js代码的方法

知识点:掌握 手动实现页面等待

知识点:掌握 selenium开启无界面模式

知识点:了解 selenium使用**

知识点:了解 selenium替换user-agent

在工程中新建一个Python Package(包),右键点击src, New>PydevPackage,选择源文件路径及输入包名: 在_init_py,输入print (“Hello World”),按F9即可看到输出结果,说明开发环境安装成功!

如果是中间的数据直接就用bs4最简单

from bs4 import BeautifulSoup

#这里是请求过来的额数据处理,提取标签

html = BeautifulSoup(responsetext, 'htmlparser')

body = htmlbody       # 获取body部分数据

div = bodyfind("div",{'id','today'}) #用find去找div标签,id叫 today的标签里面的数据

就可以了

如果要提取标签内容比如value的值

div = bodyfind("input",id='hidden_title')['value']

这是开发者工具解析到的一个论坛页面结构。。

可以看到每一个a标签和br标签之间总会夹着一个text,,也就是密码文本。而我根据网上的

API教程:

siblingA ~ siblingX: 查找A元素之前的同级X元素,比如:h1 ~ p

写成这样

Elements links_1 = tdsmselect("#postmessage_24532691>br~text");

然后打印_links_1size为0也就是并没有匹配到一个元素

特此求正确写法

1、用找的标签调用一下text()这个方法就可以得到两个标签之间的内容了

2、Element对象的textNodes()或ownText()方法。

以上就是关于python爬虫如何提取br标签全部的内容,包括:python爬虫如何提取br标签、从零开始学python爬虫(八):selenium提取数据和其他使用方法、Python+Selenium+PhantomJs爬虫 怎么抓取d出新标签页的内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9680748.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-30
下一篇2023-04-30

发表评论

登录后才能评论

评论列表(0条)

    保存