
实现方法如下:
加载到XmlDocument,查找p子节点(XPath),如果要在子节点内继续查找,用递归;
string patten_block="<div class=\"wm_sktq_l\">[\\s\\S]</div>"
string patten_p="<p>[\\s\\S]</p>" 用组获取。
1、首先打开hbuilder软件,新建一个html文件,里面写入一个p标签和一个按钮标签。
2、然后在p标签的下方设置一个script标签,里面写入js胆码;先获取p标签和按钮的dom对象,然后给按钮添加一个点击事件,再点击事件爱的回调中alertp标签的text属性即可。
3、最后打开浏览器,可以看到一段文字和一个按钮,点击这个按钮。
4、就可以d出内容了。
你的DIV给个ID,然后可以试着这样来试试,数组形式获取P标签;
documentgetElementById("DIV的ID")getElementsByTagName("p")[0] ------第一个P标签
xpath 如果返回的是多个元素的话,比如你这里就是多个<p> 那就要用到循环
content=""for selector in selxpath('//div[@class="document"]//p'):
content=content+ selectorxpath("/text()")extract()
如果没有嵌套,正则又不熟悉的话,可以简单点,
string s="";
sIndexOf分别查找<p>和</p>,假设查找结果分别为i和j,那么sSubstring(i+3,j-i-3);就是你要的内容了
推荐使用的是 PyCharm,大部分用的都是这个,还有一部分坚守再sublime text上:
mport urllib
from BeautifulSoup import BeautifulSoup
url = 连接;
allData=
content = urlliburlopen(url)read()
soup = BeautifulSoup(content)
tags1 = soupfindAll('tr', {class: even right})
tags2 = soupfindAll('tr', {class: odd right})
上面的就是利用写的一些代码,是要取出网页中class 为even right 的所有tr和所有class为odd right的所有tr取出之后就可以打印出他的内容。
以上就是关于xpath怎么抓取<div>下的所有<p>标签的文字全部的内容,包括:xpath怎么抓取<div>下的所有<p>标签的文字、怎么用JS获取HTML标签内的内容、一个div下边有多个p标签中 如何提取其中具体一个的内容 这些p标签都没有标记属性无法通过#id、.class获取等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)