如何使用selenium获取特定元素的html源代码?

如何使用selenium获取特定元素的html源代码?,第1张

概述我正在查看的页面包含: <div id='1'> <p> text 1 <h1> text 2 </h1> text 3 <p> text 4 </p> </p> </div> 我想获取div中的所有文本,除了< h>中的文本. (我想得到“文字1”,“文字3”和“文字4”) 可能有一些< h>元素,或根本没有. 并且可能存在一些< p>元素,甚至一个在另一个内部,或者没有. 我想通过获取div的 我正在查看的页面包含:
<div ID='1'> <p> text 1 <h1> text 2 </h1> text 3 <p> text 4 </p> </p> </div>

我想获取div中的所有文本,除了< h>中的文本.
(我想得到“文字1”,“文字3”和“文字4”)
可能有一些< h>元素,或根本没有.
并且可能存在一些< p>元素,甚至一个在另一个内部,或者没有.

我想通过获取div的所有HTML源代码并使用正则表达式删除< h>来实现此目的.元素.但selenium.get_text不会返回HTML,只返回文本(全部!).

我知道我可以使用selenium.get_HTML_source,然后用正则表达式查找我需要的元素,但这看起来很浪费,因为selenium知道如何找到元素.

有没有人有更好的解决方案?
谢谢 :)

解决方法 以下代码将为您提供div元素中的HTML:
sel = selenium('localhost',4444,browser,my_url)HTML = sel.get_eval("this.browserbot.getCurrentwindow().document.getElementByID('1').INNERHTML")

然后你可以使用BeautifulSoup来解析它并提取你真正想要的东西.

我希望它有所帮助

总结

以上是内存溢出为你收集整理的如何使用selenium获取特定元素的html源代码?全部内容,希望文章能够帮你解决如何使用selenium获取特定元素的html源代码?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/1137276.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-30
下一篇2022-05-30

发表评论

登录后才能评论

评论列表(0条)

    保存