为什么BeautifulSoup没有找到特定的表类?

为什么BeautifulSoup没有找到特定的表类?,第1张

为什么BeautifulSoup没有找到特定的表类?

页面使用了损坏的HTML,并且不同的解析器将尝试以不同的方式对其进行修复。安装

lxml
解析器,它将更好地解析该页面:

>>> BeautifulSoup(html, 'html.parser').find("div",{"id":"cntPos"}).find("table",{"class":"cntTb"}).tbody.find_all("tr")[1].find("td",{"class":"cntBoxGreyLnk"}) is NoneTrue>>> BeautifulSoup(html, 'lxml').find("div",{"id":"cntPos"}).find("table",{"class":"cntTb"}).tbody.find_all("tr")[1].find("td",{"class":"cntBoxGreyLnk"}) is NoneFalse

这并不意味着

lxml
它将比其他解析器选项更好地处理 所有 损坏的HTML。还要看一下WHATWG
HTML规范
html5lib
的纯Python实现,因此将更密切地关注当前浏览器实现如何处理损坏的HTML。



欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5646287.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-16
下一篇2022-12-16

发表评论

登录后才能评论

评论列表(0条)

    保存