为什么BeautifulSoup没有找到特定的表类？

心碎乌托邦•2022-12-16•随笔•阅读38

为什么BeautifulSoup没有找到特定的表类？

该页面使用了损坏的HTML，并且不同的解析器将尝试以不同的方式对其进行修复。安装

lxml

解析器，它将更好地解析该页面：

>>> BeautifulSoup(html, 'html.parser').find("div",{"id":"cntPos"}).find("table",{"class":"cntTb"}).tbody.find_all("tr")[1].find("td",{"class":"cntBoxGreyLnk"}) is NoneTrue>>> BeautifulSoup(html, 'lxml').find("div",{"id":"cntPos"}).find("table",{"class":"cntTb"}).tbody.find_all("tr")[1].find("td",{"class":"cntBoxGreyLnk"}) is NoneFalse

这并不意味着

lxml

它将比其他解析器选项更好地处理所有损坏的HTML。还要看一下WHATWG
HTML规范

html5lib

的纯Python实现，因此将更密切地关注当前浏览器实现如何处理损坏的HTML。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/5646287.html

解析损坏页面修复特定

打赏

微信扫一扫

支付宝扫一扫

心碎乌托邦一级用户组

推送被拒绝，无法编译Python应用

上一篇 2022-12-16

在Python中编写一个可在Windows中同时适用于Python 2.7+和Python 3.3+的.CSV文件

下一篇2022-12-16

发表评论

登录后才能评论

评论列表（0条）