
该页面使用了损坏的HTML,并且不同的解析器将尝试以不同的方式对其进行修复。安装
lxml解析器,它将更好地解析该页面:
>>> BeautifulSoup(html, 'html.parser').find("div",{"id":"cntPos"}).find("table",{"class":"cntTb"}).tbody.find_all("tr")[1].find("td",{"class":"cntBoxGreyLnk"}) is NoneTrue>>> BeautifulSoup(html, 'lxml').find("div",{"id":"cntPos"}).find("table",{"class":"cntTb"}).tbody.find_all("tr")[1].find("td",{"class":"cntBoxGreyLnk"}) is NoneFalse这并不意味着
lxml它将比其他解析器选项更好地处理 所有 损坏的HTML。还要看一下WHATWG
HTML规范
html5lib的纯Python实现,因此将更密切地关注当前浏览器实现如何处理损坏的HTML。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)