python如何将htnl源码转换为dom树，有源码最好，谢谢_随笔

import sys

"""本python脚本将代码文件转换成可以在html中显示的格式

"""

def escape(text):

"""将text文本中的空格、&、<、>、（"）、（'）转化成对应的的字符实体，以方便在html上显示

"""

text=text.replace('&','&')

text=text.replace(' ',' ')

text=text.replace('<','<')

text=text.replace('>','>')

text=text.replace('"','"')

text=text.replace('\'',''')

return text

def changetohtml(text):

"""将text以行为单位加上<li></li>标签

"""

lines=text.split('\n')

i=0

for line in lines:

lines[i]='<li>'+line+'</li>'

i+=1

text=''.join(lines)

return text

try:

filename=input('请输入文件名:')

filename=filename.replace('\r','')#在控制台中输入回车后文件名会多一个'\r'，需要去掉

f=open(filename,encoding='utf8')

t=f.read()

f.close()

t=escape(t)

t=changetohtml(t)

f=open(filename+'生成的html代码.txt','wt',encoding='utf8')

f.write(t)

f.close()

except:

print("Unexpected error:", sys.exc_info()[0],sys.exc_info()[1])

input('按回车键退出...')

可以使用Python自带的HTMLParser模块解析HTML文档：

HTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：

public Parser ()

public Parser (Lexer lexer, ParserFeedback fb)

public Parser (URLConnection connection, ParserFeedback fb) throws ParserException

public Parser (String resource, ParserFeedback feedback) throws ParserException

public Parser (String resource) throws ParserException

public Parser (Lexer lexer)

public Parser (URLConnection connection) throws ParserException

和一个静态类public static Parser createParser (String html, String charset)

我这里：

【教程】抓取网并提取网页中所需要的信息之 Python版

有代码和注释。

不过，看这个之前，你最好参考：

【整理】关于抓取网页，分析网页内容，模拟登陆网站的逻辑/流程和注意事项

去了解网站抓取相关的逻辑，然后再参考：

【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程

去抓取你所要处理的网站的内在执行逻辑。

(此处不给贴地址，请自己用google搜索帖子标题，即可找到帖子地址)

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/7086570.html

python如何将htnl源码转换为dom树，有源码最好，谢谢

发表评论

评论列表（0条）