
信息标记后有很多好处:
比如,HTML是超文本信息集(文本,声音,图像,视频),是WWW的信息组织方式。HTML以标签的方式标记信息。
信息标记的形式有以下三种,XML,JSON,YAML。
一个XML文档内容如下:
JSON对象的好处是可以直接作为JavaScript对象进行使用,需要注意的是,JSON文件是不允许加注释的,否则会解析错误。一个JSON文件内容如下:
一个YAML文件内容如下:
以上三种文件的信息提取都需要解析器,比如通过bs4库的标签树进行遍历,但速度较慢。也可以直接进行搜索,找到相关的信息。可借助正则表达式(re)来实现,bs4库和re库结合使用。
Markdown 等其它「Markup Language」在功能上可以一定程度的代替 HTML 的一个子集。YAML(YAML Ain't Markup Language)ain't mark language,不是标记语言,所以与 HTML 的功能是不重合的。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)