Java的HTMLXML解析器

Java的HTMLXML解析器,第1张

Java的HTML / XML解析

ApacheTika是最佳选择。Apache最近从现有项目提取了许多子项目并将其公开。提卡(Tika)是其中之一,以前是Apache
Lucene的组件。由于Apache的支持和声誉以及广泛使用的父项目Lucene,它肯定是一个很好的选择。此外,它是开源的。

Apache Tika网站的简要介绍:

Apache Tika™工具箱使用现有的解析器库从各种文档中检测并提取元数据和结构化文本内容。

支持的格式有:

HyperText Markup LanguageXML and derived formatsMicrosoft Office document formatsOpendocument FormatPortable document FormatElectronic Publication FormatRich Text FormatCompression and packaging formatsText formatsAudio formatsImage formatsVideo formatsJava class files and archivesThe mbox format


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5621075.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-15
下一篇2022-12-15

发表评论

登录后才能评论

评论列表(0条)

    保存