Java：Apache POI：我可以从MS Word（.doc）文件中获取纯文本吗？_随笔

Java：Apache POI：我可以从MS Word（.doc）文件中获取纯文本吗？

有两种选择，一种直接在Apache POI中提供，另一种通过Apache Tika（内部使用Apache POI）提供。

第一种选择是使用

WordExtractor

，但是

stripFields(String)

在调用它时将其包装到。这将删除包含在文本中的基于文本的字段，例如您所看到的HYPERlink。您的代码将变为：

NPOIFSFileSystem fs = new NPOIFSFileSytem(file);WordExtractor extractor = new WordExtractor(fs.getRoot());for(String rawText : extractor.getParagraphText()) {String text = extractor.stripFields(rawText);System.out.println(text);}

另一种选择是使用Apache
Tika
。Tika为多种文件提供文本提取和元数据，因此相同的代码也适用于.doc，.docx，.pdf和许多其他文件。为了获得Word文档的纯净纯文本（如果愿意，您还可以获取XHTML），您可以执行以下 *** 作：

TikaConfig tika = TikaConfig.getDefaultConfig();TikaInputStream stream = TikaInputStream.get(file);ContentHandler handler = new BodyContentHandler();metadata metadata = new metadata();tika.getParser().parse(input, handler, metadata, new ParseContext());String text = handler.toString();

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/5134033.html

Java：Apache POI：我可以从MS Word（.doc）文件中获取纯文本吗？

发表评论

评论列表（0条）