基于PDFBox的PDF文字坐标抽取API文档

基于PDFBox的PDF文字坐标抽取API文档,第1张

comaistronganalysispdfservice

public ArrayList<List<WordWithTextPositions>> readWordWithTextPositions(String path)

path - pdf文件存储路径

ArrayList<List<WordWithTextPositions>>

每个WordWithTextPositions对象中存储了1行(参看注意)中所有字符,其中每个字符对应一个TextPosition对象,每个TextPosition存储了该字符所有相关信息,包含字符、坐标等,详细介绍参看pdfBox API文档 Class TextPosition

输出:

使用过刻岸PDF转换器 *** 作过PDF页面提取,还挺方便方便,安装完PDF转换器后打开,选择“PDF *** 作”分类下的“PDF提前页面”⌄添加PDF文件,输入需要提取的第几页,点击开始提取就行。可以同时提取指定的多页,效率杠杠的。

以上就是关于基于PDFBox的PDF文字坐标抽取API文档全部的内容,包括:基于PDFBox的PDF文字坐标抽取API文档、PDF怎么提取想要的页面、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9877440.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-02
下一篇2023-05-02

发表评论

登录后才能评论

评论列表(0条)

    保存