
comaistronganalysispdfservice
public ArrayList<List<WordWithTextPositions>> readWordWithTextPositions(String path)
path - pdf文件存储路径
ArrayList<List<WordWithTextPositions>>
每个WordWithTextPositions对象中存储了1行(参看注意)中所有字符,其中每个字符对应一个TextPosition对象,每个TextPosition存储了该字符所有相关信息,包含字符、坐标等,详细介绍参看pdfBox API文档 Class TextPosition
输出:
使用过刻岸PDF转换器 *** 作过PDF页面提取,还挺方便方便,安装完PDF转换器后打开,选择“PDF *** 作”分类下的“PDF提前页面”⌄添加PDF文件,输入需要提取的第几页,点击开始提取就行。可以同时提取指定的多页,效率杠杠的。
以上就是关于基于PDFBox的PDF文字坐标抽取API文档全部的内容,包括:基于PDFBox的PDF文字坐标抽取API文档、PDF怎么提取想要的页面、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)