如何使用PyPdf逐行读取pdf文件？

全民经纪人•2022-12-15•随笔•阅读25

如何使用PyPdf逐行读取pdf文件？

看起来您拥有的是要逐行解释的大量文本数据。

您可以使用StringIO类将该内容包装为可搜索的类似文件的对象：

>>> import StringIO>>> content = 'bignuglyncontentsnofnmultiplenpdf files'>>> buf = StringIO.StringIO(content)>>> buf.readline()'bign'>>> buf.readline()'uglyn'>>> buf.readline()'contentsn'>>> buf.readline()'ofn'>>> buf.readline()'multiplen'>>> buf.readline()'pdf files'>>> buf.seek(0)>>> buf.readline()'bign'

对于您的情况，请执行以下 *** 作：

from StringIO import StringIO# Read each line of the PDFpdfContent = StringIO(getPDFContent("test.pdf").enpre("ascii", "ignore"))for line in pdfContent:    doSomething(line.strip())

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/5617023.html

文件读取文本对象执行

打赏

微信扫一扫

支付宝扫一扫

全民经纪人一级用户组

在python中将一个csv拆分为多个文件

上一篇 2022-12-15

如何在Python 3中计算移动平均值？

下一篇2022-12-15

发表评论

登录后才能评论

评论列表（0条）