如何使用PyPdf逐行读取pdf文件?

如何使用PyPdf逐行读取pdf文件?,第1张

如何使用PyPdf逐行读取pdf文件

看起来您拥有的是要逐行解释的大量文本数据。

您可以使用StringIO类将该内容包装为可搜索的类似文件的对象:

>>> import StringIO>>> content = 'bignuglyncontentsnofnmultiplenpdf files'>>> buf = StringIO.StringIO(content)>>> buf.readline()'bign'>>> buf.readline()'uglyn'>>> buf.readline()'contentsn'>>> buf.readline()'ofn'>>> buf.readline()'multiplen'>>> buf.readline()'pdf files'>>> buf.seek(0)>>> buf.readline()'bign'

对于您的情况,请执行以下 *** 作:

from StringIO import StringIO# Read each line of the PDFpdfContent = StringIO(getPDFContent("test.pdf").enpre("ascii", "ignore"))for line in pdfContent:    doSomething(line.strip())


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5617023.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-15
下一篇2022-12-15

发表评论

登录后才能评论

评论列表(0条)

    保存