用python批量提取pdf的表格数据,保存为excel

用python批量提取pdf的表格数据,保存为excel,第1张

pdfplumber 是一个开源 python 工具库-,可以方便地获取 pdf 的各种信息,包括文本、表格、图表、尺寸等。完成我们本文的需求,主要使用 pdfplumber 提取 pdf 表格数据

python 中还有很多库可以处理 pdf,比如 PyPDF2、pdfminer 等,本文选择pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息,包括作者、来源、日期等,并且用于提取文本和表格的方法灵活可定制。大家可以根据手头数据需求,再去解锁 pdfplumber 的更多用法。

pdftabextract是一个Python库,可以用来提取PDF文件中的表格数据。它支持多种文件格式,包括PDF,Excel,CSV等。使用pdftabextract可以快速提取出PDF文件中的表格,并将其转换为可编辑的文本格式,如CSV或Excel。使用pdftabextract可以更轻松地提取PDF文件中的表格数据,并将其转换为可编辑的文本格式,以便进行进一步的分析和处理。pdftabextract的使用非常简单,只需要提供PDF文件的路径,就可以轻松提取出其中的表格数据。

我最近就在干这件事……简单来说,用pdftables就可以了

写完代码的补充:

转成excel后,因为python不能在已存在的excel文件上改,所以我的办法是用pandas df转成matrix。然后处理二维数组。

再写到最终的excel。

「老子终于写完了」

啊哈!听说过abbyy finerreader嘛!解决一切问题!


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9855475.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-02
下一篇2023-05-02

发表评论

登录后才能评论

评论列表(0条)

    保存