用python批量提取pdf的表格数据，保存为excel_sql

pdfplumber 是一个开源 python 工具库-，可以方便地获取 pdf 的各种信息，包括文本、表格、图表、尺寸等。完成我们本文的需求，主要使用 pdfplumber 提取 pdf 表格数据。

python 中还有很多库可以处理 pdf，比如 PyPDF2、pdfminer 等，本文选择pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息，包括作者、来源、日期等，并且用于提取文本和表格的方法灵活可定制。大家可以根据手头数据需求，再去解锁 pdfplumber 的更多用法。

pdftabextract是一个Python库，可以用来提取PDF文件中的表格数据。它支持多种文件格式，包括PDF，Excel，CSV等。使用pdftabextract可以快速提取出PDF文件中的表格，并将其转换为可编辑的文本格式，如CSV或Excel。使用pdftabextract可以更轻松地提取PDF文件中的表格数据，并将其转换为可编辑的文本格式，以便进行进一步的分析和处理。pdftabextract的使用非常简单，只需要提供PDF文件的路径，就可以轻松提取出其中的表格数据。

我最近就在干这件事……简单来说，用pdftables就可以了

写完代码的补充：

转成excel后，因为python不能在已存在的excel文件上改，所以我的办法是用pandas df转成matrix。然后处理二维数组。

再写到最终的excel。

「老子终于写完了」

啊哈！听说过abbyy finerreader嘛！解决一切问题！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9855475.html

用python批量提取pdf的表格数据，保存为excel

发表评论

评论列表（0条）