
python 中还有很多库可以处理 pdf,比如 PyPDF2、pdfminer 等,本文选择pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息,包括作者、来源、日期等,并且用于提取文本和表格的方法灵活可定制。大家可以根据手头数据需求,再去解锁 pdfplumber 的更多用法。
pdftabextract是一个Python库,可以用来提取PDF文件中的表格数据。它支持多种文件格式,包括PDF,Excel,CSV等。使用pdftabextract可以快速提取出PDF文件中的表格,并将其转换为可编辑的文本格式,如CSV或Excel。使用pdftabextract可以更轻松地提取PDF文件中的表格数据,并将其转换为可编辑的文本格式,以便进行进一步的分析和处理。pdftabextract的使用非常简单,只需要提供PDF文件的路径,就可以轻松提取出其中的表格数据。我最近就在干这件事……简单来说,用pdftables就可以了写完代码的补充:
转成excel后,因为python不能在已存在的excel文件上改,所以我的办法是用pandas df转成matrix。然后处理二维数组。
再写到最终的excel。
「老子终于写完了」
啊哈!听说过abbyy finerreader嘛!解决一切问题!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)