您好，我现在也要解决一个问题，用Python提取PDF里面的内容，试了好多办法都不成、_框架

calibre自带并硬编码了一些字体文件，这些字体中不包含中文字符，渲染出来的就只能显示成问号了。解决方案是：打开首选项->优化调整->设置在生成默认封面时所使用的字体，分别修改generate_cover_foot_font和 generate_cover_title_font的值来改变封面标题和页脚的字体。比如：generate_cover_title_font=”c:\\windows\\fonts\\simheittf”就可以改用黑体。修改后需要重启calibre才可以生效。如果电脑上没有 simheittf这个字体，也可以换成任意路径下的任意字符文件。

对于0725以前版本的用户：用中文字体替换掉英文字体：在calibre安装目录下找到resources\fonts \liberation目录，用中文字体（比如文泉驿微米黑）替换掉里面的LiberationMono-Regularttf和LiberationSerif-Boldttf即可（删除原来的字体文件，把中文字体文件放进去并改名成这两个名字）。

还有一个解决方案是直接安装Generate Cover插件，用它可以更精细的定制生成的封面样式。可以在首选项->插件->获取新的插件中直接在线安装。

git clone >

首先要下载一个处理pdf的组件pdfminer，百度搜索去官网下载

下载完成解压以后，打开cmd进入用命令安装。python setuppy install 进行安装

我们来测试一下是否安装成功了，引入这个模块，运行一下代码，没有报错就说明安装成功了

官网有文档也有代码示例

from pdfminerpdfparser import PDFParser

from pdfminerpdfdocument import PDFDocument

from pdfminerpdfpage import PDFPage

from pdfminerpdfpage import PDFTextExtractionNotAllowed

from pdfminerpdfinterp import PDFResourceManager

from pdfminerpdfinterp import PDFPageInterpreter

from pdfminerpdfdevice import PDFDevice

fp = open('mypdfpdf', 'rb')

#创建一个PDF文档解析器对象

parser = PDFParser(fp)

#创建一个PDF文档对象存储文档结构

#提供密码初始化，没有就不用传该参数

document = PDFDocument(parser, password)

#检查文件是否允许文本提取

if not documentis_extractable:

raise PDFTextExtractionNotAllowed

#创建一个PDF资源管理器对象来存储共享资源

rsrcmgr = PDFResourceManager()

#创建一个pdf设备对象

device = PDFDevice(rsrcmgr)

#创建一个PDF解析器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

#处理文档当中的每个页面

for page in PDFPagecreate_pages(document):

interpreterprocess_page(page)

我新建一个pdf，新输入一些内容

运行一下代码，看一下效果

以上就是关于您好，我现在也要解决一个问题，用Python提取PDF里面的内容，试了好多办法都不成、全部的内容，包括:您好，我现在也要解决一个问题，用Python提取PDF里面的内容，试了好多办法都不成、、python对PDF进行解析、python怎样读取pdf文件的内容等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9814854.html

您好，我现在也要解决一个问题，用Python提取PDF里面的内容，试了好多办法都不成、

发表评论

评论列表（0条）