如何在 Linux 上使用 Python 读取 word 文件信息

如何在 Linux 上使用 Python 读取 word 文件信息,第1张

必须说明:不同于

Illustrator

、InDesign、

CorelDRAW

OpenOffice

DRAW、Incscape等工具,Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。

(简而言之就是:Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页。当然真正的Word

渲染引擎

肯定有更复杂的行为。)

从doc/docx文件中直接读出页面数量,这本身就是个

伪命题

。所以千万别在“直接读取页面数量”这个方向上寻求方案——软件开发的技法不好可以改正,但路线错了必死无疑!

你需要调动一套能够真的把Word文件的内容渲染出来的工具(支持

二次开发

的)。只有把Word文件的所有内容渲染成为可以观看的图形,才能准确得知页面的总数。在Linux上很可能

LibreOffice

可以吧。而在Windows上就当然是用Word本身了。

注意Word的分页结论是没有保证的。缺少字体、字形不同、

软件环境

不同等各种原因,都会造成不同电脑上打开同一个Word文件的页数不一致。这一点对服务器也没有例外。得到了页数也只能参考使用,而不要100%信赖。

遍历啥意思,获取啥意思,就是全弄走么,

这个可以find 和tar组合,都提取的话,tar -czvf 备份tgz 要提取的文件,

要只找几个文件,可以先find,然后加入打包,注意压缩的话就不能追加入包了。

find 位置 找啥 --exec tar -rvf 备份tar {} \;

linux中文件查找命令有很多,一般文件分类为两种,一种是应用程序,即二进制文件,一种是文档,即文本文件。对于前者,我们一般使用whereis、which等命令,对于后者,我们习惯使用find命令,当然find命令是linux是最强大的文件搜索命令。下面简单的介绍了这几个命令的用法。

命令1:which

"which 命令" 查找且只能查找命令所在目录

例如:which ls

命令2:whereis

"whereis 命令" 查找且只能查找命令所在目录 + 帮助文档位置

whereis 命令

命令位置+帮助文档位置

命令3:find

"find 路径 查找方式 参数" 可以查找任何文件

查找方式有很多种:

1根据文件名查找

查找方式:-name

例如: find /t3 -name file1

注:文件名可以用通配符

如果是通过命令行交互式的:

ftp server_ip

提示输入用户名:输入你的ftp用户名

提示输入密码:输入ftp用户的密码

切换为bin模式:b或者bin命令

用get命令接完整文件名:get your_file

用wget+通配符模式获取多个文件:wget txt

退出ftp:bye

以上就是关于如何在 Linux 上使用 Python 读取 word 文件信息全部的内容,包括:如何在 Linux 上使用 Python 读取 word 文件信息、linux下面如何遍历目录获取文件、linux中利用ls -lh如何查看目录中文件的信息,而不是目录本身的信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9457441.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-28
下一篇2023-04-28

发表评论

登录后才能评论

评论列表(0条)

    保存