Python Word文档处理上篇：python-docx_框架

某天我收到一个需求：希望能够用python对word文档进行一些处理，比如更换一些文字以及添加批注。

简单搜索后，我发现 python-docx 是一个处理docx文档的常用python库，因此我打算用它来进行进一步开发。

官方文档提供了一个简单的示例

python-docx 将文档抽象为document对象、paragraph对象以及run对象，提供了围绕这些对象进行简单处理的API

然而在文档中并没有出现关于批注 *** 作的部分，我在搜寻一些文章后发现了在某个 issue 中提及了添加批注相关信息，然而还是没有得到具体的解决办法

docx文档底层是由XML文件组成的

我们可以将一个 xxdocx 文件的后缀名改为 rar 然后将其手动解压，可以得到下面这些文件

在诸多文件当中主要用到的是 documentxml 文件，这里保存了文档的内容

打开一份 documentxml 文件，抛开header、footer、table以及其他特殊项，去掉样式等修饰项，一份朴素的docx文档主要可以分为三个部分：paragraph、run、text

paragraph即段落，就是我们在word当中看到的一段。text即文本，就是真实的内容。run比较抽象，我们可以将其理解为片段，即语句的切分。

为了更好地理解run是什么，打开一篇word文档定位其中一句话

让我们看看这篇文档解压之后的 documentxml 文件中对应的部分

OK，我们可以看到原本完整的一句话在word中被拆分成了许多个 <w:r> 标签，这就是 run ，word切分 run 的规则很多，有的根据标点符号，有的根据中文分词，句子中如果存在不同样式的字词也会单独切分出来，因此我们很难预估一句话究竟会被分成几个片段。

在issue中搜索comment关键字发现在一个 merge request 上已经给出了添加批注的解决方案，可以通过 paragraph 对象上的 add_comment 方法给一个段落添加批注

但这还是不符合我的需求，我的目标是精准添加到某个词或者短语上

打开这个贡献者的源码进行研究

其实就是在P标签内插入comment标签引用，同时添加comment标签到xx文件

同理我们可以在r标签内插入comment标签引用，同时添加comment标签到xx文件，这样就能实现给特定词添加批注的需求了

最近由于经常要用到Excel，需要根据Excel表格中的内容对一些apk进行处理，手动处理很麻烦，于是决定写脚本来处理。首先贴出网上找来的读写Excel的脚本。

1读取Excel(需要安装xlrd)：

123456789101112131415161718192021222324#-- coding: utf8 --import xlrd fname = "reflectxls"bk = xlrdopen_workbook(fname)shxrange = range(bknsheets)try: sh = bksheet_by_name("Sheet1")except: print "no sheet in %s named Sheet1" % fname#获取行数nrows = shnrows#获取列数ncols = shncolsprint "nrows %d, ncols %d" % (nrows,ncols)#获取第一行第一列数据cell_value = shcell_value(1,1)#print cell_value row_list = []#获取各行数据for i in range(1,nrows): row_data = shrow_values(i) row_listappend(row_data)

2写入Excel（需安装pyExcelerator）

12345678from pyExcelerator import w = Workbook() #创建一个工作簿ws = wadd_sheet('Hey, Hades') #创建一个工作表wswrite(0,0,'bit') #在1行1列写入bitwswrite(0,1,'huang') #在1行2列写入huangwswrite(1,0,'xuan') #在2行1列写入xuanwsave('minixls') #保存

3再举个自己写的读写Excel的例子

读取reflectxls中的某些信息进行处理后写入minixls文件中。　

1234567891011121314151617181920212223242526272829303132333435363738394041424344#-- coding: utf8 --import xlrdfrom pyExcelerator import w = Workbook()ws = wadd_sheet('Sheet1') fname = "reflectxls"bk = xlrdopen_workbook(fname)shxrange = range(bknsheets)try: sh = bksheet_by_name("Sheet1")except: print "no sheet in %s named Sheet1" % fname nrows = shnrowsncols = shncolsprint "nrows %d, ncols %d" % (nrows,ncols) cell_value = shcell_value(1,1)#print cell_value row_list = []mydata = []for i in range(1,nrows): row_data = shrow_values(i) pkgdatas = row_data[3]split(',') #pkgdatassplit(',') #获取每个包的前两个字段 for pkgdata in pkgdatas: pkgdata = ''join((pkgdatasplit(''))[:2]) mydataappend(pkgdata) #将列表排序 mydata = list(set(mydata)) print mydata #将列表转化为字符串 mydata = ','join(mydata) #写入数据到每行的第一列 wswrite(i,0,mydata) mydata = [] row_listappend(row_data[3])#print row_list wsave('minixls')

4现在我需要根据Excel文件中满足特定要求的apk的md5值来从服务器获取相应的apk样本，就需要这样做：　

123456789101112131415161718192021222324252627282930313233#--coding:utf8--import xlrdimport osimport shutil fname = "/excelnamexls"bk = xlrdopen_workbook(fname)shxrange = range(bknsheets)try: #打开Sheet1工作表 sh = bksheet_by_name("Sheet1")except: print "no sheet in %s named Sheet1" % fname#获取行数nrows = shnrows#获取列数ncols = shncols#print "nrows %d, ncols %d" % (nrows,ncols)#获取第一行第一列数据cell_value = shcell_value(1,1)#print cell_value row_list = []#range(起始行,结束行)for i in range(1,nrows): row_data = shrow_values(i) if row_data[6] == "HXB": filename = row_data[3]+"apk" #print "%s %s %s" %(i,row_data[3],filename) filepath = r"/1/"+filename print "%s %s %s" %(i,row_data[3],filepath) if ospathexists(filepath): shutilcopy(filepath, r"/myapk/")

补充一个使用xlwt3进行Excel文件的写 *** 作。

1234567891011121314151617181920212223242526import xlwt3 if __name__ == '__main__': datas = [['a', 'b', 'c'], ['d', 'e', 'f'], ['g', 'h']]#二维数组 file_path = 'D:\\testxlsx' wb = xlwt3Workbook() sheet = wbadd_sheet('test')#sheet的名称为test #单元格的格式 style = 'pattern: pattern solid, fore_colour yellow; '#背景颜色为** style += 'font: bold on; '#粗体字 style += 'align: horz centre, vert center; '#居中 header_style = xlwt3easyxf(style) row_count = len(datas) col_count = len(datas[0]) for row in range(0, row_count): col_count = len(datas[row]) for col in range(0, col_count): if row == 0:#设置表头单元格的格式 sheetwrite(row, col, datas[row][col], header_style) else: sheetwrite(row, col, datas[row][col]) wbsave(file_path)

输出的文件内容如下图：

注：以上代码在Python 3x版本测试通过。

好了，python *** 作Excel就这么！些了，简单吧

以下代码调试通过：

import xlrd

# 打开 xls 文件

book = xlrdopen_workbook("testxls")

print "表单数量:", booknsheets

print "表单名称:", booksheet_names()

# 获取第1个表单

sh = booksheet_by_index(0)

print u"表单 %s 共 %d 行 %d 列" % (shname, shnrows, shncols)

print "第二行第三列:", shcell_value(1, 2)

运行效果：

以上就是关于Python Word文档处理上篇：python-docx全部的内容，包括:Python Word文档处理上篇：python-docx、python怎么读取excel的数据、如何用python读取excel文件等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/10127878.html

Python Word文档处理上篇：python-docx

发表评论

评论列表（0条）

Python Word文档处理 上篇：python-docx

发表评论

评论列表（0条）

Python Word文档处理上篇：python-docx