在python中使用正则表达式查找可嵌套字符串组

在python中使用正则表达式查找可嵌套字符串组,第1张

概述在网上看到一个小需求,需要用正则表达式来处理。原需求如下:找出文本中包含”因为……所以”的句子,并以两个词为中心对齐输出前后3个字,中间全输出,如果“因为”和“所以”中间还存在“因为”“所以”,也要找

在网上看到一个小需求,需要用正则表达式来处理。原需求如下:

找出文本中包含”因为……所以”的句子,并以两个词为中心对齐输出前后3个字,中间全输出,如果“因为”和“所以”中间还存在“因为”“所以”,也要找出来,另算一行,输出格式为:

行号 前面3个字 *因为* 全部 &所以& 后面3个字(标点符号算一个字)

2 还不是 *因为* 这里好, &所以& 没有人

实现方法如下:

#enCoding:utf-8import osimport redef getPairstriList(filename):  pairstrList = []  textfile = open(filename,'r')  pattern = re.compile(u'.{3}\u56e0\u4e3a.*\u6240\u4ee5.{3}') #u'\u56e0\u4e3a和u'\u6240\u4ee5'分别为“因为”和“所以”的utf8码  for line in textfile:    utfline = line.decode('utf8')    result = pattern.search(utfline)    while result:      resultStr = result.group()      pairstrList.append(resultStr)      result = pattern.search(resultStr,2,len(resultStr)-2)  #对每个字符串进行格式转换和拼接    for i in range(len(pairstrList)):    pairstrList[i] = pairstrList[i][:3] + pairstrList[i][3:5].replace(u'\u56e0\u4e3a',u' *\u56e0\u4e3a* ',1) + pairstrList[i][5:]    pairstrList[i] = pairstrList[i][:len(pairstrList[i])-5] + pairstrList[i][len(pairstrList[i])-5:].replace(u'\u6240\u4ee5',u' &\u6240\u4ee5& ',1)    pairstrList[i] = str(i+1) + ' ' + pairstrList[i]  return pairstrList  if __name__ == '__main__':  pairstrList = getPairstriList('test.txt')  for str in pairstrList:    print str

PS:下面看下python里使用正则表达式的组嵌套

由于组本身是一个完整的正则表达式,所以可以将组嵌套在其他组中,以构建更复杂的表达式。下面的例子,就是进行组嵌套的例子:

#python 3.6 #蔡军生  #http://blog.csdn.net/caimouse/article/details/51749579 # import re def test_patterns(text,patterns):   """Given source text and a List of patterns,look for   matches for each pattern within the text and print   them to stdout.   """   # Look for each pattern in the text and print the results   for pattern,desc in patterns:     print('{!r} ({})\n'.format(pattern,desc))     print(' {!r}'.format(text))     for match in re.finditer(pattern,text):       s = match.start()       e = match.end()       prefix = ' ' * (s)       print(         ' {}{!r}{} '.format(prefix,text[s:e],' ' * (len(text) - e)),end=' ',)       print(match.groups())       if match.groupdict():         print('{}{}'.format(           ' ' * (len(text) - s),match.groupdict()),)     print()   return 

例子:

#python 3.6 #蔡军生  #http://blog.csdn.net/caimouse/article/details/51749579 # from re_test_patterns_groups import test_patterns test_patterns(   'abbaabbba',[(r'a((a*)(b*))','a followed by 0-n a and 0-n b')],) 

结果输出如下:

'a((a*)(b*))' (a followed by 0-n a and 0-n b) 'abbaabbba' 'abb'    ('bb','','bb')   'aabbb'  ('abbb','a','bbb')     'a' ('','')

总结

以上所述是小编给大家介绍的在python中使用正则表达式查找可嵌套字符串组,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对编程小技巧网站的支持!

总结

以上是内存溢出为你收集整理的在python中使用正则表达式查找可嵌套字符串组全部内容,希望文章能够帮你解决在python中使用正则表达式查找可嵌套字符串组所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/langs/1201427.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-06-04
下一篇2022-06-04

发表评论

登录后才能评论

评论列表(0条)

    保存