用正则表达式处理字符串中的分组问题

发布时间：2020-12-14 06:46:59 所属栏目：百科来源：网络整理

导读：碰到'122333'这种字符串，要将其连贯的部分取出，得出['1','22','333','']这样的列表，能想到的常规办法，遍历字符串，后一个与前一个逐个比较，这样真的很麻烦！实际上可以借助itertools模块的groupby()方法来处理: import itertoolsStr = '122333'Lst = [

碰到'122333<<<<'这种字符串，要将其连贯的部分取出，得出['1','22','333','<<<<']这样的列表，能想到的常规办法，遍历字符串，后一个与前一个逐个比较，这样真的很麻烦！

实际上可以借助itertools模块的groupby()方法来处理:

import itertools

Str = '122333<<<<'
Lst = []
for key,group in itertools.groupby(s):
    Lst.append(list(group))

print map(lambda x: ''.join(x),Lst)

上面的处理，还是比较有技巧，也能得到想要的输出结果

['1','<<<<']

但更酷点，更技巧处理方式是用正则表达式来处理:

import re

Str = '122333<<<<'
Lst = []

Pat = re.compile(r'((.)2*)')
Rst = [x[0] for x in re.findall(Pat,Str)]

print Rst

备注:

1. (.) # .匹配任意字符;(.)做分组，方便后面反向引用

2. 2* # 2对里面括号的反向引用;*代表是0个到多个;

3.((.)2*) # 连起来就是任意一个或多个字符组成的分组；

4.(.)1* # 这种方式则可以取出唯一的值['1','2','3','<']；同样非常方便

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!