用正则表达式处理字符串中的分组问题
发布时间:2020-12-14 06:46:59 所属栏目:百科 来源:网络整理
导读:碰到'122333'这种字符串,要将其连贯的部分取出,得出['1','22','333','']这样的列表,能想到的常规办法,遍历字符串,后一个与前一个逐个比较,这样真的很麻烦! 实际上可以借助itertools模块的groupby()方法来处理: import itertoolsStr = '122333'Lst = [
碰到'122333<<<<'这种字符串,要将其连贯的部分取出,得出['1','22','333','<<<<']这样的列表,能想到的常规办法,遍历字符串,后一个与前一个逐个比较,这样真的很麻烦! 实际上可以借助itertools模块的groupby()方法来处理:
import itertools Str = '122333<<<<' Lst = [] for key,group in itertools.groupby(s): Lst.append(list(group)) print map(lambda x: ''.join(x),Lst) 上面的处理,还是比较有技巧,也能得到想要的输出结果 ['1','<<<<']
但更酷点,更技巧处理方式是用正则表达式来处理:
import re Str = '122333<<<<' Lst = [] Pat = re.compile(r'((.)2*)') Rst = [x[0] for x in re.findall(Pat,Str)] print Rst备注: 1. (.) # .匹配任意字符;(.)做分组,方便后面反向引用 2. 2* # 2对里面括号的反向引用;*代表是0个到多个; 3.((.)2*) # 连起来就是任意一个或多个字符组成的分组; 4.(.)1* # 这种方式则可以取出唯一的值['1','2','3','<'];同样非常方便 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |