加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式python与unicode(日语)字符问题

发布时间:2020-12-14 06:31:11 所属栏目:百科 来源:网络整理
导读:我想删除下面的一部分字符串(以粗体显示),它存储在字符串oldString中 [DMSM-8433]加护亜依Kago Ai – 加护亜依vs.星期五 我在python中使用以下正则表达式 p=re.compile(ur"( [W]+) (?=[A-Za-z ]+–)",re.UNICODE)newString=p.sub("",oldString) 当我输出new
我想删除下面的一部分字符串(以粗体显示),它存储在字符串oldString中

[DMSM-8433]加护亜依Kago Ai – 加护亜依vs.星期五

我在python中使用以下正则表达式

p=re.compile(ur"( [W]+) (?=[A-Za-z ]+–)",re.UNICODE)
newString=p.sub("",oldString)

当我输出newString时,没有删除任何内容

您可以使用以下代码段来解决此问题:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import re
str = u'[DMSM-8433] 加護亜依 Kago Ai – 加護亜依 vs. FRIDAY'
regex = u'[u3000-u303fu3040-u309fu30a0-u30ffuff00-uff9fu4e00-u9fafu3400-u4dbf]+ (?=[A-Za-z ]+–)'
p = re.compile(regex,re.U)
match = p.sub("",str)
print match.encode("UTF-8")

见IDEONE demo

除了# – * – 编码:utf-8 – * – 声明,我添加了@nhahtdh’s character class to detect Japanese symbols.

请注意,匹配需要“手动”编码为UTF-8字符串,因为Python 2需要“提醒”我们一直在使用Unicode.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读