加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

perl正则表达式中文问题

发布时间:2020-12-16 00:40:20 所属栏目:大数据 来源:网络整理
导读:? 在使用perl从地址中提取街道的时候遇到了个很诡异的问题 同样一个地址,连续进行两次匹配出来的结果居然不一样 一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事 看来perl的中文处理能力还是有待加强 后来在进行正则匹配之前尝试用了use encoding "g

?

在使用perl从地址中提取街道的时候遇到了个很诡异的问题

同样一个地址,连续进行两次匹配出来的结果居然不一样

一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事

看来perl的中文处理能力还是有待加强

后来在进行正则匹配之前尝试用了use encoding "gbk";?

还算运气不错,居然搞定了

use encoding "gbk";?

$address=~/^(.*(市|区))?(.*?(街|路|道)).*?$/s;

no encoding;

后面那个no encoding也别忘记了,否则本来能跑的代码可能就因为加了

一个use encoding "gbk";?而变的错误满天飞了

补充:后来发现又有问题了:(,看来用这个方法也不行,哎,状态真差

再次补充:解决方法用Encode模块的encode和decode方法进行编码和转码,先将正则表达式和需要匹配的字符串都从gbk转成utf8编码,然后进行匹配,匹配出来的结果再转成gbk返回(此方案来源于perl首席专家,在此向他表示感谢)

来源:http://www.bfor.cn/fish/archive/138523.aspx

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读