加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Perl中的字符串长度,与字符编码无关

发布时间:2020-12-16 06:20:29 所属栏目:大数据 来源:网络整理
导读:长度函数假定中文字符不止一个字符.如何在Perl中确定字符串的长度而不依赖于字符编码(将中文字符视为一个字符)? 解决方法 length 函数对字符进行操作,而不是八位字节(AKA字节).字符的定义取决于编码.中文字符仍然是单个字符(如果编码设置正确!)但它们占用
长度函数假定中文字符不止一个字符.如何在Perl中确定字符串的长度而不依赖于字符编码(将中文字符视为一个字符)?

解决方法

length函数对字符进行操作,而不是八位字节(AKA字节).字符的定义取决于编码.中文字符仍然是单个字符(如果编码设置正确!)但它们占用的空间超过一个八位字节.因此,Perl中字符串的长度取决于Perl认为该字符串所在的字符编码;唯一与字符编码无关的字符串长度是简单字节长度.

确保有问题的字符串标记为UTF-8并以UTF-8编码.例如,这产生3:

$perl -e 'print length("长")'

而这产生1:

$perl -e 'use utf8; print length("长")'

同样如下:

$perl -e 'use Encode; print length(Encode::decode("utf-8","长"))'

如果您从文件中获取中文字符,请确保在读取或写入之前将文件binmode $fh,’:utf8′;如果您从数据库获取数据,请确保数据库以UTF-8格式返回字符串(或使用Encode为您执行此操作).

我不认为你必须拥有UTF-8中的所有东西,你真的只需要确保字符串被标记为具有正确的编码.我会使用UTF-8从前到后(甚至是横向),但因为它是Unicode的通用语言,如果你在任何地方使用它都会让事情变得更容易.

如果您打算处理非ASCII数据,您可能需要花一些时间阅读perlunicode手册页.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读