perl中字符串编码分析和注意事项
在 Perl看来,字符串只有两种形式. 一种是octets,即8位序列,也就是我们通常说的字节数组. 另一种utf8编码的字符串,perl管它叫string. 也就是说: Perl只熟悉两种编码: Ascii(octets)和utf8(string). perl内部字符串由flag标志位和数据区两部分组成,其存储结构如下:
所有字符串相关的函数包括正则表达式、文件检测、都会受utf8 flag的影响。在默认情况下,utf8 flag标志位是off状态,当我们在代码中使用了 use utf8 ,则代表flag标志位是on状态,在当前词法范围内都是有效的。 Encode中的is_utf8函数可以用于检测当前flag开启情况,1代表on 0代表off;以下代码均是使用notepad++进行编码,字符编码格式选择UTF-8格式。 编码格式转换若要进行不同编码之间的转换,可以使用Encode模块中的decode函数和encode函数,这两个函数使用如下 $octets = encode(ENCODING,STRING); For example,to convert a string from Perl's internal format into ISO-8859-1:
$octets = encode("iso-8859-1",$string);
$string = decode(ENCODING,OCTETS); For example,to convert ISO-8859-1 data into a string in Perl's internal format:
$string = decode("iso-8859-1",$octets);
下面展示gbk和utf8之间的相互转码,两种编码格式需要经过perl内部编码格式: 若待编码的字符串已经是perl内部编码格式(flag on +utf8编码),则可以直接进行编码或者解码,不需要按照上述的过程进行。 例子1: use Encode;
#当前关闭
print "utf8 flag is 0ffn" if !Encode::is_utf8($string1);
my $string1 = "你好";//是utf8格式,若不编码屏幕输出乱码
print Encode::encode("gbk",Encode::decode("utf8",$string1)),"n";
#flag是off状态,当作字节来处理,长度为6
print "length:",length($string1),"n";
运行结果: 例子2: print "***********utf8 flag is on***************n";
#此后utf8 flag 为on
use utf8;
my $string2 = "你好";
#当前on
print "utf8 flag is onn" if Encode::is_utf8($string2);
#这里$string2相当于是内部格式了 flag is on and utf8 format
#可以直接编码,不用先解码后编码了
print Encode::encode("gbk",$string2),"n";
#当作string来处理,长度为2
print "length:",length($string2),"nnnn";
运行结果: 注意事项我们在使用perl中的文件测试符-e -s -f或者系统命令copy函数时,均要求这些函数的入参或者变量是gbk编码格式,否则会导致不符合预期的编码结果,举例如下: 我在目录下这个路径下创建了txt文件“E:perl文件夹1log.txt”,不同的编码格式答案是不符合预期的。 例子3: print "**********file test and system copy attentions**************n";
#文件测试或者调用系统copy函数等函数时 均需要使用gbk编码
my $src1 = "E:perl文件夹1log.txt";
my $src2 = "E:perl文件夹1log.txt";
#$src2字符串flag标志位是on,并且本身是utf8编码,
#因此$src2是perl内部格式,可以转为国标
my $gbk_src = Encode::encode("gbk",$src2);
print "gbk encode:$gbk_srcn";
#文件存在 则打印
if (-e $gbk_src){
print "it existsn";
}
#文件不存在 则打印
unless (-e $src){
print "it don't existn";
}
运行结果: 字符串来源 为了能够正确的进行字符串编解码, 我们首先要知道字符串本来的编码和utf8 flag开关情况,这里我们讨论几种情况.
参考入下资料: (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |