perl – 同一个角色可以有2种不同的UTF-8编码吗？

发布时间：2020-12-15 23:29:44 所属栏目：大数据来源：网络整理

导读：我正在编写一个需要将其输入从UTF-8转码为ISO-8859-1(Latin 1)的应用程序. 一切正常,除了我有时会对某些变形字符进行奇怪的编码.例如,带有2个点(0xEB)的Latin 1 E通常为UTF-8 0xC3 0xAB,但有时也为0xC3 0x83 0xC2 0xAB. 这种情况多次来自不同的来源并注意到

我正在编写一个需要将其输入从UTF-8转码为ISO-8859-1(Latin 1)的应用程序.

一切正常,除了我有时会对某些变形字符进行奇怪的编码.例如,带有2个点(0xEB)的Latin 1 E通常为UTF-8 0xC3 0xAB,但有时也为0xC3 0x83 0xC2 0xAB.

这种情况多次来自不同的来源并注意到第一个和最后一个字符符合我的预期,是否存在我的图书馆不知道的编码规则？

解决方法

$"xC3x83xC2xAB"
??
$use Encode

$decode 'UTF-8',"xC3x83xC2xAB"
?

你有双重编码的UTF-8. Encode::Repair是解决这个问题的一种方法.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!