局域网如何在Linux / POSIX中运行以及应用哪些转换？

发布时间：2020-12-13 19:34:20 所属栏目：Linux 来源：网络整理

导读：我正在使用(希望)UTF-8文本的巨大文件.我可以使用Ubuntu 13.10(3.11.0-14-generic)和12.04来重现它. 在调查一个错误时,我遇到了奇怪的行为 $export LC_ALL=en_US.UTF-8 $sort part-r-00000 | uniq -d ? ? ? ? 251? ɡ ? ? ? 291? ? ? ? 301? ? 475? ? 565$ex

我正在使用(希望)UTF-8文本的巨大文件.我可以使用Ubuntu 13.10(3.11.0-14-generic)和12.04来重现它.

在调查一个错误时,我遇到了奇怪的行为

$export LC_ALL=en_US.UTF-8   
$sort part-r-00000 | uniq -d 
? ? ? ? 251
? ɡ ? ? ?       291
? ? ? ? 301
? ?     475
? ?     565

$export LC_ALL=C
$sort part-r-00000 | uniq -d 
$# no duplicates found

当运行使用std :: stringstream读取文件的自定义C程序时,重复的操作也会出现 – 由于在使用en_US.UTF-8语言环境时重复的操作失败.
至少对于std :: string和input / output来说,C似乎不受影响.

为什么在使用UTF-8区域设置时找到重复项,而C语言环境中没有找到重复项？

导致此行为的文本的区域转换是什么？

编辑：Here是一个小例子

$uniq -D duplicates.small.nfc 
? ? ? ? ?       224
? ? ? ? ?       224
? ? ? ? 251
? ? ? ? 251
? ɡ ? ? ?       291
? ? ? ? ?       291
? ? ? ? 301
? ? ? ? 301
? ? ? ? 301
? ?     475
? ?     475
? ?     565
? ?     565

输出问题出现时的区域设置：

$locale 
LANG=en_US.UTF-8                                                                                                                                                                                               
LC_CTYPE="en_US.UTF-8"                                                                                                                                                                                         
LC_NUMERIC=de_DE.UTF-8                                                                                                                                                                                         
LC_TIME=de_DE.UTF-8                                                                                                                                                                                            
LC_COLLATE="en_US.UTF-8"                                                                                                                                                                                       
LC_MONETARY=de_DE.UTF-8                                                                                                                                                                                        
LC_MESSAGES="en_US.UTF-8"                                                                                                                                                                                      
LC_PAPER=de_DE.UTF-8                                                                                                                                                                                           
LC_NAME=de_DE.UTF-8                                                                                                                                                                                            
LC_ADDRESS=de_DE.UTF-8                                                                                                                                                                                         
LC_TELEPHONE=de_DE.UTF-8                                                                                                                                                                                       
LC_MEASUREMENT=de_DE.UTF-8                                                                                                                                                                                     
LC_IDENTIFICATION=de_DE.UTF-8                                                                                                                                                                                  
LC_ALL=

编辑：归一化后使用：

cat duplicates | uconv -f utf8 -t utf8 -x nfc > duplicates.nfc

我仍然得到相同的结果

编辑：该文件是有效的UTF-8根据iconv – (从here)

$iconv -f UTF-8 duplicates -o /dev/null
$echo $?
0

编辑：看起来像这样的东西：http://xahlee.info/comp/unix_uniq_unicode_bug.html
和
https://lists.gnu.org/archive/html/bug-coreutils/2012-07/msg00072.html

它在FreeBSD上工作

解决方法

我已经将问题归结为strcoll()函数的问题,这与Unicode规范化无关. Recap：根据当前语言环境,我演示uniq的不同行为的最小例子是：

$echo -e "xc9xa2nxc9xac" > test.txt
$cat test.txt
?
?
$LC_COLLATE=C uniq -D test.txt
$LC_COLLATE=en_US.UTF-8 uniq -D test.txt
?
?

显然,如果语言环境是en_US.UTF-8 uniq将?和?作为重复,那不应该是这样.然后我再次使用valgrind运行相同的命令,并用kcachegrind调查了两个调用图.

$LC_COLLATE=C valgrind --tool=callgrind uniq -D test.txt
$LC_COLLATE=en_US.UTF-8 valgrind --tool=callgrind uniq -D test.txt
$kcachegrind callgrind.out.5754 &
$kcachegrind callgrind.out.5763 &

唯一的区别是,LC_COLLATE = en_US.UTF-8的版本称为strcoll(),而LC_COLLATE = C没有.所以我想到了以下strcoll()的最小例子：

#include <iostream>
#include <cstring>
#include <clocale>

int main()
{
    const char* s1 = "xc9xa2";
    const char* s2 = "xc9xac";
    std::cout << s1 << std::endl;
    std::cout << s2 << std::endl;

    std::setlocale(LC_COLLATE,"en_US.UTF-8");
    std::cout << std::strcoll(s1,s2) << std::endl;
    std::cout << std::strcmp(s1,s2) << std::endl;

    std::setlocale(LC_COLLATE,"C");
    std::cout << std::strcoll(s1,s2) << std::endl;

    std::cout << std::endl;

    s1 = "xa2";
    s2 = "xac";
    std::cout << s1 << std::endl;
    std::cout << s2 << std::endl;

    std::setlocale(LC_COLLATE,s2) << std::endl;
}

输出：

?
?
0
-1
-10
-1

?
?
0
-1
-10
-1

那么这里有什么问题？为什么strcoll()为两个不同的字符返回0(相等)？

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!