character-encoding – 在awk匹配函数的字符串参数中使用特殊字
发布时间:2020-12-13 22:54:52 所属栏目:Linux 来源:网络整理
导读:我在awk中使用包含特殊字符的字符串中的匹配函数时遇到问题.考虑文件test.awk: { match($0,"(^.*)kon",a); print a[1];} 和相应的测试文件“test.txt”,内容为“TestingH?kon”(注意挪威字符“?”).该文件以“iso-8859-1”编码,长度为14个字节.文件的十六进
我在awk中使用包含特殊字符的字符串中的匹配函数时遇到问题.考虑文件test.awk:
{ match($0,"(^.*)kon",a); print a[1]; } 和相应的测试文件“test.txt”,内容为“TestingH?kon”(注意挪威字符“?”).该文件以“iso-8859-1”编码,长度为14个字节.文件的十六进制转储由xxd -p test.txt给出 54657374696e672048e56b6f6e0a 从中我们可以看到挪威字符“?”已经用十六进制数“e5”编码.也就是说,该文件使用iso-8859-1编码进行编码. 运行 awk -f test.awk test.txt 在终端没有任何东西..正确的输出应该是“测试H?”.. 运行locale命令的输出是: LANG=en_DK.UTF-8 LANGUAGE=en_US: LC_CTYPE="en_DK.UTF-8" LC_NUMERIC="en_DK.UTF-8" LC_TIME="en_DK.UTF-8" LC_COLLATE="en_DK.UTF-8" LC_MONETARY="en_DK.UTF-8" LC_MESSAGES="en_DK.UTF-8" LC_PAPER="en_DK.UTF-8" LC_NAME="en_DK.UTF-8" LC_ADDRESS="en_DK.UTF-8" LC_TELEPHONE="en_DK.UTF-8" LC_MEASUREMENT="en_DK.UTF-8" LC_IDENTIFICATION="en_DK.UTF-8" LC_ALL= 这表明“LANG”变量设置为utf-8编码.. 解决方法
这不是awk的问题,请参阅
here.您的语言环境需要UTF-8编码,但您的文件正在使用iso-8859-1,因此要么设置您的语言环境以匹配您的文件,反之亦然.
注意:match()的第二个参数应该是正则表达式和尾随;不是必需的 { match($0,/(^.*)kon/,a) print a[1] } (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |