加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

character-encoding – 在awk匹配函数的字符串参数中使用特殊字

发布时间:2020-12-13 22:54:52 所属栏目:Linux 来源:网络整理
导读:我在awk中使用包含特殊字符的字符串中的匹配函数时遇到问题.考虑文件test.awk: { match($0,"(^.*)kon",a); print a[1];} 和相应的测试文件“test.txt”,内容为“TestingH?kon”(注意挪威字符“?”).该文件以“iso-8859-1”编码,长度为14个字节.文件的十六进
我在awk中使用包含特殊字符的字符串中的匹配函数时遇到问题.考虑文件test.awk:

{
    match($0,"(^.*)kon",a);
    print a[1];
}

和相应的测试文件“test.txt”,内容为“TestingH?kon”(注意挪威字符“?”).该文件以“iso-8859-1”编码,长度为14个字节.文件的十六进制转储由xxd -p test.txt给出

54657374696e672048e56b6f6e0a

从中我们可以看到挪威字符“?”已经用十六进制数“e5”编码.也就是说,该文件使用iso-8859-1编码进行编码.

运行

awk  -f test.awk test.txt

在终端没有任何东西..正确的输出应该是“测试H?”..

运行locale命令的输出是:

LANG=en_DK.UTF-8
LANGUAGE=en_US:
LC_CTYPE="en_DK.UTF-8"
LC_NUMERIC="en_DK.UTF-8"
LC_TIME="en_DK.UTF-8"
LC_COLLATE="en_DK.UTF-8"
LC_MONETARY="en_DK.UTF-8"
LC_MESSAGES="en_DK.UTF-8"
LC_PAPER="en_DK.UTF-8"
LC_NAME="en_DK.UTF-8"
LC_ADDRESS="en_DK.UTF-8"
LC_TELEPHONE="en_DK.UTF-8"
LC_MEASUREMENT="en_DK.UTF-8"
LC_IDENTIFICATION="en_DK.UTF-8"
LC_ALL=

这表明“LANG”变量设置为utf-8编码..

解决方法

这不是awk的问题,请参阅 here.您的语言环境需要UTF-8编码,但您的文件正在使用iso-8859-1,因此要么设置您的语言环境以匹配您的文件,反之亦然.

注意:match()的第二个参数应该是正则表达式和尾随;不是必需的

{
    match($0,/(^.*)kon/,a)
    print a[1]
}

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读