在PHP中使用半角假名计算日语多字节字符串的长度
所以我有一个UTF-8编码的字符串,可以包含全宽汉字,全宽假名,半角假名,罗马字,数字或卡哇伊日语符号,如★或?.
如果我想要长度,我使用mb_strlen()并将它们中的每一个计为长度为1.这对大多数用途来说都没问题. 但是,我(有一个日本客户)被问到只计算半宽假名为0.5(为了文本字段的最大长度),因为显然这就是日本网站的做法.我这样做是使用mb_strwidth()将全宽计为2,将半宽计为1,然后我除以2. 然而,这种方法也将罗马字符计为1,所以像Chocアイス这样的东西会算作7 ..然后我除以2来计算汉字,我得到3.5.但我实际上想要5.5(4个半宽假名罗马吉1.5的4个). //编辑: // EXTRA EDIT:像☆和?这样的符号应为1,但mb_strwidth / 2方法将它们返回为0.5 是否有日本系统计算字符串长度的标准方法?
一种方法是将半宽片假名转换为全宽,并从原始长度中减去宽度差:
$raw = 'Choc???'; $full = mb_convert_kana($raw,'K'); $len = mb_strlen($raw) - (mb_strwidth($full) - mb_strwidth($raw))/2; assert($len === 5.5); 但是,您确定要将基本拉丁字符视为全宽吗?确实存在基本拉丁字符的全宽种类 – 也就是说,Choc应该被认为与Choc相同吗? 通常,诸如“A”和“ア”之类的字符的宽度为1,但“A”和“ア”的宽度为2(这是mb_strwidth的宽度).我必须谨慎对待那个问题. 鉴于您的编辑,mb_strwidth(或mb_strwidth / 2)完全符合您的要求. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |