加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

C将UTF-8字符串迭代或分割成符号数组?

发布时间:2020-12-16 06:44:11 所属栏目:百科 来源:网络整理
导读:搜索与UTF-8字符串或将其分割成UTF-8符号数组的平台和第三方库独立的方式. 请张贴一个代码段. 解决了: C++ iterate or split UTF-8 string into array of symbols? 解决方法 如果我明白了,听起来你想要找到每个UTF-8字符的开始.如果是这样,那么解析它们是相
搜索与UTF-8字符串或将其分割成UTF-8符号数组的平台和第三方库独立的方式.

请张贴一个代码段.

解决了:
C++ iterate or split UTF-8 string into array of symbols?

解决方法

如果我明白了,听起来你想要找到每个UTF-8字符的开始.如果是这样,那么解析它们是相当简单的(解释它们是另一回事).但是,涉及到的字节数有多少是由 RFC定义的:
Char. number range  |        UTF-8 octet sequence
   (hexadecimal)    |              (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

例如,如果lb具有UTF-8字符的第一个八位字节,我认为以下将确定涉及的八位字节数.

unsigned char lb;

if (( lb & 0x80 ) == 0 )          // lead bit is zero,must be a single ascii
   printf( "1 octetn" );
else if (( lb & 0xE0 ) == 0xC0 )  // 110x xxxx
   printf( "2 octetsn" );
else if (( lb & 0xF0 ) == 0xE0 ) // 1110 xxxx
   printf( "3 octetsn" );
else if (( lb & 0xF8 ) == 0xF0 ) // 1111 0xxx
   printf( "4 octetsn" );
else
   printf( "Unrecognized lead byte (%02x)n",lb );

最终,尽管如此,如果在另一篇文章中建议您使用现有的图书馆,您将会更加完美.上面的代码可以根据八位字节对字符进行分类,但是一旦完成,它们不会帮助“做任何事情”.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读