加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

如何在Linux上的C中获取文件中的字符数(而不是字节数)

发布时间:2020-12-13 23:08:43 所属栏目:Linux 来源:网络整理
导读:我想获取文件中的字符数.字符我的意思是“真正的”字符,而不是字节.假设我知道文件编码. 我尝试使用mbstowcs()但它不起作用,因为它使用系统区域设置(或使用setlocale定义的系统区域设置).因为setlocale不是线程安全的,所以在调用mbstowcs()之前我不认为使用
我想获取文件中的字符数.字符我的意思是“真正的”字符,而不是字节.假设我知道文件编码.

我尝试使用mbstowcs()但它不起作用,因为它使用系统区域设置(或使用setlocale定义的系统区域设置).因为setlocale不是线程安全的,所以在调用mbstowcs()之前我不认为使用它是个好主意.即使它是安全的,我也必须确定
我的程序不会在setlocale()的调用之间“跳转”(信号等)(一次调用将其设置为文件的编码,然后调用以恢复到前一次).

因此,举一个例子,假设我们有一个使用俄语编码(例如KOI8)编码的文件ru.txt.所以,我想打开文件并获取字符数,假设文件的编码是KOI8.

如果mbstowcs()可以采用source_encoding参数,那可能很容易……

编辑:使用mbstowcs()的另一个问题是必须在系统上安装与文件编码对应的语言环境…

解决方法

我建议使用iconv(3):

NAME
   iconv - perform character set conversion

SYNOPSIS
   #include <iconv.h>

   size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);

并转换为utf32.对于每个转换的字符,您将得到4字节输出(对于BOM,加2).应该可以使用固定大小outbuf逐个转换输入,如果一个人仔细选择outbytesleft(即4 * inbytesleft 2 :-).

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读