加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

delphi – 带有TEncoding.UTF8的TFile.ReadAllText省略了前3个字

发布时间:2020-12-15 04:32:18 所属栏目:大数据 来源:网络整理
导读:我有一个以这行开头的UTF-8文本文件: HEADMETA name=GENERATOR content="MSHTML 10.00.9200.16521"body 当我使用带有TEncoding.UTF8的TFile.ReadAllText读取此文件时: MyStr := TFile.ReadAllText(ThisFileNamePath,TEncoding.UTF8); 然后省略文本文件的前
我有一个以这行开头的UTF-8文本文件:
<HEAD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>

当我使用带有TEncoding.UTF8的TFile.ReadAllText读取此文件时:

MyStr := TFile.ReadAllText(ThisFileNamePath,TEncoding.UTF8);

然后省略文本文件的前3个字符,因此MyStr导致:

'AD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>...'

但是,当我使用没有TEncoding.UTF8的TFile.ReadAllText读取此文件时:

MyStr := TFile.ReadAllText(ThisFileNamePath);

然后完整正确地读取文件:

<HEAD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>...

TFile.ReadAllText有bug吗?

解决方法

跳过前三个字节,因为RTL代码假定该文件包含UTF-8 BOM.显然你的文件没有.

TUTF8Encoding类实现了一个指定UTF-8 BOM的GetPreamble方法.并且ReadAllBytes会跳过您传递的编码指定的前导码.

一个简单的解决方案是将文件读入字节数组,然后使用TEncoding.UTF8.GetString将其解码为字符串.

var
  Bytes: TBytes;
  Str: string;
....
Bytes := TFile.ReadAllBytes(FileName);
Str := TEncoding.UTF8.GetString(Bytes);

更全面的替代方案是使TEncoding实例忽略UTF-8 BOM.

type
  TUTF8EncodingWithoutBOM = class(TUTF8Encoding)
  public
    function Clone: TEncoding; override;
    function GetPreamble: TBytes; override;
  end;

function TUTF8EncodingWithoutBOM.Clone: TEncoding;
begin
  Result := TUTF8EncodingWithoutBOM.Create;
end;

function TUTF8EncodingWithoutBOM.GetPreamble: TBytes;
begin
  Result := nil;
end;

实例化其中一个(每个进程只需要一个实例)并将其传递给TFile.ReadAllText.

使用TUTF8EncodingWithoutBOM的单例实例的优点是,您可以在任何需要TEncoding的地方使用它.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读