python 读取不同格式文本

发布时间：2020-12-20 10:24:56 所属栏目：Python 来源：网络整理

导读：常见文本编码格式：UTF-8、UTF-16、UTF-32、ANSCII BOM? 是 ?Byte Order Mark? 的简称，即字节序标记。用于标记文本流：表示文本流的字节顺序，是小端序（ little-endian ）还是大端序（ big-endian ） ; 表示文本流是 ?Unicode? 字符；表示文本流的编码方

常见文本编码格式：UTF-8、UTF-16、UTF-32、ANSCII

BOM?是?Byte Order Mark?的简称，即字节序标记。用于标记文本流：

表示文本流的字节顺序，是小端序（little-endian）还是大端序（big-endian）;
表示文本流是?Unicode?字符；
表示文本流的编码方式。

几种编码方式的?BOM?值:

UTF-8：0xEFBBBF
UTF-16（BE）：0xFEFF
UTF-16（LE）：0xFFFE
UTF-32（BE）：0x0000FEFF
UTF-32（LE）：0xFFFE0000

Python核心库的open函数是按照ascii设计的。但是，现在我们越来越多地要面对Unicode文件。好在python提供了codecs模块，帮我们解决了这个问题。使用中有一些需要注意的问题。
codecs模块的open定义如下
open(filename,mode[,encoding[,errors[,buffering]])

#Open an encoded file using the given mode and return a wrapped version providing transparent encoding/decoding.?
其中前两个参数filename和mode和默认的open相同。第三个参数encoding是关键，制定了文件的编码方式。
对于常用的Unicode有这几种utf_16、utf_16_le、utf_16_be、utf_8，每一种还有一些可用的别名，具体可以查找python manual。
utf_16、utf_16_le、utf_16_be参数的区别是这样的。
如果指定了utf_16，python会检查文件的BOM（Byte Order Mark）来判断，文件类型到底是utf_16_le、utf_16_be。对于没有BOM的文件会报错。
如果我们直接指定了utf_16_le、utf_16_be，python就不检查BOM了。对于没有BOM的文件很好用。但是，对于有BOM的文件就要注意，它会把BOM当作第一个字符读入。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!