加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

如何在一堆文本文件中用”替换所有’0xa0’字符?

发布时间:2020-12-15 22:17:13 所属栏目:安全 来源:网络整理
导读:我一直在尝试在 python中将一堆文本文件批量编辑为utf-8,并且此错误不断弹出.有没有办法在一些python scrips或bash命令中替换它们? 我使用的代码: writer = codecs.open(os.path.join(wrd,'dict.en'),'wtr','utf-8')for infile in glob.glob(os.path.join(
我一直在尝试在 python中将一堆文本文件批量编辑为utf-8,并且此错误不断弹出.有没有办法在一些python scrips或bash命令中替换它们?
我使用的代码:

writer = codecs.open(os.path.join(wrd,'dict.en'),'wtr','utf-8')
for infile in glob.glob(os.path.join(wrd,'*.txt')):
        print infile
        for line in open(infile):
                writer.write(line.encode('utf-8'))

并得到了这些错误:

Traceback (most recent call last):
  File "dicting.py",line 30,in <module>
    writer.write(line2.encode('utf-8'))
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa0 in position 216: unexpected code byte

解决方法

好的,第一点:您的输出文件设置为自动编码以utf-8写入的文本,因此在将参数传递给write()方法时不要包含显式编码(‘utf-8’)方法调用.

所以首先要尝试的是在内循环中简单地使用以下内容:

writer.write(line)

如果这不起作用,那么问题几乎肯定是,正如其他人所指出的那样,你没有正确解码你的输入文件.

猜测并假设你的输入文件是用cp1252编码的,你可以尝试在内循环中快速测试以下内容:

for line in codecs.open(infile,'r','cp1252'):
    writer.write(line)

小点:’wtr’是一个无意义的模式字符串(因为写访问意味着读访问).将其简化为’wt’或甚至只是’w’.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读