如何在一堆文本文件中用”替换所有’0xa0’字符?
发布时间:2020-12-15 22:17:13 所属栏目:安全 来源:网络整理
导读:我一直在尝试在 python中将一堆文本文件批量编辑为utf-8,并且此错误不断弹出.有没有办法在一些python scrips或bash命令中替换它们? 我使用的代码: writer = codecs.open(os.path.join(wrd,'dict.en'),'wtr','utf-8')for infile in glob.glob(os.path.join(
我一直在尝试在
python中将一堆文本文件批量编辑为utf-8,并且此错误不断弹出.有没有办法在一些python scrips或bash命令中替换它们?
我使用的代码: writer = codecs.open(os.path.join(wrd,'dict.en'),'wtr','utf-8') for infile in glob.glob(os.path.join(wrd,'*.txt')): print infile for line in open(infile): writer.write(line.encode('utf-8')) 并得到了这些错误: Traceback (most recent call last): File "dicting.py",line 30,in <module> writer.write(line2.encode('utf-8')) UnicodeDecodeError: 'utf8' codec can't decode byte 0xa0 in position 216: unexpected code byte 解决方法
好的,第一点:您的输出文件设置为自动编码以utf-8写入的文本,因此在将参数传递给write()方法时不要包含显式编码(‘utf-8’)方法调用.
所以首先要尝试的是在内循环中简单地使用以下内容: writer.write(line) 如果这不起作用,那么问题几乎肯定是,正如其他人所指出的那样,你没有正确解码你的输入文件. 猜测并假设你的输入文件是用cp1252编码的,你可以尝试在内循环中快速测试以下内容: for line in codecs.open(infile,'r','cp1252'): writer.write(line) 小点:’wtr’是一个无意义的模式字符串(因为写访问意味着读访问).将其简化为’wt’或甚至只是’w’. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |