ruby – `scan’:UTF-8中的无效字节序列(ArgumentError)
发布时间:2020-12-17 02:49:12 所属栏目:百科 来源:网络整理
导读:我正在尝试在 ruby中读取.txt文件并逐行拆分文本. 这是我的代码: def file_read(filename) File.open(filename,'r').readendputs f = file_read('alice_in_wonderland.txt') 这非常有效.但是当我像这样添加方法line_cutter时: def file_read(filename) Fil
我正在尝试在
ruby中读取.txt文件并逐行拆分文本.
这是我的代码: def file_read(filename) File.open(filename,'r').read end puts f = file_read('alice_in_wonderland.txt') 这非常有效.但是当我像这样添加方法line_cutter时: def file_read(filename) File.open(filename,'r').read end def line_cutter(file) file.scan(/w/) end puts f = line_cutter(file_read('alice_in_wonderland.txt')) 我收到一个错误: `scan': invalid byte sequence in UTF-8 (ArgumentError) 我在网上找到了this个不受信任的网站,并试图将它用于我自己的代码,但它不起作用.如何删除此错误? 链接到文件:File 解决方法
链接的文本文件包含以下行:
如果不希望或不可能转换它,那么你必须告诉Ruby这个文件是ISO-8859-1编码的.否则使用default external encoding(在您的情况下为UTF-8).可能的方法是: s = File.read('alice_in_wonderland.txt',encoding: 'ISO-8859-1') s.encoding # => #<Encoding:ISO-8859-1> 如果你更喜欢你的字符串UTF-8编码,或者甚至喜欢这样(见utf8everywhere.org): s = File.read('alice_in_wonderland.txt',encoding: 'ISO-8859-1:UTF-8') s.encoding # => #<Encoding:UTF-8> (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |