ruby – `scan’：UTF-8中的无效字节序列(ArgumentError)

发布时间：2020-12-17 02:49:12 所属栏目：百科来源：网络整理

导读：我正在尝试在 ruby中读取.txt文件并逐行拆分文本. 这是我的代码： def file_read(filename) File.open(filename,'r').readendputs f = file_read('alice_in_wonderland.txt') 这非常有效.但是当我像这样添加方法line_cutter时： def file_read(filename) Fil

我正在尝试在 ruby中读取.txt文件并逐行拆分文本.

这是我的代码：

def file_read(filename)
  File.open(filename,'r').read
end

puts f = file_read('alice_in_wonderland.txt')

这非常有效.但是当我像这样添加方法line_cutter时：

def file_read(filename)
  File.open(filename,'r').read
end

def line_cutter(file)
  file.scan(/w/)
end

puts f = line_cutter(file_read('alice_in_wonderland.txt'))

我收到一个错误：

`scan': invalid byte sequence in UTF-8 (ArgumentError)

我在网上找到了this个不受信任的网站,并试图将它用于我自己的代码,但它不起作用.如何删除此错误？

链接到文件：File

解决方法

链接的文本文件包含以下行：

Character set encoding: ISO-8859-1

如果不希望或不可能转换它,那么你必须告诉Ruby这个文件是ISO-8859-1编码的.否则使用default external encoding(在您的情况下为UTF-8).可能的方法是：

s = File.read('alice_in_wonderland.txt',encoding: 'ISO-8859-1')
s.encoding  # => #<Encoding:ISO-8859-1>

如果你更喜欢你的字符串UTF-8编码,或者甚至喜欢这样(见utf8everywhere.org)：

s = File.read('alice_in_wonderland.txt',encoding: 'ISO-8859-1:UTF-8')
s.encoding  # => #<Encoding:UTF-8>

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!