加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

ruby – `scan’:UTF-8中的无效字节序列(ArgumentError)

发布时间:2020-12-17 02:49:12 所属栏目:百科 来源:网络整理
导读:我正在尝试在 ruby中读取.txt文件并逐行拆分文本. 这是我的代码: def file_read(filename) File.open(filename,'r').readendputs f = file_read('alice_in_wonderland.txt') 这非常有效.但是当我像这样添加方法line_cutter时: def file_read(filename) Fil
我正在尝试在 ruby中读取.txt文件并逐行拆分文本.

这是我的代码:

def file_read(filename)
  File.open(filename,'r').read
end

puts f = file_read('alice_in_wonderland.txt')

这非常有效.但是当我像这样添加方法line_cutter时:

def file_read(filename)
  File.open(filename,'r').read
end

def line_cutter(file)
  file.scan(/w/)
end

puts f = line_cutter(file_read('alice_in_wonderland.txt'))

我收到一个错误:

`scan': invalid byte sequence in UTF-8 (ArgumentError)

我在网上找到了this个不受信任的网站,并试图将它用于我自己的代码,但它不起作用.如何删除此错误?

链接到文件:File

解决方法

链接的文本文件包含以下行:

Character set encoding: ISO-8859-1

如果不希望或不可能转换它,那么你必须告诉Ruby这个文件是ISO-8859-1编码的.否则使用default external encoding(在您的情况下为UTF-8).可能的方法是:

s = File.read('alice_in_wonderland.txt',encoding: 'ISO-8859-1')
s.encoding  # => #<Encoding:ISO-8859-1>

如果你更喜欢你的字符串UTF-8编码,或者甚至喜欢这样(见utf8everywhere.org):

s = File.read('alice_in_wonderland.txt',encoding: 'ISO-8859-1:UTF-8')
s.encoding  # => #<Encoding:UTF-8>

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读