ruby – 解析100mb JSON有效负载的有效方法
我每12个小时在我的亚马逊EC2微型实例上运行一个cron工作.它下载118MB文件并使用json库解析它.这当然会使实例耗尽内存.我的实例有416MB的内存空闲,但后来我运行它下降到6 MB的脚本,然后它被操作系统杀死.
我想知道我的选择是什么?是否有可能通过Ruby有效地解析这个问题,还是我必须下载到像C这样的低级别的东西?我可以获得一个更强大的亚马逊实例,但我真的想知道是否可以通过Ruby实现这一点. 更新: --Root -Obj 1 -Obj 2 -Obj 3 所以,如果我这样做: parser.parse(file) do |hash| #do something here end 由于我只有一个根对象,它将解析整个JSON.如果Obj 1/2/3是root,那么它会工作,因为它将逐个给我它们,但我的JSON不是那样的,它解析并吃了500mb的内存…… 更新#2: GONE 它是可解析的,我不只是从文件中取出一些字节,只是让你看到它作为一个整体.我正在寻找的阵列就是这个 events = json['resultsPage']['results']['event'] 谢谢 解决方法
YAJL实现了流解析器.您可以使用它来实时读取JSON,这样您就可以在内容进入时对其进行操作,然后在完成后丢弃它们(以及从中生成的数据结构).如果你对它很聪明,这会让你在你的记忆极限之下.
编辑:使用您的数据,您真的有兴趣一次提取部分JSON对象,而不是解析整个对象.这非常棘手,实际上需要您实现自己的解析器.它的基本要素是你想要的: >进入事件数组 这不适用于yajl,因为你在这里处理一个对象,而不是多个对象.要使它与yajl一起使用,您需要手动解析JSON以发现事件对象边界,然后将每个事件对象块传递给JSON解析器以进行反序列化.像Ragel这样的东西可以为你简化这个过程. 当然,升级AWS实例会更容易. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |