ruby-on-rails – 从Ruby中的PDF文件中提取表
发布时间:2020-12-17 03:25:12 所属栏目:百科 来源:网络整理
导读:提取嵌入PDF文档的表的最佳方法是什么? 我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站. 你能分享一些关于如何提取表格的Ruby代码吗? 哪种宝石最适合这份工作? 我确定有人在遇到同样的问题之前:) 我感谢您的帮助! 解决方法 您可以使用 popp
提取嵌入PDF文档的表的最佳方法是什么?
我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站. 你能分享一些关于如何提取表格的Ruby代码吗? 我确定有人在遇到同样的问题之前:) 解决方法
您可以使用
poppler从pdf中提取数据.根据您的具体要求,这可能就足够了.
def extract_to_text(pdf_path) command = ['pdftotext',Shellwords.escape(pdf_path)].join(' ') `#{command}` end def extract_to_html(pdf_path) command = ['pdftohtml',Shellwords.escape(pdf_path)].join(' ') `#{command}` end 这些命令将pdf分别提取到html文件和文本文件,保存在pdf所在的同一位置. 您可以使用自制软件在Mac上安装poppler: brew install poppler (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |