ruby-on-rails – 从Ruby中的PDF文件中提取表

发布时间：2020-12-17 03:25:12 所属栏目：百科来源：网络整理

导读：提取嵌入PDF文档的表的最佳方法是什么？我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站. 你能分享一些关于如何提取表格的Ruby代码吗？哪种宝石最适合这份工作？我确定有人在遇到同样的问题之前:) 我感谢您的帮助！解决方法您可以使用 popp

提取嵌入PDF文档的表的最佳方法是什么？

我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站.

你能分享一些关于如何提取表格的Ruby代码吗？
哪种宝石最适合这份工作？

我确定有人在遇到同样的问题之前:)
我感谢您的帮助！

解决方法

您可以使用 poppler从pdf中提取数据.根据您的具体要求,这可能就足够了.

def extract_to_text(pdf_path)
  command = ['pdftotext',Shellwords.escape(pdf_path)].join(' ')
  `#{command}`
end

def extract_to_html(pdf_path)
  command = ['pdftohtml',Shellwords.escape(pdf_path)].join(' ')
  `#{command}`
end

这些命令将pdf分别提取到html文件和文本文件,保存在pdf所在的同一位置.

您可以使用自制软件在Mac上安装poppler：

brew install poppler

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!