加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

ruby-on-rails – 从Ruby中的PDF文件中提取表

发布时间:2020-12-17 03:25:12 所属栏目:百科 来源:网络整理
导读:提取嵌入PDF文档的表的最佳方法是什么? 我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站. 你能分享一些关于如何提取表格的Ruby代码吗? 哪种宝石最适合这份工作? 我确定有人在遇到同样的问题之前:) 我感谢您的帮助! 解决方法 您可以使用 popp
提取嵌入PDF文档的表的最佳方法是什么?

我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站.

你能分享一些关于如何提取表格的Ruby代码吗?
哪种宝石最适合这份工作?

我确定有人在遇到同样的问题之前:)
我感谢您的帮助!

解决方法

您可以使用 poppler从pdf中提取数据.根据您的具体要求,这可能就足够了.

def extract_to_text(pdf_path)
  command = ['pdftotext',Shellwords.escape(pdf_path)].join(' ')
  `#{command}`
end

def extract_to_html(pdf_path)
  command = ['pdftohtml',Shellwords.escape(pdf_path)].join(' ')
  `#{command}`
end

这些命令将pdf分别提取到html文件和文本文件,保存在pdf所在的同一位置.

您可以使用自制软件在Mac上安装poppler:

brew install poppler

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读