加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

用ruby解析PDF文档

发布时间:2020-12-16 22:54:56 所属栏目:百科 来源:网络整理
导读:我在一个具有特定结构的文件夹中有多个PDF文档: 现在我希望能够解析PDF中的信息.请注意,这些段落的长度各不相同. 显然我并没有要求你为我解决问题,但我确实需要一些关于如何实现这一目标的指示. 我之前使用过nokogiri,技术上我需要类似的东西,但是对于PDF.
我在一个具有特定结构的文件夹中有多个PDF文档:

现在我希望能够解析PDF中的信息.请注意,这些段落的长度各不相同.

显然我并没有要求你为我解决问题,但我确实需要一些关于如何实现这一目标的指示.

我之前使用过nokogiri,技术上我需要类似的东西,但是对于PDF.

所以我的例子的伪结果看起来像这样:

- ItemA
  - Title: ItemA
  - File: 123456789.pdf
  - Image: ImageA.png (the image was stored on disk)
  - Subtitle1: Content for subtitle 1
  - Subtitle2: Content for subtitle 2
  - Subtitle3: Content for subtitle 3
- TitleB
  - [...]

解决方法

pdf-reader是解决方案之一.但它有问题有时它不会以适当的格式提供文本.我用过它.

我建议使用docsplit.您可以在this blog post找到有关’pdf-reader’和’docsplit’的更多信息.

希望这可以帮助.如果需要任何澄清,请随时发表评论.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读