加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

PDF到文本工具或Java库?

发布时间:2020-12-15 05:15:13 所属栏目:Java 来源:网络整理
导读:我需要将PDF转换为普通文本(这是我们县注册商的“投票声明”).文件很大(大约2000页),大多包含表格.一旦我把它写入文本,那么我将使用我正在编写的程序来解析它并将数据放入数据库中. 我在Adobe Reader中尝试过“另存为文本”功能,但它并不像我想的那样精确,特
我需要将PDF转换为普通文本(这是我们县注册商的“投票声明”).文件很大(大约2000页),大多包含表格.一旦我把它写入文本,那么我将使用我正在编写的程序来解析它并将数据放入数据库中.
我在Adobe Reader中尝试过“另存为文本”功能,但它并不像我想的那样精确,特别是在将表格数据划分为CSV时.
那么,对工具或 Java库的任何建议都可以做到这一点?

解决方法

好吧,有 iText.我只有有限的经验,但 it seems它可以做你想要的.

Apache PDFBox肯定可以做到.它的网站提到“PDF to text extraction”作为其主要功能.有一个ExtractText command line tool专门用于此(source code),基于其PDFTextStripper class.还有一个PDFBox Text Extraction Guide!

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读