PDF到文本工具或Java库?
发布时间:2020-12-15 05:15:13 所属栏目:Java 来源:网络整理
导读:我需要将PDF转换为普通文本(这是我们县注册商的“投票声明”).文件很大(大约2000页),大多包含表格.一旦我把它写入文本,那么我将使用我正在编写的程序来解析它并将数据放入数据库中. 我在Adobe Reader中尝试过“另存为文本”功能,但它并不像我想的那样精确,特
我需要将PDF转换为普通文本(这是我们县注册商的“投票声明”).文件很大(大约2000页),大多包含表格.一旦我把它写入文本,那么我将使用我正在编写的程序来解析它并将数据放入数据库中.
我在Adobe Reader中尝试过“另存为文本”功能,但它并不像我想的那样精确,特别是在将表格数据划分为CSV时. 那么,对工具或 Java库的任何建议都可以做到这一点? 解决方法
好吧,有
iText.我只有有限的经验,但
it seems它可以做你想要的.
Apache PDFBox肯定可以做到.它的网站提到“PDF to text extraction”作为其主要功能.有一个ExtractText command line tool专门用于此(source code),基于其PDFTextStripper class.还有一个PDFBox Text Extraction Guide! (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |