python – 从PDF中提取表

发布时间：2020-12-20 11:28:16 所属栏目：Python 来源：网络整理

导读：我试图从pdf document中提取表格我尝试了pdf的路线 – html – 提取表.转换为html时我上面提到的pdf产生垃圾,可能是因为字体,文件不是英文的. 使用x和y坐标提取pdf不是一个选项,因为这个解决方案需要从上面提到的url中为将来的pdf工作,这将有表但不总是在相

我试图从pdf document中提取表格

我尝试了pdf的路线 – > html – >提取表.转换为html时我上面提到的pdf产生垃圾,可能是因为字体,文件不是英文的.

使用x和y坐标提取pdf不是一个选项,因为这个解决方案需要从上面提到的url中为将来的pdf工作,这将有表但不总是在相同的位置.

请帮忙,

提前致谢.

解决方法

PDF不包含显式表数据.它只包含我们倾向于将其解释为表格的线条和字符字形.因此,您的任务涉及将我们的人类表识别功能放入代码中,这是一项非常重要的任

一般来说,如果您确定未来的PDF将以非常类似的方式由同一软件生成,则可能值得花时间调查该文件以获得一些易于遵循的提示以识别各个字段的内容.

但是,您的特定文档还有一个缺点：它不包含直接文本提取所需的信息！你可以试试复制&从Adobe Reader中粘贴,你会得到(至少我做的)WinAnsi系列中的半随机字符.

这是因为文档中的所有字体都声称他们使用WinAnsiEncoding,即使这样引用的字符最终不是来自WinAnsi字符选择.

因此,在没有OCR的情况下从文档中提取可靠的文本是不可能的！

(尝试从Adobe Reader复制和粘贴通常是一个很好的第一次测试文本提取是否可行;阅读器的文本提取方法已经开发了很多年,因此已经变得非常好.如果你不能提取任何东西对于Acrobat Reader来说,文本提取确实是一项非常艰巨的任务.)

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!