加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

如何从Perl中的PDF文件中提取文本?

发布时间:2020-12-15 21:17:32 所属栏目:大数据 来源:网络整理
导读:我正在尝试使用Perl从PDF文件中提取文本。我一直在使用pdftotext.exe从命令行(即使用Perl系统功能)从PDF文件提取文本,这种方法工作正常。 问题是我们在PDF文件中有像α,β和其他特殊字符的符号,它们不会在生成的txt文件中显示。文本中也随机添加了一些额
我正在尝试使用Perl从PDF文件中提取文本。我一直在使用pdftotext.exe从命令行(即使用Perl系统功能)从PDF文件提取文本,这种方法工作正常。

问题是我们在PDF文件中有像α,β和其他特殊字符的符号,它们不会在生成的txt文件中显示。文本中也随机添加了一些额外的空格。

是否有更好和更可靠的方式从PDF文件中提取文本,使文本将包括像α,β等所有符号,文本将完全匹配PDF中的文本(即没有额外的空格)?

解决方法

这些模块可以从pdf中获取提取文本

PDF::API2

CAM::PDF

CAM::PDF::PageText

从CPAN

my $pdf = CAM::PDF->new($filename);
   my $pageone_tree = $pdf->getPageContentTree(1);
   print CAM::PDF::PageText->render($pageone_tree);

此模块尝试从PDF页面中提取顺序文本。这不是一个健壮的过程,因为PDF文本以任意顺序图形化显示。该模块使用几个启发式方法来尝试猜测什么文本旁边的其他文本,但可能会被容易地被愚弄,例如,下标,非水平文本,字体的更改,表单域等。

除了这些免责声明外,它可以从简单的PDF文件快速转储文本。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读