如何从Perl中的PDF文件中提取文本?
发布时间:2020-12-15 21:17:32 所属栏目:大数据 来源:网络整理
导读:我正在尝试使用Perl从PDF文件中提取文本。我一直在使用pdftotext.exe从命令行(即使用Perl系统功能)从PDF文件提取文本,这种方法工作正常。 问题是我们在PDF文件中有像α,β和其他特殊字符的符号,它们不会在生成的txt文件中显示。文本中也随机添加了一些额
我正在尝试使用Perl从PDF文件中提取文本。我一直在使用pdftotext.exe从命令行(即使用Perl系统功能)从PDF文件提取文本,这种方法工作正常。
问题是我们在PDF文件中有像α,β和其他特殊字符的符号,它们不会在生成的txt文件中显示。文本中也随机添加了一些额外的空格。 是否有更好和更可靠的方式从PDF文件中提取文本,使文本将包括像α,β等所有符号,文本将完全匹配PDF中的文本(即没有额外的空格)? 解决方法
这些模块可以从pdf中获取提取文本
PDF::API2 CAM::PDF CAM::PDF::PageText 从CPAN my $pdf = CAM::PDF->new($filename); my $pageone_tree = $pdf->getPageContentTree(1); print CAM::PDF::PageText->render($pageone_tree); 此模块尝试从PDF页面中提取顺序文本。这不是一个健壮的过程,因为PDF文本以任意顺序图形化显示。该模块使用几个启发式方法来尝试猜测什么文本旁边的其他文本,但可能会被容易地被愚弄,例如,下标,非水平文本,字体的更改,表单域等。 除了这些免责声明外,它可以从简单的PDF文件快速转储文本。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |