php – 如何从文档中提取/识别文本？

发布时间：2020-12-13 17:40:09 所属栏目：PHP教程来源：网络整理

导读：我需要从上传的文档中提取纯文本,以使其可搜索.文档可以是MS Word或pdf(扫描或包含文本).有问题的应用程序在LAMP堆栈上运行,但安装其他软件可能是一种选择.是否有任何工具,服务,库或您可以推荐的组合来完成此任务？解决方法您可以使用 shell实用程序的组合

我需要从上传的文档中提取纯文本,以使其可搜索.文档可以是MS Word或pdf(扫描或包含文本).有问题的应用程序在LAMP堆栈上运行,但安装其他软件可能是一种选择.是否有任何工具,服务,库或您可以推荐的组合来完成此任务？

解决方法

您可以使用 shell实用程序的组合,例如用于PDF的pdftotext,用于DOC的wvWare,用于DOCX的docx2txt.pl,就像 textractor ruby??gem一样.

# on Ubuntu
apt-get install wv xpdf-utils links

还有用于提取PDF和docx的本机php类.

另一个rubygem,即使是Tesseract,它甚至为你做OCR,也是docsplit.

将Solr用于索引和搜索可能是个好主意.您可以使用Solr Cell插件索引和搜索Word文档,PDF等.我在其中一个项目中成功使用它. Solr Cell基于Apache POI,Tika和PDFBox等几个项目.

棘手的部分是设置所有依赖于细胞的jar和solr模式,并找出索引请求参数,但所有这些都可以从wiki文档中找到. Here’s我的罐子和架构让你开始,架构的相关部分是包含“附件”的行.

但是,Solr Cell不会进行OCR.您必须首先使用OCR引擎才能使它们可搜索.

对于OCR,您可以使用由Google开发的OpenSource Engine Tesseract,或者您可能希望查看商业引擎Abbyy.两者都是命令行工具,您可以从您的PHP脚本运行.要从Tesbyract获得与Abbyy相当的结果,您必须进行一些预处理和后处理1.还有云服务,这可能是一个更容易的选择.例如,Wisetrend和Abbyy Cloud.后者目前处于测试阶段,所以它是免费的,它已经准备好了PHP code samples.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!