加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

php – 如何从文档中提取/识别文本?

发布时间:2020-12-13 17:40:09 所属栏目:PHP教程 来源:网络整理
导读:我需要从上传的文档中提取纯文本,以使其可搜索.文档可以是MS Word或pdf(扫描或包含文本).有问题的应用程序在LAMP堆栈上运行,但安装其他软件可能是一种选择.是否有任何工具,服务,库或您可以推荐的组合来完成此任务? 解决方法 您可以使用 shell实用程序的组合
我需要从上传的文档中提取纯文本,以使其可搜索.文档可以是MS Word或pdf(扫描或包含文本).有问题的应用程序在LAMP堆栈上运行,但安装其他软件可能是一种选择.是否有任何工具,服务,库或您可以推荐的组合来完成此任务?

解决方法

您可以使用 shell实用程序的组合,例如用于PDF的pdftotext,用于DOC的wvWare,用于DOCX的docx2txt.pl,就像 textractor ruby??gem一样.

# on Ubuntu
apt-get install wv xpdf-utils links

还有用于提取PDF和docx的本机php类.

另一个rubygem,即使是Tesseract,它甚至为你做OCR,也是docsplit.

将Solr用于索引和搜索可能是个好主意.您可以使用Solr Cell插件索引和搜索Word文档,PDF等.我在其中一个项目中成功使用它. Solr Cell基于Apache POI,Tika和PDFBox等几个项目.

棘手的部分是设置所有依赖于细胞的jar和solr模式,并找出索引请求参数,但所有这些都可以从wiki文档中找到. Here’s我的罐子和架构让你开始,架构的相关部分是包含“附件”的行.

但是,Solr Cell不会进行OCR.您必须首先使用OCR引擎才能使它们可搜索.

对于OCR,您可以使用由Google开发的OpenSource Engine Tesseract,或者您可能希望查看商业引擎Abbyy.两者都是命令行工具,您可以从您的PHP脚本运行.要从Tesbyract获得与Abbyy相当的结果,您必须进行一些预处理和后处理1.还有云服务,这可能是一个更容易的选择.例如,Wisetrend和Abbyy Cloud.后者目前处于测试阶段,所以它是免费的,它已经准备好了PHP code samples.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读