php – 如何从文档中提取/识别文本?
我需要从上传的文档中提取纯文本,以使其可搜索.文档可以是MS Word或pdf(扫描或包含文本).有问题的应用程序在LAMP堆栈上运行,但安装其他软件可能是一种选择.是否有任何工具,服务,库或您可以推荐的组合来完成此任务?
解决方法
您可以使用
shell实用程序的组合,例如用于PDF的pdftotext,用于DOC的wvWare,用于DOCX的docx2txt.pl,就像
textractor ruby??gem一样.
# on Ubuntu apt-get install wv xpdf-utils links 还有用于提取PDF和docx的本机php类. 另一个rubygem,即使是Tesseract,它甚至为你做OCR,也是docsplit. 将Solr用于索引和搜索可能是个好主意.您可以使用Solr Cell插件索引和搜索Word文档,PDF等.我在其中一个项目中成功使用它. Solr Cell基于Apache POI,Tika和PDFBox等几个项目. 棘手的部分是设置所有依赖于细胞的jar和solr模式,并找出索引请求参数,但所有这些都可以从wiki文档中找到. Here’s我的罐子和架构让你开始,架构的相关部分是包含“附件”的行. 但是,Solr Cell不会进行OCR.您必须首先使用OCR引擎才能使它们可搜索. 对于OCR,您可以使用由Google开发的OpenSource Engine Tesseract,或者您可能希望查看商业引擎Abbyy.两者都是命令行工具,您可以从您的PHP脚本运行.要从Tesbyract获得与Abbyy相当的结果,您必须进行一些预处理和后处理1.还有云服务,这可能是一个更容易的选择.例如,Wisetrend和Abbyy Cloud.后者目前处于测试阶段,所以它是免费的,它已经准备好了PHP code samples. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |