加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

php – 解析文本文档的最佳方法

发布时间:2020-12-13 17:54:38 所属栏目:PHP教程 来源:网络整理
导读:我试图用 PHP解析纯文本文档,但不知道如何正确地执行它. 我想分隔每个单词,为它们分配一个ID并以JSON格式保存结果. 示范文本: "Hello,how are you (today)" 这就是我现在正在做的事情: $document_array = explode(' ',$document_text);json_encode($docume
我试图用 PHP解析纯文本文档,但不知道如何正确地执行它.
我想分隔每个单词,为它们分配一个ID并以JSON格式保存结果.

示范文本:

"Hello,how are you (today)"

这就是我现在正在做的事情:

$document_array  = explode(' ',$document_text);
json_encode($document_array);

生成的JSON是

[["Hello,"],["how"],["are"],["you"],["(today)"]]

如何确保空间保留在原位,并且符号不包含在单词中……

[["Hello"],[",[" "],["  ("],["today"],[")"]]

我确定需要某种正则表达式…但不知道应用什么样的模式来处理所有情况……有什么建议吗?

这实际上是一个非常复杂的问题,并且受到相当多的学术研究.这听起来很简单(只是在空格上分开!可能有一些标点规则……)但你很快就遇到了问题. “没有”一两个字?连字符怎么样?有些可能是一个词,有些可能是两个词.多个连续的标点符号怎么样?占有与报价?甚至确定一个句子的结尾也是不平凡的. (这只是一个句号吗?!)

这个问题是tokenisation之一,也是搜索引擎非常重视的话题.说实话,你应该真正选择用你选择的语言找到一个tokeniser.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读