加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java – Word Base / Stem Dictionary

发布时间:2020-12-15 08:35:58 所属栏目:Java 来源:网络整理
导读:看来我的Google-fu让我失望了. 有没有人知道一个免费提供的单词基础字典只包含单词的基础?所以,对于像草莓这样的东西,它会有草莓.但是不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在Java中快速使用的东西都会很好,但只是一个映射的文本文件或任
看来我的Google-fu让我失望了.

有没有人知道一个免费提供的单词基础字典只包含单词的基础?所以,对于像草莓这样的东西,它会有草莓.但是不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在Java中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的内容都会有所帮助.

解决方法

这被称为词形还原,你称之为“词的基础”被称为引理. morpha及其在斯坦福POS标签中的 reimplementation执行此操作.然而,两者都需要POS标记输入来解决自然语言中固有的歧义.

(POS标记意味着确定单词类别,例如名词,动词.我一直假设你想要一个处理英语的工具.)

编辑:因为您将使用此搜索,这里有一些提示:

>简单的英语词汇在搜索引擎世界中享有盛誉.有时候它有效,但往往没有.
>自动拼写纠正可能会更好.这就是Google的作用.但是,如果你想做正确的话,它在计算时间方面是昂贵的.
>词形还原可能会带来好处,但可能只有在您索引并搜索单词和词条时才有效. (相同的建议适用于词干.)
>这是一个进行词形还原的plugin for Lucene.

(前面的评论是基于我自己的研究;我写了我的硕士论文,关于搜索引擎中的词义化,以获得非常嘈杂的数据.)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读