java – 从文本中进行单词边界检测
我有这个问题与字边界识别.我删除了维基百科文档的所有标记,现在我想获得一个实体列表.(有意义的术语).我打算拿文件的二元组,并检查它是否存在于字典(wordnet)中.有没有更好的方法来实现这一目标.
以下是示例文本.我想识别实体(显示为双引号括起来) 瓦肯人是虚构的“星际迷航”宇宙中的人形物种,他们在瓦肯人的星球上进化而且以其理性和逻辑而不受干扰的生存而着称. 谢谢 解决方法
我认为你所谈论的内容实际上仍然是一个新兴研究的主题,而不是应用成熟算法的简单问题.
我不能给你一个简单的“做这个”答案,但这里有一些指尖: >我认为使用WordNet可以工作(不确定bigrams / trigrams在哪里进入),但你应该将WordNet查找视为混合系统的一部分,而不是发现命名实体的全部和最终结果 事实是,当你看到那里的文献时,人们似乎并没有使用非常复杂,完善的算法.所以我认为有很大的空间来查看你的数据,探索和看到你能想到的……祝你好运! (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |