java – 从文本中进行单词边界检测

发布时间：2020-12-15 02:21:38 所属栏目：Java 来源：网络整理

导读：我有这个问题与字边界识别.我删除了维基百科文档的所有标记,现在我想获得一个实体列表.(有意义的术语).我打算拿文件的二元组,并检查它是否存在于字典(wordnet)中.有没有更好的方法来实现这一目标. 以下是示例文本.我想识别实体(显示为双引号括起来) 瓦肯人是

我有这个问题与字边界识别.我删除了维基百科文档的所有标记,现在我想获得一个实体列表.(有意义的术语).我打算拿文件的二元组,并检查它是否存在于字典(wordnet)中.有没有更好的方法来实现这一目标.

以下是示例文本.我想识别实体(显示为双引号括起来)

瓦肯人是虚构的“星际迷航”宇宙中的人形物种,他们在瓦肯人的星球上进化而且以其理性和逻辑而不受干扰的生存而着称.
他们是第一个正式与人类接触的外星物种,后来成为“联合行星联盟”的创始成员之一

谢谢
巴拉

解决方法

我认为你所谈论的内容实际上仍然是一个新兴研究的主题,而不是应用成熟算法的简单问题.

我不能给你一个简单的“做这个”答案,但这里有一些指尖：

>我认为使用WordNet可以工作(不确定bigrams / trigrams在哪里进入),但你应该将WordNet查找视为混合系统的一部分,而不是发现命名实体的全部和最终结果
>然后,首先应用一些简单的常识性标准(大写单词序列;尝试并适应频繁的小写函数单词,如’of’到这些;由“已知标题”加上首字母单词组成的序列);
>寻找统计上你不希望彼此相邻的单词序列作为实体的候选者;
>你能建立动态网页查找吗？ (您的系统会查看大写序列“IBM”,并查看是否找到例如带有文本模式“IBM is … [organization | company | …]”的维基百科条目.
>看看这里和“信息提取”文献中的任何内容是否会给你一些想法：http://www-nlpir.nist.gov/related_projects/muc/proceedings/muc_7_toc.html

事实是,当你看到那里的文献时,人们似乎并没有使用非常复杂,完善的算法.所以我认为有很大的空间来查看你的数据,探索和看到你能想到的……祝你好运！

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!