scala – 从文本中有效地提取WikiData实体

发布时间：2020-12-16 18:34:28 所属栏目：安全来源：网络整理

导读：我有很多文本(数百万),从100到4000字不等.文本被格式化为书面作品,带有标点符号和语法.一切都用英文. 问题很简单：如何从给定文本中提取每个WikiData实体？实体被定义为每个名词,正确或规??则.即,人,组织,地点和椅子,土豆等的名称. 到目前为止,我已经尝试了

我有很多文本(数百万),从100到4000字不等.文本被格式化为书面作品,带有标点符号和语法.一切都用英文.

问题很简单：如何从给定文本中提取每个WikiData实体？

实体被定义为每个名词,正确或规??则.即,人,组织,地点和椅子,土豆等的名称.

到目前为止,我已经尝试了以下内容：

>使用OpenNLP对文本进行标记,并使用pre-trained models提取人员,位置,组织和常规名词.
>在适用的情况下申请Porter Stemming.
>将所有提取的名词与wmflabs-API匹配,以检索潜在的WikiData ID.

这有效,但我觉得我可以做得更好.一个明显的改进是在本地缓存相关的WikiData,我打算这样做.但是,在我这样做之前,我想检查是否有其他解决方案.

建议？

我标记了Scala的问题,因为我正在使用Spark来完成任务.

解决方法

一些建议：

>考虑将Stanford NER与OpenNLP进行比较,以了解它如何在您的语料库中进行比较
>我想知道大多数实体名称的价值
>我怀疑你可能会通过将任务划分为不连续的阶段来丢失信息
>虽然维基数据是新的,但任务不是,所以你可能会看一下Freebase的文章| DBpedia |维基百科实体识别|消歧

特别是,DBpedia Spotlight是一个专为此任务而设计的系统.

http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdf
http://ceur-ws.org/Vol-1057/Nebhi_LD4IE2013.pdf

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!