加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – 从文本中有效地提取WikiData实体

发布时间:2020-12-16 18:34:28 所属栏目:安全 来源:网络整理
导读:我有很多文本(数百万),从100到4000字不等.文本被格式化为书面作品,带有标点符号和语法.一切都用英文. 问题很简单:如何从给定文本中提取每个WikiData实体? 实体被定义为每个名词,正确或规??则.即,人,组织,地点和椅子,土豆等的名称. 到目前为止,我已经尝试了
我有很多文本(数百万),从100到4000字不等.文本被格式化为书面作品,带有标点符号和语法.一切都用英文.

问题很简单:如何从给定文本中提取每个WikiData实体?

实体被定义为每个名词,正确或规??则.即,人,组织,地点和椅子,土豆等的名称.

到目前为止,我已经尝试了以下内容:

>使用OpenNLP对文本进行标记,并使用pre-trained models提取人员,位置,组织和常规名词.
>在适用的情况下申请Porter Stemming.
>将所有提取的名词与wmflabs-API匹配,以检索潜在的WikiData ID.

这有效,但我觉得我可以做得更好.一个明显的改进是在本地缓存相关的WikiData,我打算这样做.但是,在我这样做之前,我想检查是否有其他解决方案.

建议?

我标记了Scala的问题,因为我正在使用Spark来完成任务.

解决方法

一些建议:

>考虑将Stanford NER与OpenNLP进行比较,以了解它如何在您的语料库中进行比较
>我想知道大多数实体名称的价值
>我怀疑你可能会通过将任务划分为不连续的阶段来丢失信息
>虽然维基数据是新的,但任务不是,所以你可能会看一下Freebase的文章| DBpedia |维基百科实体识别|消歧

特别是,DBpedia Spotlight是一个专为此任务而设计的系统.

http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdf
http://ceur-ws.org/Vol-1057/Nebhi_LD4IE2013.pdf

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读