scala – 从文本中有效地提取WikiData实体
我有很多文本(数百万),从100到4000字不等.文本被格式化为书面作品,带有标点符号和语法.一切都用英文.
问题很简单:如何从给定文本中提取每个WikiData实体? 实体被定义为每个名词,正确或规??则.即,人,组织,地点和椅子,土豆等的名称. 到目前为止,我已经尝试了以下内容: >使用OpenNLP对文本进行标记,并使用pre-trained models提取人员,位置,组织和常规名词. 这有效,但我觉得我可以做得更好.一个明显的改进是在本地缓存相关的WikiData,我打算这样做.但是,在我这样做之前,我想检查是否有其他解决方案. 建议? 我标记了Scala的问题,因为我正在使用Spark来完成任务. 解决方法
一些建议:
>考虑将Stanford NER与OpenNLP进行比较,以了解它如何在您的语料库中进行比较 特别是,DBpedia Spotlight是一个专为此任务而设计的系统. http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdf (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |