正则表达式 – 自然语言处理修复组合单词
发布时间:2020-12-13 21:53:56 所属栏目:百科 来源:网络整理
导读:我有一些由另一个系统生成的文本.它将一些单词组合在一起,我认为是某种文字包装副产品.所以像“狗”这样简单的东西就会组合成“狗”. 我检查了ascii和unicode字符串,看看那里没有一些看不见的字符,但没有.一个令人困惑的问题是,这是医学文本,要检查的语料库
我有一些由另一个系统生成的文本.它将一些单词组合在一起,我认为是某种文字包装副产品.所以像“狗”这样简单的东西就会组合成“狗”.
我检查了ascii和unicode字符串,看看那里没有一些看不见的字符,但没有.一个令人困惑的问题是,这是医学文本,要检查的语料库不是可用的.因此,真正的例子是“…排除SARS与肺炎的试验”最终成为“……肺炎”. 有人建议找到并分离这些吗?
这可能是您感兴趣的
http://www.perlmonks.org/?node_id=336331
您可以使用两个词典来使用文本的医学性质,其中一个词典仅包含医学术语和一个通用英语. 如果你可以找出医学单词然后在一般字典中运行其余的字符串,你应该得到一些不错的结果. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |