加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式 – 自然语言处理修复组合单词

发布时间:2020-12-13 21:53:56 所属栏目:百科 来源:网络整理
导读:我有一些由另一个系统生成的文本.它将一些单词组合在一起,我认为是某种文字包装副产品.所以像“狗”这样简单的东西就会组合成“狗”. 我检查了ascii和unicode字符串,看看那里没有一些看不见的字符,但没有.一个令人困惑的问题是,这是医学文本,要检查的语料库
我有一些由另一个系统生成的文本.它将一些单词组合在一起,我认为是某种文字包装副产品.所以像“狗”这样简单的东西就会组合成“狗”.

我检查了ascii和unicode字符串,看看那里没有一些看不见的字符,但没有.一个令人困惑的问题是,这是医学文本,要检查的语料库不是可用的.因此,真正的例子是“…排除SARS与肺炎的试验”最终成为“……肺炎”.

有人建议找到并分离这些吗?

这可能是您感兴趣的 http://www.perlmonks.org/?node_id=336331

您可以使用两个词典来使用文本的医学性质,其中一个词典仅包含医学术语和一个通用英语.

如果你可以找出医学单词然后在一般字典中运行其余的字符串,你应该得到一些不错的结果.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读