加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

c# – 文本中的异常

发布时间:2020-12-15 17:16:11 所属栏目:百科 来源:网络整理
导读:让我举个例子来解释一下. 我们有以下文字: “Comme Il Faut成立于1927年.烟草公司以其为全球合作伙伴生产定制自有品牌的声誉而闻名.” 这是正常的文字.但是以下文字: “CommeIlFaut于1927年成立.这家烟草公司最为人所知的是为全球范围内的合作伙伴生产定制
让我举个例子来解释一下.
我们有以下文字:

“Comme Il Faut成立于1927年.烟草公司以其为全球合作伙伴生产定制自有品牌的声誉而闻名.”

这是正常的文字.但是以下文字:

“CommeIlFaut于1927年成立.这家烟草公司最为人所知的是为全球范围内的合作伙伴生产定制的私人品牌

这是文本异常:拼写错误,没有空格的单词,也许是别的东西.

如何搜索这样的异常?
有什么算法(统计)?

期望结果是百分比:例如,80%的异常.

谢谢.

解决方法

使用字典中的所有已知单词构造一个 Trie树. 记下文本中的每个单词并尝试在Trie树中找到它.如果你没有找到它,那么尝试匹配length-k的前缀.如果找到匹配项,则对其余的k字符应用相同的过程.它是递归的,它可以捕获超过两个连接的单词

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读