正则表达式 – 如何测量字符串之间的相似度？

发布时间：2020-12-14 06:38:36 所属栏目：百科来源：网络整理

导读：我有一堆名字，我想要获得唯一的名字。但是，由于数据中的拼写错误和不一致，名称可能被写下来错误。我正在寻找一种方法来检查字符串矢量，如果其中两个是相似的。例如： pres - c(" Obama,B.","Bush,G.W.","Obama,B.H.","Clinton,W.J.") 我想找到“奥巴马B

我有一堆名字，我想要获得唯一的名字。但是，由于数据中的拼写错误和不一致，名称可能被写下来错误。我正在寻找一种方法来检查字符串矢量，如果其中两个是相似的。

例如：

pres <- c(" Obama,B.","Bush,G.W.","Obama,B.H.","Clinton,W.J.")

我想找到“奥巴马B.”和“奥巴马B.H.”非常相似。有没有办法做到这一点？

这可以基于例如Levenshtein距离来完成。这在不同的包中有多种实现。有些解决方案和包可以在这些问题的答案中找到：

> agrep: only return best match(es)
> In R,how do I replace a string that contains a certain pattern with another string?
> Fast Levenshtein distance in R?

但大多数情况下，agrep会做你想要的：

> sapply(pres,agrep,pres)
$` Obama,B.`
[1] 1 3

$`Bush,G.W.`
[1] 2

$`Obama,B.H.`
[1] 1 3

$`Clinton,W.J.`
[1] 4

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!