正则表达式 – 如何测量字符串之间的相似度?
发布时间:2020-12-14 06:38:36 所属栏目:百科 来源:网络整理
导读:我有一堆名字,我想要获得唯一的名字。但是,由于数据中的拼写错误和不一致,名称可能被写下来错误。我正在寻找一种方法来检查字符串矢量,如果其中两个是相似的。 例如: pres - c(" Obama,B.","Bush,G.W.","Obama,B.H.","Clinton,W.J.") 我想找到“奥巴马B
我有一堆名字,我想要获得唯一的名字。但是,由于数据中的拼写错误和不一致,名称可能被写下来错误。我正在寻找一种方法来检查字符串矢量,如果其中两个是相似的。
例如: pres <- c(" Obama,B.","Bush,G.W.","Obama,B.H.","Clinton,W.J.") 我想找到“奥巴马B.”和“奥巴马B.H.”非常相似。有没有办法做到这一点?
这可以基于例如Levenshtein距离来完成。这在不同的包中有多种实现。有些解决方案和包可以在这些问题的答案中找到:
> agrep: only return best match(es) 但大多数情况下,agrep会做你想要的: > sapply(pres,agrep,pres) $` Obama,B.` [1] 1 3 $`Bush,G.W.` [1] 2 $`Obama,B.H.` [1] 1 3 $`Clinton,W.J.` [1] 4 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- Oracle数据库备份恢复高级培训视频课程(案例、实战、深入、
- React Native——Touchable类组件
- postgreSQL polygon 类型错误(添加多边形postgreSQL)
- c# – 如果字段是实例成员,则使用Callback Handler异常
- 使用正则表达式在JavaScript中查找最长的重复子字符串
- c – 如何在范围表达式中延长临时的生命周期?
- Flash 该不该开源?程序员水平如何评价?| 源资讯
- Flex中图片绑定的一点感触
- objective-c – 将NSData字节数组转换为字符串?
- ruby-on-rails – Rails ActiveRecord Model.uniq.pluck:i