database – 匹配模糊字符串
发布时间:2020-12-13 16:16:32 所属栏目:百科 来源:网络整理
导读:我需要在PostgreSQL中将两个表合并在公共变量“公司名称”上.不幸的是,许多公司名称并不完全匹配(即一个表中的MICROSOFT,另一个表中的MICROSFT).我尝试从两个列中删除常用词,例如“corporation”或“inc”或“ltd”,以便尝试在两个表中标准化名称,但我无法考
我需要在PostgreSQL中将两个表合并在公共变量“公司名称”上.不幸的是,许多公司名称并不完全匹配(即一个表中的MICROSOFT,另一个表中的MICROSFT).我尝试从两个列中删除常用词,例如“corporation”或“inc”或“ltd”,以便尝试在两个表中标准化名称,但我无法考虑其他策略.有任何想法吗?
谢谢. 此外,如果有必要,我可以在R中这样做
你考虑过fuzzystrmatch模块吗?你可以使用soundex,差异,levenshtein,metaphone和dmetaphone,或者组合.
fuzzystrmatch documentation SELECT something FROM somewhere WHERE levenshtein(item1,item2) < Carefully_Selected_Threshold 例如,从MICROSOFT到MICROSFT的levenshtein距离是一(1). levenshtein(dmetaphone('MICROSOFT'),dmetaphone('MICROSFT') 以上返回零(0).结合levenshtein和dmetaphone可以帮助你匹配许多拼写错误. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |