在SAS中使用PROC SQL查找与给定字符串最多一个字母的字符串
发布时间:2020-12-12 16:47:49 所属栏目:MsSql教程 来源:网络整理
导读:首先是一些上下文.我在SAS中使用proc sql,并且需要获取具有等同于(就是说)“Massachusetts”的变量“Name”的数据集(有几百万条)中的所有条目.当然,由于数据曾经是人类手动输入的,所以接近所有想到的拼写错误(“Amssachusetts”,“Kassachusetts”等). 我发现
首先是一些上下文.我在SAS中使用proc sql,并且需要获取具有等同于(就是说)“Massachusetts”的变量“Name”的数据集(有几百万条)中的所有条目.当然,由于数据曾经是人类手动输入的,所以接近所有想到的拼写错误(“Amssachusetts”,“Kassachusetts”等).
我发现几个条目有两个以上的字符错误,所以代码 Name like "__ssachusetts" OR Name like "_a_sachusetts" OR ... OR Name like "Massachuset__" 将选择我正在寻找的条目.但是,我希望写一个更方便的方法 Name that differs by at most 2 characters from "Massachusetts"; 在那儿?还是还有其他一些提取这些条目的策略?我尝试搜索stackoverflow和web,但是不成功.我也是SQL和SAS的初学者. 一些额外的信息:数据库不是英文(实际的字符串不是“马萨诸塞州”),所以使用SOUNDEX是不是真的可行(如果有的话). 提前致谢. (编辑:改进标题) 解决方法SAS内置函数 COMPGED和 COMPLEV来计算字符串之间的距离.下面是一个示例,显示如何仅选择Levenshtein编辑距离小于或等于2的那些.data typo; input name $20.; datalines; massachusetts masachusets mssachusetts nassachusets nassachussets massachusett ; proc sql; select name from typo where complev(name,"massachusetts") <= 2; quit; (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |