加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > MsSql教程 > 正文

在SAS中使用PROC SQL查找与给定字符串最多一个字母的字符串

发布时间:2020-12-12 16:47:49 所属栏目:MsSql教程 来源:网络整理
导读:首先是一些上下文.我在SAS中使用proc sql,并且需要获取具有等同于(就是说)“Massachusetts”的变量“Name”的数据集(有几百万条)中的所有条目.当然,由于数据曾经是人类手动输入的,所以接近所有想到的拼写错误(“Amssachusetts”,“Kassachusetts”等). 我发现
首先是一些上下文.我在SAS中使用proc sql,并且需要获取具有等同于(就是说)“Massachusetts”的变量“Name”的数据集(有几百万条)中的所有条目.当然,由于数据曾经是人类手动输入的,所以接近所有想到的拼写错误(“Amssachusetts”,“Kassachusetts”等).

我发现几个条目有两个以上的字符错误,所以代码

Name like "__ssachusetts" OR Name like "_a_sachusetts" OR ... OR Name like "Massachuset__"

将选择我正在寻找的条目.但是,我希望写一个更方便的方法

Name that differs by at most 2 characters from "Massachusetts";

在那儿?还是还有其他一些提取这些条目的策略?我尝试搜索stackoverflow和web,但是不成功.我也是SQL和SAS的初学者.

一些额外的信息:数据库不是英文(实际的字符串不是“马萨诸塞州”),所以使用SOUNDEX是不是真的可行(如果有的话).

提前致谢.

(编辑:改进标题)

解决方法

SAS内置函数 COMPGED和 COMPLEV来计算字符串之间的距离.下面是一个示例,显示如何仅选择Levenshtein编辑距离小于或等于2的那些.
data typo;
input name $20.;
datalines;
massachusetts
masachusets
mssachusetts
nassachusets
nassachussets
massachusett
;

proc sql;
  select name from typo
  where complev(name,"massachusetts") <= 2;
quit;

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读