正则表达式 – 如何基于真实数据自动创建模式？

发布时间：2020-12-14 02:29:15 所属栏目：百科来源：网络整理

导读：我在数据库中有很多供应商,他们在数据的某些方面都有所不同.我想制作基于以前数据的数据验证规则. 例： A: XZ-4,XZ-23,XZ-217B: 1276,1899,22711C: 12-4,12-75,12 目标：如果用户为供应商B输入字符串’XZ-217′,算法应比较先前的数据并说：该字符串与供应商B

我在数据库中有很多供应商,他们在数据的某些方面都有所不同.我想制作基于以前数据的数据验证规则.

例：

A: XZ-4,XZ-23,XZ-217
B: 1276,1899,22711
C: 12-4,12-75,12

目标：如果用户为供应商B输入字符串’XZ-217′,算法应比较先前的数据并说：该字符串与供应商B先前的数据不相似.

是否有一些好方法/工具来实现这种比较？答案可能是一些通用的算法或Perl模块.

编辑：
我同意,“相似性”很难界定.但是我想抓住算法,它可以分析之前的100个样本,然后将分析结果与新数据进行比较.相似性可以基于长度,字符/数字的使用,字符串创建模式,类似的开始/结束/中间,具有一些分隔符.

我觉得这不是一件容易的事,但另一方面,我觉得它有很广泛的用途.所以我希望,已经有了一些提示.

您可能想要仔细阅读：
http://en.wikipedia.org/wiki/String_metric和 http://search.cpan.org/dist/Text-Levenshtein/Levenshtein.pm(例如)

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!