C语言正则表达式使用详解
标准的C和C++都不支持正则表达式,但有正则表达式的函数库提供这功能.
C语言处理正则表达式常用的函数有regcomp()、regexec()、regfree()和regerror()。 使用正则表达式步骤: 1)编译正则表达式 regcomp() 2)匹配正则表达式 regexec() 3)释放正则表达式 regfree() 4)获取regcomp 或者regexec 产生错误,获取包含错误信息的字符串 函数声明如下:1、int regcomp (regex_t *compiled,const char *pattern,int cflags) 这个函数把指定的正则表达式pattern编译成一种特定的数据格式(参数regex_t *compiled),这样可以使匹配更有效。 函数regexec 会使用这个数据在目标文本串中进行模式匹配。执行成功返回0。 参数说明:①regex_t 是一个结构体数据类型,用来存放编译后的正则表达式,它的成员re_nsub 用来存储正则表达式中的子正则表达式的个数,子正则表达式就是用圆括号包起来的部分表达式。 ②pattern 是指向我们写好的正则表达式的指针。 ③cflags 有如下4个值或者是它们或运算(|)后的值: REG_EXTENDED 以功能更加强大的扩展正则表达式的方式进行匹配。 REG_ICASE 匹配字母时忽略大小写。 REG_NOSUB 不用存储匹配后的结果。 REG_NEWLINE 识别换行符,这样'$'就可以从行尾开始匹配,'^'就可以从行的开头开始匹配。 2. int regexec (regex_t *compiled,char *string,size_t nmatch,regmatch_t matchptr [],int eflags) 当我们编译好正则表达式后,就可以用regexec 匹配我们的目标文本串了,如果在编译正则表达式的时候没有指定cflags的参数为REG_NEWLINE,则默认情况下是忽略换行符的,也就是把整个文本串当作一个字符串处理。执行成功返回0。 regmatch_t 是一个结构体数据类型,在regex.h中定义: typedef struct { regoff_t rm_so; regoff_t rm_eo; } regmatch_t; 成员rm_so 存放匹配文本串在目标串中的开始位置,rm_eo 存放结束位置。 通常我们以数组的形式定义一组这样的结构。因为往往我们的正则表达式中还包含子正则表达式。数组0单元存放主正则表达式位置,后边的单元依次存放子正则表达式位置。 参数说明: ①compiled 是已经用regcomp函数编译好的正则表达式。②string 是目标文本串。 ③nmatch 是regmatch_t结构体数组的长度。 ④matchptr regmatch_t类型的结构体数组,存放匹配文本串的位置信息。 ⑤eflags 有两个值 REG_NOTBOL不匹配行的开头,除非在 regcomp 编译时 cflag 设置 REG_NEWLINE。'^'匹配行的开头,不管 regexec 中是否设置 eflags 为 REG_NOTBOL 。 REG_NOTEOL不匹配行的结束,除非在 regcomp 编译时 cflag 设置 REG_NEWLINE 。'$' 匹配行的末尾,不管 regexec 中是否设置 eflags 为 REG_NOTEOL 。 3. void regfree (regex_t *compiled)当我们使用完编译好的正则表达式后,或者要重新编译其他正则表达式的时候,我们可以用这个函数清空compiled指向的regex_t结构体的内容,请记住,如果是重新编译的话,一定要先清空regex_t结构体。
4. size_t regerror (int errcode,regex_t *compiled,char *buffer,size_t length) 当执行regcomp 或者regexec 产生错误的时候,就可以调用这个函数而返回一个包含错误信息的字符串。参数说明: ①errcode 是由regcomp 和 regexec 函数返回的错误代号。 ②compiled 是已经用regcomp函数编译好的正则表达式,这个值可以为NULL。 ③buffer 指向用来存放错误信息的字符串的内存空间。 ④length 指明buffer的长度,如果这个错误信息的长度大于这个值,则regerror 函数会自动截断超出的字符串,但他仍然会返回完整的字符串的长度。所以我们可以用如下的方法先得到错误字符串的长度。 size_t length = regerror (errcode,compiled,NULL,0); 匹配Email的示例: #include <stdio.h> #include <sys/types.h> #include <regex.h> int main(int argc,char** argv) { int status,i; int cflags = REG_EXTENDED; regmatch_t pmatch[1]; const size_t nmatch = 1; regex_t reg; const char * pattern = "^w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$"; char * buf = "chenjiayi@126.com"; regcomp(®,pattern,cflags);//编译正则模式 status = regexec(®,buf,nmatch,0);//执行正则表达式和缓存的比较 if(status == REG_NOMATCH) printf("No matchn"); else if (0 == status) { printf("比较成功:"); for(i = pmatch[0].rm_so;i<pmatch[0].rm_eo;++i)putchar(buf[i]); printf("n"); } regfree(®); return 0; }
正则表达式 由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。 例如,正则表达式"testing"中没有包含任何元字符,它可以匹配"testing"和"testing123"等字符串,但是不能匹配"Testing"。
等价字符: 常用运算符与表达式: 分割语法: 语法与释义: 简写实例: 字符串;tel:086-0666-88810009999 原始正则:"^tel:[0-9]{1,3}-[0][0-9]{2,3}-[0-9]{8,11}$" 速记理解:开始 "tel:普通文本"[0-9数字]{1至3位}"-普通文本"[0数字][0-9数字]{2至3位}"-普通文本"[0-9数字]{8至11位} 结束" 等价简写后正则写法:"^tel:d{1,3}-[0]d{2,3}-d{8,11}$" ,简写语法不是所有语言都支持。 实例应用 1.验证用户名和密码:("^[a-zA-Z]w{5,15}$")正确格式:"[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位; 2.验证电话号码:("^(d{3,4}-)d{7,8}$")正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx; 3.验证手机号码:"^1[3|4|5|7|8][0-9]d{8}$"; 4.验证身份证号(15位或18位数字):"d{14}[[0-9],0-9xX]"; 5.验证Email地址:("^w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$"); 6.只能输入由数字和26个英文字母组成的字符串:("^[A-Za-z0-9]+$") ; 7.整数或者小数:^[0-9]+([.]{0,1}[0-9]+){0,1}$ 8.只能输入数字:"^[0-9]*$"。 9.只能输入n位的数字:"^d{n}$"。 10.只能输入至少n位的数字:"^d{n,}$"。 11.只能输入m~n位的数字:"^d{m,n}$"。 12.只能输入零和非零开头的数字:"^(0|[1-9][0-9]*)$"。 13.只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"。 14.只能输入有1~3位小数的正实数:"^[0-9]+(.[0-9]{1,3})?$"。 15.只能输入非零的正整数:"^+?[1-9][0-9]*$"。 16.只能输入非零的负整数:"^-[1-9][]0-9"*$。 17.只能输入长度为3的字符:"^.{3}$"。 18.只能输入由26个英文字母组成的字符串:"^[A-Za-z]+$"。 19.只能输入由26个大写英文字母组成的字符串:"^[A-Z]+$"。 20.只能输入由26个小写英文字母组成的字符串:"^[a-z]+$"。 21.验证是否含有^%&',;=?$"等字符:"[^%&',;=?$x22]+"。 22.只能输入汉字:"^[u4e00-u9fa5]{0,}$"。 23.验证URL:"^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$"。 24.验证一年的12个月:"^(0?[1-9]|1[0-2])$"正确格式为:"01"~"09"和"10"~"12"。 25.验证一个月的31天:"^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为;"01"~"09"、"10"~"29"和“30”~“31”。 26.获取日期正则表达式:d{4}[年|-|.]d{1-12}[月|-|.]d{1-31}日? 评注:可用来匹配大多数年月日信息。 27.匹配双字节字符(包括汉字在内):[^x00-xff] 评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 28.匹配空白行的正则表达式:ns*r 评注:可以用来删除空白行 29.匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?</>|<.*? /> 评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力 30.匹配首尾空白字符的正则表达式:^s*|s*$ 评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式 31.匹配网址URL的正则表达式:[a-zA-z]+://[^s]* 评注:网上流传的版本功能很有限,上面这个基本可以满足需求 32.匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 评注:表单验证时很实用 33.匹配腾讯QQ号:[1-9][0-9]{4,} 评注:腾讯QQ号从10 000 开始 34.匹配中国邮政编码:[1-9]d{5}(?!d) 评注:中国邮政编码为6位数字 35.匹配ip地址:((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)。(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |