go语言正则表达式-实践教程

发布时间：2020-12-14 06:38:57 所属栏目：百科来源：网络整理

导读：正则表达式处理使用到的库 regexp 使用到regexp库函数有 MustCompile 和 Compile MustCompile 的作用和 Compile 一样,将正则表达式编译成一个正则对象（使用 PERL 语法）。该正则对象会采用“leftmost-first”模式。选择第一个匹配结果.如果正则表达式语法错

正则表达式处理使用到的库

regexp

使用到regexp库函数有

MustCompile 和 Compile

MustCompile 的作用和 Compile 一样,将正则表达式编译成一个正则对象（使用 PERL 语法）。
该正则对象会采用“leftmost-first”模式。选择第一个匹配结果.如果正则表达式语法错误，则返
回错误信息。不同的是，当正则表达式 str 不合法时，MustCompile 会抛出异常,而 Compile 仅返回一个 error 值

FindString

返回匹配上正则表达式最左边的一个字符串，如果没有匹配上会返回空字符串

实践

例1 获取下面文本中的company（公司名称）、address（地址）、telephone（电话）

<ul class="t3">     
              <li class="company">山东东阿阿胶股份有限公司</li>
              <li class="address">山东省东阿县阿胶街78号</li>
               <li class="telephone">0635-3262315</li>

    </ul>

正则表达式

<li class="company">(.+)</li>
        <li class="company">(.+)</li>
        <li class="telephone">(.+)</li>

代码实现

package ...
    import (
        ...
        "regexp"
        ...
    )
    ...

    var (
        company          = regexp.MustCompile(`<li class="company">(.+)</li>`)
        address          = regexp.MustCompile(`<li class="address">(.+)</li>`)
        telephone        = regexp.MustCompile(`<li class="telephone">(.+)</li>`)
        )

    var (
        respBody = ` 
                <ul class="t3">
                    <li class="company">山东东阿阿胶股份有限公司</li>
                    <li class="address">山东省东阿县阿胶街78号</li>
                    <li class="telephone">0635-3262315</li>
                </ul>`
    )

companyMatches := company.FindString(respBody)
companyRst := strings.TrimSpace(strings.Trim(strings.Trim(companyMatches,`<li class="company">`),`</`))  

addressMatches := address.FindString(respBody)
addre***st := strings.TrimSpace(strings.Trim(strings.Trim(addressMatches,`<li class="address">`),`</`))

telephoneMatches := telephone.FindString(respBody)
telephoneRst := strings.TrimSpace(strings.Trim(strings.Trim(telephoneMatches,`<li class="telephone">`),`</`))

讲解：

其中正则表达式   `<li class="company">(.+)</li>`  的意思是匹配以<li class="company">开头，以</li>结尾，中间匹配一次或多次除换行符之外的任何字符

'.' 匹配除换行符（n、r）之外的任何单个字符。要匹配包括 'n' 在内的任何字符，请使用像"(.|n)"的模式。

'+' 匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。

例2 将HTML标签全转换成小写

re,_ := regexp.Compile("<[Ss]+?>")或者
    re,_ = regexp.Compile(`&;[Ss]+?&;`)
respBody = re.ReplaceAllStringFunc(respBody,strings.ToLower)

讲解：

匹配以'<'开头，以’&;‘结尾，中间匹配一个或多个任意字符，而且尽可能少的匹配所搜索到的字符，因为?标示非贪婪模式

    举个例子：
            正则表达式`&;[Ss]+?&;处理下面字符串 ’<test1&; nice<test2&;‘，返回结果’<test1&;‘
            而正则表达式`&;[Ss]+&;处理下面字符串 ’<test1&; nice<test2&;‘，返回接’<test1&; nice<test2&;‘

？当该字符紧跟在任何一个其他限制符 (*,+,?,{n},{n,},m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个 "o"，而 'o+' 将匹配所有 'o'。
s  匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ fnrtv]。
S  匹配任何非空白字符。等价于 [^ fnrtv]。

例3 去除STYLE

re,_ = regexp.Compile("<style[Ss]+?</style>")或者
    re,_ = regexp.Compile(`&;style[Ss]+?&;/style&;`)
respBody = re.ReplaceAllString(respBody,"")

讲解：
同例2

例4 去除SCRIPT

re,_ = regexp.Compile("<script[Ss]+?</script>") 或者
    re,_ = regexp.Compile(`&;script[Ss]+?&;/script&;`)
respBody = re.ReplaceAllString(respBody,"")

讲解：
同例3

例5 去除所有尖括号内的HTML代码，并换成换行符

re,_ = regexp.Compile("<[Ss]+?>")
respBody = re.ReplaceAllString(respBody,"n")

讲解：
同例3

例6 去除连续的换行符

re,_ = regexp.Compile("s{1,}")
respBody = re.ReplaceAllString(respBody,"n")

讲解：

{n,}  n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

例7 查找下面尾页数字15

<a  target='_self' href='/search/不孕症-p15/' class='last'>尾页</a>

代码：

allPage       = regexp.MustCompile(`<a  target='_self' href='/search/[.x{4e00}-x{9fa5}0-9]+-p[0-9]/'[ ]*class='last'>尾页</a>`)
allPagePrefix = regexp.MustCompile(`<a  target='_self' href='/search/[.x{4e00}-x{9fa5}0-9]+-p`)
allPageSuffix = regexp.MustCompile(`/'[ ]*class='last'>x{5c3e}x{9875}</a>`)

numPage = allPage.FindString(body)
numPage = allPagePrefix.ReplaceAllString(numPage,"")
numPage = allPageSuffix.ReplaceAllString(numPage,"")

匹配详解：
正则表达式<a target='_self' href='/search/[.x{4e00}-x{9fa5}0-9]+-p[0-9]/'[ ]*class='last'>尾页</a>：

匹配以"<a  target='_self' href='/search/"开头，以class='last'>尾页</a>结尾，中间匹配若干个除换行外的任意字符或者中文字符

    简易爬虫实战项目代码路径：https://github.com/KenmyZhang/medicine-manual-spider

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!