Notepad++的正则表达式替换和替换
源地址:http://www.crifan.com/files/doc/docbook/rec_soft_npp/release/htmls/npp_func_regex_replace.html
3.4.Notepad++的正则表达式替换和替换对于替换功能,一般的文本编辑器,都具有此功能,但是对于高级的正则表达式替换,则很多都不支持。而此处Notepad++支持此功能。 正则表达式的替换,在很长一段时间内,我都没有用到过。而后来有此需求的时候,由于不熟悉,导致也没去折腾具体如何使用的。 后来有空去弄了下,终于搞懂了。对此类功能不了解的人,会没啥感觉,但是看了下面的介绍,你就会发现这类功能的强大之处。 例3.2.Notepad++正则表达式替换举例1:一次性替换多个文件的后缀 举例说明,此处我有个xml文件,其中原始的内容为: <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/right_click_then_property.jpg" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/right_click_then_property.jpg" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> ...... <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/advance_enviroment.jpg" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/advance_enviroment.jpg" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> 其中images/env_var/win/xxx.jpg出现的次数,有好几十处。 此处需要把images/env_var/win/xxx.jpg,全部替换为images/env_var/win/xxx.png,即替换文件的后缀。 但是呢,如果手动改的话,改动量很大,效率很低,所以要尽量避免手动改。 另外,此处也不能通过全局的那个替换功能,因为全局替换只适用于固定的文字xxx替换为yyy,而此处文件名都不一样,所以无法实现统一的替换。 此时,才会考虑用Notepad++的正则表达式替换,去实现复杂的,非规则性的替换功能。 而对于正则表达式的替换,最开始,由于不了解其语法,错写成: 查找目标 : images/env_var/win/w+.jpg 替换为(P): images/env_var/win/w+.png 则替换结果是错的,原来的文件名都被替换为w+这两个字符了: <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/w+.png" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/w+.png" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> ...... <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/w+.png" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/w+.png" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> 后来,参考了[10] 然后得知是用反斜杠,加上数字,实现向后引用(back reference)。
最后写出正确的语法: 查找目标 : images/env_var/win/(w+).jpg 替换为(P): images/env_var/win/1.png 可以成功替换为: <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/right_click_then_property.png" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/right_click_then_property.png" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> ...... <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/advance_enviroment.png" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/advance_enviroment.png" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> 如此,如果有类似需要,想要实现批量的,非规则性的替换,就可以好好利用Notepad++中的正则表达式去替换了。 例3.3.Notepad++正则表达式替换举例2:一次性替换多个路径 又比如,由于我把很多jpg,png等类型的图片,从images文件夹移动到了images下面的npp文件夹下了, 所以需要把一个文件中所有的: images/xxx.yyy 其中xxx为文件名(此处文件名全部都是只包含字母和下划线),yyy=jpg或png,都替换为 images/npp/xxx.yyy 此时,就可以写成: images/(w+).(w{3}) images/npp/1.2 此处提示我成功替换了58处: 相比之下,如果手动去改这58个地方,那真的是累死了不说,还容易由于手误而出错,效率太低。 通过正则表达式去替换,则是高效,又准确。 例3.4.Notepad++正则表达式替换举例3:一次性替换多个listitem为sect4 又比如,在docbook中,想要把原先的listitem部分的内容,都替换为sect4: 并且也注意到,其中除了上层的listitem,其内部还有一些特殊的子listitem: 需要在替换的时候,考虑到此点,不要将子listitem也替换掉了。 然后就是去想办法,写对应的正则表达式。 此时,注意到每个要替换的listitem的标题部分之后,是有回车和换行的,所以参考第3.10节 “Notepad++支持显示回车符,换行符,TAB键,行首,行尾等特殊字符”去"显示所有字符": 这样就清楚,到底包含哪些字符,方便我们接下来去写正则表达式了。 经过折腾,用如下的正则表达式: <listitem>(.+?)rn(.+?)rns+</listitem>rn <sect4 xml:id="npp_"><title>1</title>rn2rn </sect4>rn 将原先内容: 替换为: 可以看到,成功替换了10个。 对应的,也可以看到,对于那些特殊的子listitem来说,也没有被替换掉: 如此,就可以避免了手动的去一点点的修改了。 例3.5.Notepad++正则表达式替换举例4:给每一行都添加AddIcon的前缀 需要把每一行中的文件类型的图片名,替换成加上前缀和后缀。 然后就可以去写正则表达式了: (w+).pngs+rn AddIcon http://www.crifan.com/files/res/apache/icons/20x22/1.png .1rn 就可以从: 替换为: 所以,如果能利用到此种功能,还是可以很大地提高工作效率的。 例3.6.Notepad++正则表达式替换举例5:给book的标题和地址添加html代码 又比如,对于原先是这样的代码: 即,有很多组,每组分别是标题和地址。 而想要做的事情是,把对应的标题和地址,以及其中缩写,都提取出来,并且添加相关的html代码。 最后经过参考:[11] 而写出了相应的正则表达式: (?<bookTitle>.+?)rn(?<wholeUrl>http://www.crifan.com/files/doc/docbook/(?<bookAbbrv>w+)/release/html/(?&bookAbbrv).html) <tr><td><a href="$+{wholeUrl}">$+{bookTitle}</a></td><td><a href="http://www.crifan.com/bbs/categories/$+{bookAbbrv}">$+{bookTitle}</td></tr> 然后就可以成功实现28处的替换,替换出来的效果为: 替换后的html代码,再添加上相应的html代码:头部的: <table border="1" cellspacing="0" cellpadding="0"> <tbody> <tr><td><strong>单个Book</strong></td><td><strong>对应的讨论区</strong></td></tr> 和尾部的: </tbody> </table> 最终就可以实现需要显示出来的完整的表格信息了: 则又一次地,极大地提高了工作效率。否则要一个个的复制和粘贴,累死了不说,也还容易出错。 例3.7.Notepad++正则表达式替换举例6:查找单个的CR或LF 后来一次,遇到一个需求是:对于单个文件中,查找所谓的不一致的换行符 去看了一下当前文件中,正常都是Windows类型的回车换行,CRLF 想要找到哪里出现了单个的CR或LF 而由于文件有很多行,里面有N个CRLF,而要一眼看出哪里有单个的CR或LF,很困难,或者说不可能,所以只能靠正则表达式去搜索寻找了 然后最终使用正则表达式是: r(?!n)|(?<!r)n 然后找到了对应的2处,单个的CR或者LF: 此处,顺便简单解释一下此处的正则表达式的含义:
例3.8.Notepad++正则表达式替换举例7:去除href链接 遇到一个问题是,想要把一个表格中的内容,粘贴到WLW中,结果由于其中N个内容,都包含了对应的链接,想要把链接去掉。 所以就去切换到源码模式,然后把html代码拷贝出来,然后用Notepad++去替换 所用正则是: <p><a href="http://.+?/gpu.php.+?">(<b>.+?</b>)</a></p> <p>1</p> 替换前是: 替换后,变成这样的: 效率不是一般的高。 例3.9.Notepad++正则表达式替换举例8:把标题和地址转换为link格式 遇到一个问题是,想要把对应的,帖子的标题和地址,变成docbook中的link格式,一般拷贝到Docbook的xml中直接使用,就省的自己一点点复制粘贴和修改了。 所用Notepad++的正则替换的如下: ([S ]+)s+(http://www.crifan.com/w+) <para><link xl:href="2">1</link></para> 替换前是: 替换后,变成这样的: (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |