加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

regex – 如何使用sed或Perl从xml文件中删除无效字符

发布时间:2020-12-13 19:55:10 所属栏目:Linux 来源:网络整理
导读:我想摆脱所有无效的角色;使用sed的 XML文件中的示例十六进制值0x1A. 什么是正则表达式和命令行? 编辑 添加了Perl标签,希望获得更多响应.我更喜欢单线解决方案. 编辑 这些是有效的XML字符 x9 | xA | xD | [x20-xD7FF] | [xE000-xFFFD] | [x10000-x10FFFF] 解
我想摆脱所有无效的角色;使用sed的 XML文件中的示例十六进制值0x1A.
什么是正则表达式和命令行?
编辑
添加了Perl标签,希望获得更多响应.我更喜欢单线解决方案.
编辑
这些是有效的XML字符
x9 | xA | xD | [x20-xD7FF] | [xE000-xFFFD] | [x10000-x10FFFF]

解决方法

假设UTF-8 XML文档:
perl -CSDA -pe'
   s/[^x9xAxDx20-x{D7FF}x{E000}-x{FFFD}x{10000}-x{10FFFF}]+//g;
' file.xml > file_fixed.xml

如果你想编码坏字节,

perl -CSDA -pe'
   s/([^x9xAxDx20-x{D7FF}x{E000}-x{FFFD}x{10000}-x{10FFFF}])/
      "&#".ord($1).";"
   /xeg;
' file.xml > file_fixed.xml

您可以通过几种不同的方式调用它:

perl -CSDA     -pe'...' file.xml > file_fixed.xml
perl -CSDA -i~ -pe'...' file.xml     # Inplace with backup
perl -CSDA -i  -pe'...' file.xml     # Inplace without backup

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读