Python利用ElementTree模块处理XML的方法详解
前言 最近因为工作的需要,在使用 Python 来发送 SOAP 请求以测试 Web Service 的性能,由于 SOAP 是基于 XML 的,故免不了需要使用 python 来处理 XML 数据。在对比了几种方案后,最后选定使用 这篇文章记录了使用 概述 对比其他 Python 处理 XML 的方案, 官方文档 里面对 ET 模块进行了较为详细的描述,总的来说,ET 模块可以归纳为三个部分:ElementTree类,Element类以及一些操作 XML 的函数。 XML 可以看成是一种树状结构,ET 使用ElementTree类来表示整个 XML 文档,使用Element类来表示 XML 的一个结点。对整 XML 文档的操作一般是对ElementTree对象进行,而对 XML 结点的操作一般是对Element对象进行。 解析 XML 文件 ET 模块支持从一个 XML 文件构造ElementTree对象,例如我们的 XML 文件example.xml内容如下(下文会继续使用这个 XML 文档): <?xml version="1.0" encoding="utf-8"?> <data> <country name="Liechtenstein"> <rank>1</rank> <year>2008</year> <gdppc>141100</gdppc> <neighbor name="Austria" direction="E"/> <neighbor name="Switzerland" direction="W"/> </country> <country name="Singapore"> <rank>4</rank> <year>2011</year> <gdppc>59900</gdppc> <neighbor name="Malaysia" direction="N"/> </country> </data> 可以使用 ET 模块的 import xml.etree.ElementTree as ET # 获取 XML 文档对象 ElementTree tree = ET.parse('example.xml') # 获取 XML 文档对象的根结点 Element root = tree.getroot() # 打印根结点的名称 print root.tag 从 XML 文件构造好ElementTree对象后,还可以获取其结点,或者再继续对结点进行进一步的操作。 解析 XML 字符串 ET 模块的fromstring()函数提供从 XML 字符串构造一个Element对象的功能。 xml_str = ET.tostring(root) print xml_str root = ET.fromstring(xml_str) print root.tag 接着上面的代码,我们使用 ET 模块的 构造 XML 如果我们需要构造 XML 文档,可以使用 ET 模块的 Element类以及 可以使用Element类来生成一个Element对象作为根结点,然后使用 a = ET.Element('a') b = ET.SubElement(a,'b') b.text = 'leehao.me' c = ET.SubElement(a,'c') c.attrib['greeting'] = 'hello' d = ET.SubElement(a,'d') d.text = 'www.leehao.me' xml_str = ET.tostring(a,encoding='UTF-8') print xml_str 输出: <?xml version='1.0' encoding='UTF-8'?> <a><b>leehao.me</b><c greeting="hello" /><d>www.leehao.me</d></a> 如果需要输出到文件中,可以继续使用 # 先构造一个 ElementTree 以便使用其 write 方法 tree = ET.ElementTree(a) tree.write('a.xml',encoding='UTF-8') 执行后,便会生成一个 XML 文件a.xml: <?xml version='1.0' encoding='UTF-8'?> <a><b>leehao.me</b><c greeting="hello" /><d>www.leehao.me</d></a> XML 结点的查找与更新 1. 查找 XML 结点 Element类提供了 # 获取 XML 文档对象 ElementTree tree = ET.parse('example.xml') # 获取 XML 文档对象的根结点 Element root = tree.getroot() # 递归查找所有的 neighbor 子结点 for neighbor in root.iter('neighbor'): print neighbor.attrib 输出: {'direction': 'E','name': 'Austria'} {'direction': 'W','name': 'Switzerland'} {'direction': 'N','name': 'Malaysia'} 如果使用 for country in root.findall('country'): rank = country.find('rank').text name = country.get('name') print name,rank 输出: Liechtenstein 1 Singapore 4 2. 更新结点 如果需要更新结点的文本,可以通过直接修改 对结点进行更新后,可以使用 # 获取 XML 文档对象 ElementTree tree = ET.parse('example.xml') # 获取 XML 文档对象的根结点 Element root = tree.getroot() for rank in root.iter('rank'): new_rank = int(rank.text) + 1 rank.text = str(new_rank) rank.attrib['updated'] = 'yes' tree.write('output.xml',encoding='UTF-8') 新生成的output.xml文件以下: <?xml version='1.0' encoding='UTF-8'?> <data> <country name="Liechtenstein"> <rank updated="yes">2</rank> <year>2008</year> <gdppc>141100</gdppc> <neighbor direction="E" name="Austria" /> <neighbor direction="W" name="Switzerland" /> </country> <country name="Singapore"> <rank updated="yes">5</rank> <year>2011</year> <gdppc>59900</gdppc> <neighbor direction="N" name="Malaysia" /> </country> </data> 对比example.xml文件,可以看到output.xml文件已更新。 总结 以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对编程小技巧的支持。 参考资料
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |