加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

各种xml开发库介绍及使用

发布时间:2020-12-15 23:01:02 所属栏目:百科 来源:网络整理
导读:expat 介绍 expat是使用C所写的XML解释器,采用流的方式来解析XML文件,并且基于事件通知型来调用分析到的数据,并不需要把所有XML文件全加载到内存里,这样可以分析非常大的XML文件。expat库是由XML的主要负责人James Clark来实现的,符合W3C的XML标准。 ex

expat

介绍

expat是使用C所写的XML解释器,采用流的方式来解析XML文件,并且基于事件通知型来调用分析到的数据,并不需要把所有XML文件全加载到内存里,这样可以分析非常大的XML文件。expat库是由XML的主要负责人James Clark来实现的,符合W3C的XML标准。
expat默认只支持UTF-8 UTF-16 ISO-8859-1 US-ASCII ,其它的字符集需要自己定义UnknownEncodingHandler的实现,不然分析器会报错。

使用

首先是用XML_ParserCreate(const XML_Char *encodingName),参数一般为NULL,函数返回一个XML_Parser类型指针,

我们就当他是一个句柄吧,类似于Windows里的内核对象,一般需要保存在一个全局的指针里。

然后调用XML_SetElementHandler(XML_Parser parser,XML_StartElementHandler start,XML_EndElementHandler end), 第一个参数是那个Parser句柄,第二个和第三个参数则是整个Parser的核心,类型为CallBack的函数,分别对应于解析<>和</>, 下面分别详细介绍这个2个回调函数。


typedef void (XMLCALL *XML_StartElementHandler) (void *userData,const XML_Char *name,const XML_Char **atts);
其中第一个参数userData,可以由函数XML_SetUserData(XML_Parser parser,void *p)设置, 后面两个参数,

我用个具体的列子说明下,这样更好理解:
比如有个标准XML,某个标签属性如下:
<feed version="2.0" ctxt-id="9212" template-id="default" feed-type="ftti">
那么StartElementHandler回调返回的name就是标签"feed",**atts是一个指针数组,分别指向标签的一组属性,atts[0]就是"version",atts[1]就是"2.0",以此类推。
这时候必然有个对应的</feed>。
typedef void (XMLCALL *XML_EndElementHandler) (void *userData,const XML_Char *name);
就是处理标签结束的,name就是"feed”了,这个回调一般是用户设置自己的状态机的。


最后一个函数就是XML_SetCharacterDataHandler(XML_Parser parser,XML_CharacterDataHandler handler)
这个函数是设置处理一个<>和</>之间的字段的回调。回调原型如下:
typedef void (XMLCALL *XML_CharacterDataHandler) (void *userData,const XML_Char *s,int len);
其中第二个参数是一块Buffer的指针,就是你传入的那块Buffer,比如:


<title>天气</title>
<summary>28日08时至29日08时,陕西中南部、山西西南部、河南中南部、河南南部、湖北北部等地局部有大暴雨。</summary>


假设目前解析到天气这个charData,那个指针的内容,实际上是这样的:


天气</title>
<summary>28日08时至29日08时,陕西中南部、山西西南部、河南中南部、湖北北部等地局部有大暴雨。</summary>


所有要根据第三个参数len来确定正确的数据。但这里有个非常隐晦的问题,后面会说到。

最后就是parse,调用XML_Parse(XML_Parser parser,const char *s,int len,int isFinal)


第二个参数是用户指定的Buffer指针, 第三个是这块Buffer中实际内容的字节数,最后参数代表是否这块Buffer已经结束。

比如要解析的XML文件太大,但内存比较吃紧,Buffer比较小,则可以循环读取文件,然后丢给Parser, 在文件读取结束前,isFinal参数为FALSE,反之为TRUE。
这里的Buffer如果太小则会造成上面提到那个隐晦的问题,


XML_CharacterDataHandler一次返回的可能并不是完整的CharData,比如这个charData的Len大于你的 Buffer大小,那这是会连续调用2次XML_CharacterDataHandler,我们需要将2次结果拼接起来,以得到正确结果,因此我们的状态机一定要考虑到这点。
顺便说下XML_ParserReset(XML_Parser parser,const XML_Char *encodingName)函数,如果你不确定前后2次XML是否一样的情况下,比如网络上投递的XML,在一次解析后最好调用一次本函数,否则会出现意料之外的结果。比如前后两次XML完全一样,可这你并不知情,那么XML_Parse()会返回失败。

TinyXML

开源:http://sourceforge.net/projects/tinyxml/

介绍

TinyXML is a simple,small,minimal,C++ XML parser that can be easily integrating into other programs. It reads XML and creates C++ objects representing the XML document. The objects can be manipulated,changed,and saved again as XML。

通过解析XML文件,然后在内存中生成DOM模型,从而让我们很方便的遍历这棵XML树。可用于Windows、Linux平台。

在TinyXML中,根据XML的各种元素来定义了一些类:
TiXmlBase:整个TinyXML模型的基类。

TiXmlAttribute:对应于XML中的元素的属性。

TiXmlNode:对应于DOM结构中的节点。

TiXmlComment:对应于XML中的注释

TiXmlDeclaration:对应于XML中的申明部分,<?versiong="1.0"?>。

TiXmlDocument:对应于XML的整个文档。

TiXmlElement:对应于XML的元素。

TiXmlText:对应于XML的文字部分

TiXmlUnknown:对应于XML的未知部分。

TiXmlHandler:定义了针对XML的一些操作。

安装和配置

TinyXML使用了多线程环境,因此需要设置多线程的环境,win下vc中选择Debug MultiThreaed DLL。 

使用

可对xml文件及xml 字符流(非xml文件)进行解析:

xml文件解析方法 myDocument->LoadFile("Students.xml");

字符流解析方法 myDocument->Parse(xmlString.c_str());

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读