xml相关
一、xml语法
主要包含以下部分: 1.文档声明 用来声明xml的基本属性,用来指挥解析引擎如何去解析当前xml 通常一个xml都要包含并且只能包含一个文档声明 xml的文档必须在整个xml的最前面,在文档声明之前不能有任何内容 <?xml version="1.0" ?>--version是必须存在的属性,表明当前xml所遵循规范的版本,目前位置都写1.0就可以了 <?xml version="1.0" encoding="utf-8" ?>--encoding用来只会解析引擎在解析xml时使用的编码,一定要保证xml格式的数据在保存时使用的编码和解析时使用的编码必须一致,才不会有乱码问题 <?xml version="1.0" encoding="utf-8" standalone="yes" />--standalone属性用来指明当前xml是否是一个独立的xml,默认值是yes表明当前文档不需要依赖于其他文档,如果当前文档依赖其他文档而存在则需要将此值设置为no 2.元素 一个xml标签就是一个元素 一个标签分为开始标签和结束标签 在开始标签和结束标签之间可以包含文本内容,这样的文本内容叫做标签体 如果标签的开始标签和结束标签之间不包含标签和子标签则可以将开始标签和结束标签进行合并,这样的标签就叫做自闭标签 一个标签中也可以包含任意多个子标签,但是一定要注意标签一定要合理嵌套 一个格式良好的xml要包含并且只能包含一个根标签,其他的标签都应该是这个标签的子孙标签 区分大小写,例如,<P>和<p>是两个不同的标记。 不能以数字或标点符号或"_"开头。 不能以xml(或XML、或Xml 等)开头。 不能包含空格 名称中间不能包含冒号(:)。 3.属性 一个标签可以有多个属性,每个属性都有它自己的名称和取值,例如: <china capital="beijing"/> 属性的名在定义时要遵循和xml元素相同的命名规则 属性的值需要用单引号或双引号括起来 4. 注释 <!-- 注释内容 --> 注释可以出现在xml文档的任意位置除了整个文档的最前面.不能出现在文档声明之前 注释不能嵌套注释 5.CDATA区/转义字符 <![CDATA[转义的内容]]>: 当XML中一段内容不希望被解析器解析时可以使用CDATA区将其包住 当解析器遇到CDATA区时会将其内容当作文本对待,不会进行解析 语法:<![CDATA[ 内容 ]]> 转义字符:(即在xml中可以使用后者代替前者) & --> & < --> < > --> > " --> " ' --> ' 6.处理指令 处理指令,简称PI (processing instruction)。处理指令用来指挥解析引擎如何解析XML文档内容。 <?xml-stylesheet type="text/css" href="1.css"?>(指明1.css来渲染当前xml) 二、dtd语法 --- (用来约束xml该怎样写,该包含哪些元素标签,每个标签的属性是怎样的等,会看就可以) 1.如何在xml中引入dtd (1)外部引入 可以将dtd的约束内容写在外置的dtd文件中,这个文件后缀必须为.dtd而文件保存时必须用utf-8编码保存. 再在xml文件中使用 <!DOCTYPE 根元素名称 SYSTEM 文件的位置> 如果写的是SYSTEM表明当前引入的dtd在当前文件系统中,后面制定的文件位置是当前硬盘中的位置 <!DOCTYPE 文档根结点 PUBLIC "DTD名称" "DTD文件的URL"> 如果写的是PUBLIC表明当前引入的dtd在网络公共位置中,后面要指明dtd的名字和dtd所在网络位置URL地址 (2)内部引入 直接在xml中书写dtd <!DOCTYPE 根元素名称[ dtd约束.... ]> 2.dtd语法 (1)元素 <!ELEMENT 元素名称 元素约束> 元素约束: 存放类型:ANY/EMPTY 元素约束:子元素的列表,将可以包含的子元素用小括号括起来 子元素之间可以使用逗号进行分割,表明子元素必须按照顺序出现 子元素之间可以使用竖线进行分割,表面子元素出现其中之一 #PCDATA 表明包含标签体 + 表示一次或多次 * 0次或多次 ? 0次或一次 也可以使用小括号进行组的操作 (2)属性 <!ATTLIST 元素名 属性名 属性类型 属性约束 属性名2 属性类型 属性约束 ...... > 属性类型: CDATA:表示属性的值是一个普通字符串 ENUMERATED : 属性的值是一个枚举列表中的值 ID: 表明属性的值必须在整个文档中都是唯一的,如果有重复的id则校验不通过,ID 属性的值只能由字母,下划线开始,不能使用数字,不能出现空白字符 属性约束: #REQUIRED --- 表明当前属性是一个必须存在的属性,如果这样的属性不存在则在校验时会报错 #IMPLIED --- 表明当前属性是一个可选的属性,可以有也可以没有 #FIXED '固定值' --- 表明当前属性具有一个固定值,这样的属性不需要进行赋值,自动就会取这个固定值为值.如果这样的属性指定了一个不是固定值的值则校验报错 '默认值' --- 表明当前属性具有一个默认值,如果给了其他的值就用其他值,如果没有给值则取这个默认值 (3)ENTITY(实体) <!ENTITY >,就是对一大段内容的引用,可以简化代码的复用 引用实体:在xml中引用的实体叫做引用实体 <!ENTITY 实体名称 “实体内容” > &实体名称; 参数实体:在dtd中引用的实体叫做参数实体 <!ENTITY % 实体名称 "实体内容"> %实体名称; 三、XML编程:利用java程序去增删改查(CRUD)xml中的数据 解析思想: dom解析 sax解析
给一个book.xml作为实验对象: <?xml version="1.0" encoding="UTF-8"?> <书架> <书> <书名>Java就业培训教程</书名> <作者>张孝祥</作者> <售价>39.00元</售价> </书> <书> <书名>JavaScript网页开发</书名> <作者>张孝祥</作者> <售价>28.00元</售价> </书> </书架> sax解析demo: import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactory; import org.xml.sax.Attributes; import org.xml.sax.ContentHandler; import org.xml.sax.Locator; import org.xml.sax.SAXException; import org.xml.sax.XMLReader; import org.xml.sax.helpers.DefaultHandler; public class SaxDemo1 { public static void main(String[] args) throws Exception { //1.获取解析器工厂 SAXParserFactory factory = SAXParserFactory.newInstance(); //2.通过工厂获取sax解析器 SAXParser parser = factory.newSAXParser(); //3.获取读取器 XMLReader reader = parser.getXMLReader(); //4.注册事件处理器 reader.setContentHandler(new MyContentHandler2() ); //5.解析xml reader.parse("book.xml"); } } //适配器设计模式 由于DefaultHandler已经实现了ContentHandler,因此开发中可以直接继承他 class MyContentHandler2 extends DefaultHandler{ private String eleName = null; private int count = 0; @Override public void startElement(String uri,String localName,String name,Attributes attributes) throws SAXException { this.eleName = name; } @Override public void characters(char[] ch,int start,int length) throws SAXException { if("书名".equals(eleName) && ++count==2){ System.out.println(new String(ch,start,length));//输出结果为JavaScript网页开发 } } @Override public void endElement(String uri,String name) throws SAXException { eleName = null; } } class MyContentHandler implements ContentHandler{ public void startDocument() throws SAXException { System.out.println("文档解析开始了......."); } public void startElement(String uri,Attributes atts) throws SAXException { System.out.println("发现了开始标签,"+name); } public void characters(char[] ch,int length) throws SAXException { System.out.println(new String(ch,length)); } public void endElement(String uri,String name) throws SAXException { System.out.println("发现结束标签,"+name); } public void endDocument() throws SAXException { System.out.println("文档解析结束了......."); } //以下方法很少用到。。。。。 public void endPrefixMapping(String prefix) throws SAXException { // TODO Auto-generated method stub } public void ignorableWhitespace(char[] ch,int length) throws SAXException { // TODO Auto-generated method stub } public void processingInstruction(String target,String data) throws SAXException { // TODO Auto-generated method stub } public void setDocumentLocator(Locator locator) { // TODO Auto-generated method stub } public void skippedEntity(String name) throws SAXException { // TODO Auto-generated method stub } public void startPrefixMapping(String prefix,String uri) throws SAXException { // TODO Auto-generated method stub } } dom4j查询的demo: import org.dom4j.Document; import org.dom4j.Element; import org.dom4j.io.SAXReader; public class Dom4jDemo1 { public static void main(String[] args) throws Exception { //1.获取解析器 SAXReader reader = new SAXReader(); //2.解析xml获取代表整个文档的dom对象 Document dom = reader.read("book.xml"); //3.获取根节点 Element root = dom.getRootElement(); //4.获取书名进行打印 String bookName = root.element("书").element("书名").getText(); System.out.println(bookName); } } dom4j实现增删查改: import java.io.FileOutputStream; import java.util.List; import org.dom4j.Attribute; import org.dom4j.Document; import org.dom4j.DocumentHelper; import org.dom4j.Element; import org.dom4j.io.OutputFormat; import org.dom4j.io.SAXReader; import org.dom4j.io.XMLWriter; import org.junit.Test; public class Demo4jDemo2 { @Test public void attr() throws Exception{ SAXReader reader = new SAXReader(); Document dom = reader.read("book.xml"); Element root = dom.getRootElement(); Element bookEle = root.element("书"); //bookEle.addAttribute("出版社","传智出版社"); // String str = bookEle.attributeValue("出版社"); // System.out.println(str); Attribute attr = bookEle.attribute("出版社"); attr.getParent().remove(attr); XMLWriter writer = new XMLWriter(new FileOutputStream("book.xml"),OutputFormat.createPrettyPrint()); writer.write(dom); writer.close(); } @Test public void del() throws Exception{ SAXReader reader = new SAXReader(); Document dom = reader.read("book.xml"); Element root = dom.getRootElement(); Element price2Ele = root.element("书").element("特价"); price2Ele.getParent().remove(price2Ele); XMLWriter writer = new XMLWriter(new FileOutputStream("book.xml"),OutputFormat.createPrettyPrint()); writer.write(dom); writer.close(); } @Test public void update()throws Exception{ SAXReader reader = new SAXReader(); Document dom = reader.read("book.xml"); Element root = dom.getRootElement(); root.element("书").element("特价").setText("4.0元"); XMLWriter writer = new XMLWriter(new FileOutputStream("book.xml"),OutputFormat.createPrettyPrint()); writer.write(dom); writer.close(); } @Test public void add()throws Exception{ SAXReader reader = new SAXReader(); Document dom = reader.read("book.xml"); Element root = dom.getRootElement(); //凭空创建<特价>节点,设置标签体 Element price2Ele = DocumentHelper.createElement("特价"); price2Ele.setText("40.0元"); //获取父标签<书>将特价节点挂载上去 Element bookEle = root.element("书"); bookEle.add(price2Ele); //将内存中的dom树会写到xml文件中,从而使xml中的数据进行更新 // FileWriter writer = new FileWriter("book.xml"); // dom.write(writer); // writer.flush(); // writer.close(); XMLWriter writer = new XMLWriter(new FileOutputStream("book.xml"),OutputFormat.createPrettyPrint()); writer.write(dom); writer.close(); } @Test public void find() throws Exception{ SAXReader reader = new SAXReader(); Document dom = reader.read("book.xml"); Element root = dom.getRootElement(); List<Element> list = root.elements(); Element book2Ele = list.get(1); System.out.println(book2Ele.element("书名").getText()); } }
你所应该知道的Dom4J创建解析器: SAXReader reader = new SAXReader(); 利用解析器读入xml文档: 获取文档的根节点: Element root =document.getRootElement(); 接口继承结构: Node --- Branch --Document --Element ---- Attribute Node接口
Branch接口(实现了Node接口)
Element接口(实现了Branch,Node接口)
Attribute接口(实现了Node接口)
DocumentHelper 类
将节点写出到XML文件中去 方法1: 调用Node提供的write(Writer writer) 方法,使用默认方式将节点输出到流中: node.write(newFileWriter("book.xml")); 乱码问题: Dom4j在将文档载入内存时使用的是文档声明中encoding属性声明的编码集进行编码, 如果在此时使用writer输出时writer使用的内部编码集与encoding不同则会有乱码问题。 FileWriter默认使用操作系统本地码表即gb2312编码,并且无法更改。 此时可以使用OutputStreamWriter(FileOutputStream("filePath"),"utf-8");的方式自己封装 一个指定码表的Writer使用,从而解决乱码问题。 方式2: 利用XMLWriter写出Node: 乱码问题: (1)使用这种方式输出时,XMLWriter首先会将内存中的docuemnt翻译成UTF-8 格式的document,在进行输出,这时有可能出现乱码问题。 可以使用OutputFormat指定XMLWriter转换的编码为其他编码。 OutputFormat format =OutputFormat.createPrettyPrint(); format.setEncoding("GBK"); (2)Writer使用的编码集与文档载入内存时使用的编码集不同导致乱码,使用字节流 或自己封装指定编码的字符流即可(参照方法1)。
四、Schema -- xml的约束技术 --- 需要掌握名称空间的概念,会读简单的Schema就可以了,不需要自己会写 Schema是xml的约束技术,出现的目的是为了替代dtd 本身也是一个xml,非常方便使用xml的解析引擎进行解析 对名称空间有非常好的支持 支持更多的数据类型,并且支持用户自定义数据类型 可以进行语义级别的限定,限定能力大大强于dtd 相对于dtd不支持实体 相对于dtd复杂的多,学习成本比较的高 如何在xml中引入Schema --- !!!!!名称空间的概念:全世界独一无二的名字,用来唯一的标识某个资源,通常是公司的域名,只是名字而已并不真的表示资源的位置. ~~~ Schema的语法---参照Schema的文档,了解即可 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |