加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

对XML 进行 parse 时的Invalid Unicode character (0x0) 分析 20

发布时间:2020-12-16 09:07:17 所属栏目:百科 来源:网络整理
导读:http://wenku.baidu.com/link?url=2TwwAvLu3uyQ038ipCD5nnokk9IFaax9vWCAOU2c0GA9ohP56qiQalbqrOz9Y1ZGpprZVXAP7hVmBovLPe8MSK1uBODg-Jah8zQWw-nfNbu XML 在搜索引擎的低端起到了非常重要的作用,可是由于相当多数的网络上的Rss feed或者XML feed都是直接从

http://wenku.baidu.com/link?url=2TwwAvLu3uyQ038ipCD5nnokk9IFaax9vWCAOU2c0GA9ohP56qiQalbqrOz9Y1ZGpprZVXAP7hVmBovLPe8MSK1uBODg-Jah8zQWw-nfNbu


XML 在搜索引擎的低端起到了非常重要的作用,可是由于相当多数的网络上的Rss feed或者XML feed都是直接从数据库文件生成的,因此极有可能包含有一些非常字符,而这些字符在XML进行Parse的时候就会带来 Invalid Unicode character (0x0) 这样的错误或者是org.xml.sax.SAXParseException: An invalid XML character (Unicode: 0x0) was found,如何解决这样的错误?

先看看Unicode的一些基础知识:

Unicode 最初设计是作为一种固定宽度的 16 位字符编码。在 Java 编程语言中,基本数据类型 char 初衷是通过提供一种简单的、能够包含任何字符的数据类型来充分利用这种设计的优点。不过,现在看来,16 位编码的所有 65,536 个字符并不能完全表示全世界所有正在使用或曾经使用的字符。于是,Unicode 标准已扩展到包含多达 1,112,064 个字符。那些超出原来的 16 位限制的字符被称作增补字符。Unicode 标准 2.0 版是第一个包含启用增补字符设计的版本,但是,直到 3.1 版才收入第一批增补字符集。由于 J2SE 的 5.0 版必须支持 Unicode 标准 4.0 版,因此它必须支持增补字符。

对增补字符的支持也可能会成为东亚市场的一个普遍商业要求。政府应用程序会需要这些增补字符,以正确表示一些包含罕见中文字符的姓名。出版应用程序可能会需要这些增补字符,以表示所有的古代字符和变体字符。中国政府要求支持 GB18030(一种对整个 Unicode 字符集进行编码的字符编码标准),因此,如果是 Unicode 3.1 版或更新版本,则将包括增补字符。台湾标准 CNS-11643 包含的许多字符在 Unicode 3.1 中列为增补字符。香港政府定义了一种针对粤语的字符集,其中的一些字符是 Unicode 中的增补字符。最后,日本的一些供应商正计划利用增补字符空间中大量的专用空间收入 50,000 多个日文汉字字符变体,以便从其专有系统迁移至基于 Java 平台的解决方案。

因此,Java 平台不仅需要支持增补字符,而且必须使应用程序能够方便地做到这一点。由于增补字符打破了 Java 编程语言的基础设计构想,而且可能要求对编程模型进行根本性的修改,因此,Java Community Process 召集了一个专家组,以期找到一个适当的解决方案。该小组被称为 JSR-204 专家组,使用 Unicode 增补字符支持的 Java 技术规范请求的编号。从技术上来说,该专家组的决定仅适用于 J2SE 平台,但是由于 Java 2 平台企业版 (J2EE) 处于 J2SE 平台的最上层,因此它可以直接受益,我们期望 Java 2 平台袖珍版 (J2ME) 的配置也采用相同的设计方法。

不过,在了解 JSR-204 专家组确定的解决方案之前,我们需要先理解一些术语。

代码点、字符编码方案、UTF-16:这些是指什么?

不幸的是,引入增补字符使字符模型变得更加复杂了。在过去,我们可以简单地说“字符”,在一个基于 Unicode 的环境(例如 Java 平台)中,假定字符有 16 位,而现在我们需要更多的术语。我们会尽量介绍得相对简单一些 — 如需了解所有详细的讨论信息,您可以阅读 Unicode 标准第 2 章或 Unicode 技术报告 17“字符编码模型”。Unicode 专业人士可略过所有介绍直接参阅本部分中的最后定义。

字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有值。“A”是一个字符,“

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读