加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java – Sax解析和编码

发布时间:2020-12-14 23:46:28 所属栏目:Java 来源:网络整理
导读:我有一个联系人在解析RSS和Atom文件时遇到SAX问题.根据他的说法,就好像来自Item元素的文本被截断为撇号或有时是重音字符.编码似乎也有问题. 我已经尝试过SAX了,我也有一些截断,但是还没有进一步挖掘.如果有人在此之前解决了这个问题,我会很感激. 这是在Conte
我有一个联系人在解析RSS和Atom文件时遇到SAX问题.根据他的说法,就好像来自Item元素的文本被截断为撇号或有时是重音字符.编码似乎也有问题.

我已经尝试过SAX了,我也有一些截断,但是还没有进一步挖掘.如果有人在此之前解决了这个问题,我会很感激.

这是在ContentHandler中使用的代码:

public void characters( char[],int start,int end ) throws SAXException {
//
    link = new String(ch,start,end);

编辑:编码问题可能是由于将信息存储在字节数组中,因为我知道Java在Unicode中工作.

解决方法

不保证characters()方法在一次传递中为您提供文本元素的完整字符内容 – 全文可能跨越缓冲区边界.您需要在开始和结束元素事件之间自己缓冲字符.

例如

StringBuilder builder;

public void startElement(String uri,String localName,String qName,Attributes atts) {
   builder = new StringBuilder();
}

public void characters(char[] ch,int length) {
   builder.append(ch,length);
}

public void endElement(String uri,String qName) {
  String theFullText = builder.toString();
}

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读