java – 如何解析包含BOM的XML文件?
我想使用JDOM从URL解析
XML文件.但是在尝试这个时:
SAXBuilder builder = new SAXBuilder(); builder.build(aUrl); 我得到这个例外: Invalid byte 1 of 1-byte UTF-8 sequence. 我认为这可能是BOM问题.所以我查看了源代码并在文件开头看到了BOM.我尝试使用aUrl.openStream()从URL读取并使用Commons IO BOMInputStream删除BOM.但令我惊讶的是它没有检测到任何BOM. 我认为问题在于源URL编码.但是当我在浏览器中打开URL并将XML保存在文件中并通过上述过程读取该文件时,一切正常. 我对这个问题的可能原因表示感谢. 解决方法
该HTTP服务器正在以GZIP形式发送内容(Content-Encoding:gzip;如果您不知道这意味着什么,请参阅
http://en.wikipedia.org/wiki/HTTP_compression),因此您需要将aUrl.openStream()包装在GZIPInputStream中,它将为您解压缩它.例如:
builder.build(new GZIPInputStream(aUrl.openStream())); 根据后续评论编辑添加:如果您事先不知道URL是否为GZIPped,您可以这样写: private InputStream openStream(final URL url) throws IOException { final URLConnection cxn = url.openConnection(); final String contentEncoding = cxn.getContentEncoding(); if(contentEncoding == null) return cxn.getInputStream(); else if(contentEncoding.equalsIgnoreCase("gzip") || contentEncoding.equalsIgnoreCase("x-gzip")) return new GZIPInputStream(cxn.getInputStream()); else throw new IOException("Unexpected content-encoding: " + contentEncoding); } (警告:未经测试)然后使用: builder.build(openStream(aUrl.openStream())); .这基本上等同于上面的内容 – aUrl.openStream()被明确记录为aUrl.openConnection().getInputStream()的简写 – 除了它在决定是否在GZIPInputStream中包装流之前检查Content-Encoding头. . 见the documentation for (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |