加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java – HTML混合编码?

发布时间:2020-12-15 02:28:19 所属栏目:Java 来源:网络整理
导读:首先,我想提前感谢您的帮助. 我目前正在编写一个Web爬虫,它解析HTML内容,剥离HTML标记,然后拼写检查从解析中检索的文本. 使用JSoup和Google Spell Check API剥离HTML标记和拼写检查没有造成任何问题. 我能够从URL中下载内容并将此信息传递给byte [],然后最终
首先,我想提前感谢您的帮助.

我目前正在编写一个Web爬虫,它解析HTML内容,剥离HTML标记,然后拼写检查从解析中检索的文本.

使用JSoup和Google Spell Check API剥离HTML标记和拼写检查没有造成任何问题.

我能够从URL中下载内容并将此信息传递给byte [],然后最终传递给String,以便可以对其进行剥离和拼写检查.我遇到了字符编码的问题.

例如,解析http://www.testwareinc.com/时……

原文:我们扩展了移动网络和移动应用测试服务.

…页面根据元标记使用ISO-8859-1 …

ISO-8859-1解析:我们扩展了移动Web和移动应用程序测试服务.

…然后尝试使用UTF-8 ……

UTF-8解析:我们扩展了移动Web和移动应用测试服务.


网页的HTML是否可能包含多种编码?怎么能被发现?

解决方法

看起来撇号被编码为0x92字节,根据 Wikipedia是未分配/私有代码点.

从那时起,看起来浏览器会假设它是一个非编码的1字节Unicode代码点:+0092(私有使用二),它似乎表示为撇号.没有等待,如果它是一个字节,则更可能是cp1252:浏览器必须根据所宣传的CP具有回退策略,例如ISO-8859-1 – > CP1252.

因此,这里没有混合编码,但正如其他人所说的那样,文档破碎但是后备启发式有时会有所帮助,有时则不然.

如果您有足够的好奇心,可能需要深入了解FF或Chrome的源代码,以确切了解他们在这种情况下的行为.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读