使用XML解析器解析html文档
我可以使用
XML解析器解析HTML文件吗?
为什么我不能这样做.我知道XML用于存储数据,HTML用于显示数据.但从语法上讲,它们几乎完全相同. 预期用途是创建HTML解析器,它是Web爬网程序应用程序的一部分
您可以尝试使用XML解析器解析HTML文件,但它可能会失败.原因是HTML文档可以具有XML解析器无法理解的以下HTML功能.
>从不使用结束标记且不使用XML所谓的“自闭标签语法”的元素;例如,< br>,< meta>,< link>和< img> (也称为虚空元素) XML解析器将无法解析使用任何这些功能的任何HTML文档. 另一方面,无论文档包含什么,HTML解析器基本上都不会失败. 总而言之,在开发一种新的XML解析方面也做了大量工作 – 所谓的XML5解析 – 即使在XML文档中也能处理空/不带引号的属性属性.有一个draft XML5 specification,还有as an XML5 parser,xml5ever.
如果您要创建一个Web爬虫应用程序,您绝对应该使用HTML解析器 – 理想情况下,是一个符合parsing requirements in the HTML standard的HTML解析器. 目前,有许多(甚至大多数)语言的符合HTML的解析器;例如.: > parse5(node.js / JavaScript) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- c – 为什么nanosleep()和usleep()太慢了?
- ruby-on-rails – 在ruby中使用`include?`来检查是否存在哈
- reactjs – React Styled Components Extend
- c# – WCF和MSMQ故障处理
- Oracle Database(rdbms) 12.2 安装组件
- Oracle笔记 一、oracle的安装、sqlplus的使用
- AM3517之SD卡启动盘恢复NAND flash的数据:x-loader(一)
- ruby-on-rails – form_for undefined方法`model_name’for
- 【hibernate框架】一对一单向主键关联(XML实现)
- FLEX SDK 4 新特性之双向绑定