xml – 从文档中提取唯一的HTML标记
发布时间:2020-12-16 23:03:10 所属栏目:百科 来源:网络整理
导读:我在R中有一个 HTML文档,我想从该文档中提取一个唯一标记列表,并列出它们的出现频率. 我可以按如下方式遍历每个可能的标记,但是希望找到一个不需要预定义标记列表的解决方案: library('XML')url - 'https://stackoverflow.com/questions/11227809/why-is-pr
我在R中有一个
HTML文档,我想从该文档中提取一个唯一标记列表,并列出它们的出现频率.
我可以按如下方式遍历每个可能的标记,但是希望找到一个不需要预定义标记列表的解决方案: library('XML') url <- 'https://stackoverflow.com/questions/11227809/why-is-processing-a-sorted-array-faster-than-an-unsorted-array' doc <- htmlParse(url) all_tags <- c('//p','//a','//b','//u','//i') counts <- sapply(all_tags,function(x) length(xpathSApply(doc,x))) free(doc) 解决方法
经典的XML包版本可能如下所示:
tab <- table(xpathSApply(doc,"//*",xmlName)) tab[c('p','a','b','u','i')] (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- objective-c – 在iOS7上使用UINavigationControllerDelega
- XML XML常见的操作 http://blog.csdn.net/pbymw8iwm/articl
- applicationContext.xml 配置属性和对象ref指向
- uri、open-uri、encode、encode_www_form_component
- ios – Swift“Bridging-Header.h”文件不允许我在.swift文
- TX2440 ARM开发板Uboot移植(三、添加Nand Flash的有关操作
- oracle 双竖线 ||
- install postgresql9.6.3 in redhat 7
- C#使用正则表达式抓取网站信息示例
- 转载的arcgis for flex api version3.7 教程,多学习啊!!