正则表达式 – 从网页递归下载zip文件(Windows)

发布时间：2020-12-14 05:57:01 所属栏目：百科来源：网络整理

导读：是否可以从网页下载所有zip文件,而无需一次指定一个链接. 我想从http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html下载所有月度帐户zip文件. 我使用的是Windows 8.1,R3.1.1.我在PC上没有wget,所以不能使用递归调用. 替代方案：作为一种解

是否可以从网页下载所有zip文件,而无需一次指定一个链接.

我想从http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html下载所有月度帐户zip文件.

我使用的是Windows 8.1,R3.1.1.我在PC上没有wget,所以不能使用递归调用.

替代方案：
作为一种解决方法,我尝试下载网页文本本身.然后我想提取每个zip文件的名称,然后我可以在循环中传递给download.file.但是,我正在努力提取名称.

pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"

temp <- tempfile()
download.file(pth,temp)
dat <- readLines(temp)
unlink(temp)

g <- dat[grepl("accounts_monthly",tolower(dat))]

g包含带有文件名的字符串,以及其他字符.

g
 [1] "                    <li><a href="Accounts_Monthly_Data-September2013.zip">Accounts_Monthly_Data-September2013.zip  (775Mb)</a></li>"
 [2] "                    <li><a href="Accounts_Monthly_Data-October2013.zip">Accounts_Monthly_Data-October2013.zip  (622Mb)</a></li>"

我想提取文件的名称Accounts_Monthly_Data-September2013.zip等等,但我的正则表达式非常糟糕(请亲自看看)

gsub(".*>(w+.zip)s+","1",g)

数据

g <- c("                    <li><a href="Accounts_Monthly_Data-September2013.zip">Accounts_Monthly_Data-September2013.zip  (775Mb)</a></li>","                    <li><a href="Accounts_Monthly_Data-October2013.zip">Accounts_Monthly_Data-October2013.zip  (622Mb)</a></li>"
)

解决方法

使用XML包：

pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
library(XML)
doc <- htmlParse(pth)
myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]",fun = xmlAttrs]
fileURLS <- file.path("http://download.companieshouse.gov.uk",myfiles)
mapply(download.file,url = fileURLS,destfile = myfiles)

“// a [contains(text(),’Accounts_Monthly_Data’)]”是一个XPATH表达式.它指示XML包选择所有锚点(a)包含文本“Accounts_Monthly_Data”的节点.结果是节点列表.然后fun = xmlAttrs参数告诉XML包将这些节点传递给xmlAttrs函数.此函数从xml节点中剥离属性.锚只有一个属性,在这种情况下是我们正在寻找的href.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!