加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > asp.Net > 正文

asp.net – 使用R从RSS提要中提取更多帖子到CSV

发布时间:2020-12-16 09:37:57 所属栏目:asp.Net 来源:网络整理
导读:我试图从以下网址 http://live.reuters.com/Event/rss.aspx?id=70335的RSS提要中提取数据.基本上我想使用此帖中列出的代码提取每个帖子的标题和日期: Parse RSS feed using XML packagin R 代码本身就是 library(XML)library(RCurl)###Extracting Data from
我试图从以下网址 http://live.reuters.com/Event/rss.aspx?id=70335的RSS提要中提取数据.基本上我想使用此帖中列出的代码提取每个帖子的标题和日期: Parse RSS feed using XML packagin R

代码本身就是

library(XML)
library(RCurl)

###Extracting Data from Reuters
xml.url <- "http://live.reuters.com/Event/rss.aspx?id=70335"
script  <- getURL(xml.url)
doc     <- xmlParse(script)
titles    <- xpathSApply(doc,'//item/title',xmlValue)
pubdates <- xpathSApply(doc,'//item/pubDate',xmlValue)
reuters<-cbind(titles,pubdates)
reuters_data<-data.frame(reuters)

 #Exporting as a csv
write.csv(reuters_data,file = "reuters_post.csv")

代码几乎完全符合我的要求.但是,我遇到的问题是它只提取前45个帖子.我知道有近1000个帖子.这与rss.aspx格式有关吗?是否有一个解决方法,以便我可以获得RSS提要中的所有帖子,而不仅仅是前45个?任何帮助都将非常感谢,因为我是数据抓取的新手.

谢谢,
托马斯

解决方法

它解决了RSS / Atom提要的问题,它不允许检索历史信息,请参阅 How Do I Fetch All Old Items on an RSS Feed?

但是,我们可以使用非官方的Google Reader API GoogleReaderAPI Wiki.

library(RCurl)
library(RJSONIO)

N <- 100 # Number of items to fetch
url <- paste("http://www.google.com/reader/api/0/stream/contents/feed/http://live.reuters.com/Event/rss.aspx%3Fid=70335?n=",N,sep="")

json <- getURL(url)                               # Fetches data
list <- fromJSON(json)                            # JSON to list
df   <- as.data.frame(do.call(rbind,list$items)) # list to data.frame

title    <- unlist(df$title)                                                # Title
datetime <- as.POSIXlt(unlist(df$published),origin="1970-01-01",tz="GMT") # Publication date

reuters <- data.frame(title,datetime)        # Output data.frame
write.csv(reuters,file = "reuters_post.csv") # Writes CSV

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读