asp.net – 使用R从RSS提要中提取更多帖子到CSV
发布时间:2020-12-16 09:37:57 所属栏目:asp.Net 来源:网络整理
导读:我试图从以下网址 http://live.reuters.com/Event/rss.aspx?id=70335的RSS提要中提取数据.基本上我想使用此帖中列出的代码提取每个帖子的标题和日期: Parse RSS feed using XML packagin R 代码本身就是 library(XML)library(RCurl)###Extracting Data from
我试图从以下网址
http://live.reuters.com/Event/rss.aspx?id=70335的RSS提要中提取数据.基本上我想使用此帖中列出的代码提取每个帖子的标题和日期:
Parse RSS feed using XML packagin R
代码本身就是 library(XML) library(RCurl) ###Extracting Data from Reuters xml.url <- "http://live.reuters.com/Event/rss.aspx?id=70335" script <- getURL(xml.url) doc <- xmlParse(script) titles <- xpathSApply(doc,'//item/title',xmlValue) pubdates <- xpathSApply(doc,'//item/pubDate',xmlValue) reuters<-cbind(titles,pubdates) reuters_data<-data.frame(reuters) #Exporting as a csv write.csv(reuters_data,file = "reuters_post.csv") 代码几乎完全符合我的要求.但是,我遇到的问题是它只提取前45个帖子.我知道有近1000个帖子.这与rss.aspx格式有关吗?是否有一个解决方法,以便我可以获得RSS提要中的所有帖子,而不仅仅是前45个?任何帮助都将非常感谢,因为我是数据抓取的新手. 谢谢, 解决方法
它解决了RSS / Atom提要的问题,它不允许检索历史信息,请参阅
How Do I Fetch All Old Items on an RSS Feed?
但是,我们可以使用非官方的Google Reader API GoogleReaderAPI Wiki. library(RCurl) library(RJSONIO) N <- 100 # Number of items to fetch url <- paste("http://www.google.com/reader/api/0/stream/contents/feed/http://live.reuters.com/Event/rss.aspx%3Fid=70335?n=",N,sep="") json <- getURL(url) # Fetches data list <- fromJSON(json) # JSON to list df <- as.data.frame(do.call(rbind,list$items)) # list to data.frame title <- unlist(df$title) # Title datetime <- as.POSIXlt(unlist(df$published),origin="1970-01-01",tz="GMT") # Publication date reuters <- data.frame(title,datetime) # Output data.frame write.csv(reuters,file = "reuters_post.csv") # Writes CSV (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- asp.net-mvc-4 – visual studio 2012 RC无法加载类型Syste
- asp.net-mvc – 在MVC中使用Rotativa pdf显示动态标头
- asp.net-core – 为什么在我的ASP.NET Core 1.0(MVC6)项目中
- asp.net-mvc – 如何通过属性过滤器在MVC中设置Razor布局?
- 一个类如何实现两个接口中同名同参数不同返回值的函数
- asp.net – 是否有使用Markdown作为编辑器的WIKI(最好是.NE
- asp.net-mvc – 从MVC站点路由到Angular 2应用程序
- asp.net-mvc – 模型和视图模型之间的区别
- asp.net-core-mvc – 结合Azure AD(b2c)自定义ClaimsIdenti
- asp.net – 没有参数的WebResource.axd请求 – 这是一个无效