加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

xml – readHTMLTable和UTF-8编码

发布时间:2020-12-16 00:00:54 所属栏目:百科 来源:网络整理
导读:我一般都有read HTMLTable和 XML包的编码问题.我想从波兰网站allegro.pl(类似于ebay的拍卖网站)下载一些表格,但在此之后,波兰字体存在编码问题,即使我使用的是编码=“UTF-8”或stringsAsFactors = F in readHTMLTable. 码: library(XML)url-paste("http://a
我一般都有read HTMLTable和 XML包的编码问题.我想从波兰网站allegro.pl(类似于ebay的拍卖网站)下载一些表格,但在此之后,波兰字体存在编码问题,即使我使用的是编码=“UTF-8”或stringsAsFactors = F in readHTMLTable.

码:

library(XML)
url<-paste("http://allegro.pl/listing.php/search?category=15821&sg=0&p=",1:5,"&string=facebook",sep="")

alldata<-NULL

for (i in 1:5){
dane<-as.data.frame(readHTMLTable(url[i],1,stringsAsFactors = TRUE,encoding="UTF-8")$lista)
alldata<-rbind(alldata,dane)
}

结果:

> head(alldata[,c(2,3)])
                                                        V2                      V3
1     Facebook Fan Page z ANIMACJ???? indywidualny projekt Kup Teraz! 150,00 z?…??
2 Lubi???? to! Facebook! OKAZJA!!! 160 FAN??“W!!! ZOBACZ!  Kup Teraz! 10,99 z?…??
3    125 fan???w fani like fanpage FACEBOOK polskie konta  Kup Teraz! 10,00 z?…??
4    Reklama Fanpage 43500+ fan???w,fani,facebook Efekt  Kup Teraz! 17,99 z?…??
5       Facebook Fanpage -Stworzenie Profesjonalnego Konta  Kup Teraz! 77,90 z?…??
6       Facebook Fanpage -Skuteczna Obs?…??uga/Reklama /FV Kup Teraz! 100,00 z?…??

如果我使用getURL或readLines没有问题,但我想使用XML包,因为它是伟大的事情:)

当我使用XML包函数(如htmlParse,xpathApply或提到的readHTMLTable)时总会出现这个问题.

我正在使用Rstudio 0.94.110 @ Windows7. SessionInfo如下.

R version 2.14.0 (2011-10-31)
Platform: x86_64-pc-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=Polish_Poland.1250  LC_CTYPE=Polish_Poland.1250    LC_MONETARY=Polish_Poland.1250 LC_NUMERIC=C                   LC_TIME=Polish_Poland.1250    

attached base packages:
[1] splines   stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] spdep_0.5-41     coda_0.14-6      deldir_0.0-16    maptools_0.8-10  foreign_0.8-46   nlme_3.1-102     Matrix_1.0-1     lattice_0.20-0   boot_1.3-3      
[10] sp_0.9-91        maps_2.2-2       RCurl_1.7-0.1    bitops_1.0-4.1   XML_3.4-2.2      Cairo_1.5-1      car_2.0-11       survival_2.36-10 nnet_7.3-1      
[19] MASS_7.3-16     

loaded via a namespace (and not attached):
[1] grid_2.14.0  tools_2.14.0
有一段时间我和Duncan Temple Lang一起邮寄,这是XML包的创建者.昨天(2012年1月30日)他在Omegahat网站上传了新版的XML包. 31位版本的R的新版本3.9-4删除此编码问题!

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读