加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式 – 如何在R中使用子函数

发布时间:2020-12-14 05:50:37 所属栏目:百科 来源:网络整理
导读:我在R中读一个csv文件“dopers” dopers - read.csv(file="generalDoping_alldata2.csv",head=TRUE,sep=",") 读完文件后,我必须做一些数据清理.例如,如果它在国家专栏中 “美国”或“美国” 我想用“USA”代替它 我想确保,如果这个词是“美国”或“美国”,即
我在R中读一个csv文件“dopers”

dopers <- read.csv(file="generalDoping_alldata2.csv",head=TRUE,sep=",")

读完文件后,我必须做一些数据清理.例如,如果它在国家专栏中

“美国”或“美国”

我想用“USA”代替它

我想确保,如果这个词是“美国”或“美国”,即使他们我的代码也应该有用.我想说的是,即使“美国”之前和之后有任何角色,它也会被“美国”取代.我知道我们可以为此目的使用sub()函数.我在网上找到了这个,但是我不明白什么是“^”“&” “*”“.”确实.有人可以解释一下.

dopers$Country = sub("^UNITED STATES.*$","USA",dopers$Country)

解决方法

举个例子,

s <- c(" United States"," United States ","United States ")

您可以定义与之匹配的正则表达式模式

pat <- "^.*United State.*$"

这里,^表示字符串的开头和$结尾
.代表任何字符,*定义重复(零到任意).您可以尝试修改模式,例如

pat <- "^[ ]*United State[ ]*$" # only ignores spaces
pat <- "^.*(United State|USA).*$" # only matches "  USA" etc.

然后通过执行替换

gsub(pat,s)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读