加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式 – 使用R中的条件进行字符串拆分

发布时间:2020-12-14 06:36:55 所属栏目:百科 来源:网络整理
导读:我有这个用分界符“_”的字母。这里的条件是如果有两个或更多分隔符,我想在第二个分隔符分割,如果只有一个分隔符,我想在“.Recal”分割,得到如下所示的结果。 mystring-c("MODY_60.2.ReCal.sort.bam","MODY_116.21_C4U.ReCal.sort.bam","MODY_116.3_C2RX
我有这个用分界符“_”的字母。这里的条件是如果有两个或更多分隔符,我想在第二个分隔符分割,如果只有一个分隔符,我想在“.Recal”分割,得到如下所示的结果。
mystring<-c("MODY_60.2.ReCal.sort.bam","MODY_116.21_C4U.ReCal.sort.bam","MODY_116.3_C2RX-1-10.ReCal.sort.bam","MODY_116.4.ReCal.sort.bam")

结果

"MODY_60.2"  "MODY_116.21" "MODY_116.3"  "MODY_116.4"
你可以使用gsubfn来做到这一点
library(gsubfn)
f <- function(x,y,z) if (z=="_") y else strsplit(x,".ReCal",fixed=T)[[1]][[1]]
gsubfn("([^_]+_[^_]+)(.).*",f,mystring,backref=2)
# [1] "MODY_60.2"   "MODY_116.21" "MODY_116.3"  "MODY_116.4"

这允许您有两个以上“_”的情况,并且您想要在第二个分割,例如,

mystring<-c("MODY_60.2.ReCal.sort.bam","MODY_116.4.ReCal.sort.bam","MODY_116.4_asdfsadf_1212_asfsdf","MODY_116.5.ReCal_asdfsadf_1212_asfsdf",# split by second "_",leaving ".ReCal"
            "MODY")

gsubfn("([^_]+_[^_]+)(.).*",backref=2)
# [1] "MODY_60.2"        "MODY_116.21"      "MODY_116.3"       "MODY_116.4"      
# [5] "MODY_116.4"       "MODY_116.5.ReCal" "MODY"

在函数中,f,x是原始字符串,y和z是下一个匹配项。所以,如果z不是一个“_”,那么它将以替代字符串的方式进行分割。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读