加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

Java Regex用于基因组拼图

发布时间:2020-12-15 03:00:51 所属栏目:Java 来源:网络整理
导读:当给出一串字母A,C,G或T时,我被分配了一个问题来找到基因,如ATGCTCTCTTGATTTTTTTATGTGTAGCCATGCACACACACATAAGA.基因以ATG开始,以TAA,TAG或TGA结束(该基因不包括两个端点).该基因由三个字母组成,因此其长度是三的倍数,并且这些三元组中没有一个可以是上面列出
当给出一串字母A,C,G或T时,我被分配了一个问题来找到基因,如ATGCTCTCTTGATTTTTTTATGTGTAGCCATGCACACACACATAAGA.基因以ATG开始,以TAA,TAG或TGA结束(该基因不包括两个端点).该基因由三个字母组成,因此其长度是三的倍数,并且这些三元组中没有一个可以是上面列出的起始/结束三元组.因此,对于其中基因的字符串是CTCTCT和CACACACACACA.事实上,我的正则表达式适用于该特定字符串.这就是我到目前为止所做的事情(我很高兴自己得到了这么多):
(?<=ATG)(([ACGT]{3}(?<!ATG))+?)(?=TAG|TAA|TGA)

但是,如果在另一个结果中存在ATG和end-triplet,并且未与该结果的三元组对齐,则它将失败.例如:

Results for TCGAATGTTGCTTATTGTTTTGAATGGGGTAGGATGACCTGCTAATTGGGGGGGGGG :
TTGCTTATTGTTTTGAATGGGGTAGGA
ACCTGC

它也应该找到一个GGG,但不会:TTGCTTATTGTTTTGA(ATG | GGG | TAG)GA

我一般都是正则表达式的新手而且有点卡住……只是一点点暗示会很棒!

解决方法

这是一个可能的正则表达式:
(?=(ATG((?!ATG)[ATGC]{3})*(TAA|TAG|TGA)))

一个小试验台:

public class Main {
    public static void main(String[]args) {
        String source = "TCGAATGTTGCTTATTGTTTTGAATGGGGTAGGATGACCTGCTAATTGGGGGGGGGGATGATGTAG";
        Matcher m = Pattern.compile("(?=(ATG((?!ATG)[ATGC]{3})*(TAA|TAG|TGA)))").matcher(source);
        System.out.println("source : "+source+"nmatches:");
        while(m.find()) {
            System.out.print("         ");
            for(int i = 0; i < m.start(); i++) {
                System.out.print(" ");
            }
            System.out.println(m.group(1));
        }
    }
}

产生:

source : TCGAATGTTGCTTATTGTTTTGAATGGGGTAGGATGACCTGCTAATTGGGGGGGGGGATGATGTAG
matches:
             ATGTTGCTTATTGTTTTGAATGGGGTAGGATGACCTGCTAATTGGGGGGGGGGATGA
                                ATGGGGTAG
                                          ATGACCTGCTAA
                                                                     ATGTAG

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读