perl应用：snp提取后续处理：非ATGC行的删除

发布时间：2020-12-15 21:01:39 所属栏目：大数据来源：网络整理

导读：有如下的数据结构，我们知道DNA中碱基只有四种，ATGC，但是因为测序过程中的种种原因，可能出现R，M等情况，也就是所谓的兼并碱基，可参考前面的标准核酸表。如下面中第三行中有一个R，但是我们在分析的过程中，希望把这样的行给去掉。 25806202 T T C T T T

有如下的数据结构，我们知道DNA中碱基只有四种，ATGC，但是因为测序过程中的种种原因，可能出现R，M等情况，也就是所谓的兼并碱基，可参考前面的标准核酸表。如下面中第三行中有一个R，但是我们在分析的过程中，希望把这样的行给去掉。

25806202 T T C T T T T T T C T T T T T T T T T  
25806240 C C C C C C C C C C C C C T C C C C C  
25806305 G G G A A R G A A G G G G G G G A G A  
25806336 A A A G G G A G G A A A A A A A G A G  
25806345 A A A G G G A G G A A A A A A A G A G

程序的总体思路是：

1，读入数据以后，把每一行变成数组，但是我们不能直接用正则进行对比，因为数组的第一个元素使数字，不能直接用/[^ATGC]....所以我们在这里用了一个小技巧，另外建立了一个数组，@cout，这个数组是从1......19个，这样我们在循环数组的时候就可以避开第一个元素。

然后，我们需要用一个变量来标记着一行的状态。我们这里用的是$flag,我们在读入一行的每一个元素的时候，做一下标记，如果有非ATGC的元素，$flag就+1，然后foreach以后再用一次判断，如果$flag为0，那么说明没有其他的碱基。那就输出，否则就忽略。

#!/usr/bin/perl
# Only remain ATGC line and delete other line

use strict;
use warnings;

my @informations;
my $information;
my @cout=qw/1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19/;
my $cout;
my $flag=0;


open(WITH,"without-without_repeat_information.txt")||die("can not open!");
open(OUT,">OnlyATGC.txt");
while(<WITH>)
{
	chomp;
	@informations=split;
	foreach $cout(@cout)
	{
		if ($informations[$cout] =~ /[^ATGC]/)
		{
			$flag=$flag+1;
		}
		else
		{
			next;
		}
	}
	if($flag==0)
	{
		print OUT "$_n"; 
	}
	else
	{
		$flag=0;
	}
}

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!