随机抽取一定比例的fastq文件
发布时间:2020-12-15 23:54:47 所属栏目:大数据 来源:网络整理
导读:在NGS的下机数据中,我们通常抽取一定比例的fq文件做分析。在此,笔者提供两种方式来抽取fq数据。 第一种方法速度较快,但存在一定的随机误差。 运行方式: perl? $0 fq文件 抽取比例 #! /usr/bin/perl -wuse strict;die "#usage:perl $0 fqthresholdn" unl
在NGS的下机数据中,我们通常抽取一定比例的fq文件做分析。在此,笔者提供两种方式来抽取fq数据。 第一种方法速度较快,但存在一定的随机误差。 运行方式: perl? $0 fq文件 抽取比例 #! /usr/bin/perl -w use strict; die "#usage:perl $0 <fq><threshold>n" unless @ARGV==2; my $fa=shift; my $threshold=shift; $fa=~/.gz/?(open IN,"gzip -cd $fa|"||die) : (open IN,$fa||die); while(<IN>){ chomp; if($.%4==1){ my $rand=rand(1); if($rand<$threshold){ print "$_n"; print scalar <IN> for 1..3; } } } close IN; 第二种方法方法满足了精确抽取,但较第一种方法稍慢一些。用法相同。 #! /usr/bin/perl -w use strict; die "#usage:perl $0 <fq><threshold>n" unless @ARGV==2; my $fa=shift; my $threshold=shift; my $num=$fa=~/.gz/? `gzip -cd $fa|wc -l`/4 :`less $fa|wc -l`/4; my $need=int($num*$threshold); my %ha; for(;;){ my $tmp=int(rand($num)); $ha{$tmp}=1; last if (keys %ha)==$need; } $fa=~/.gz/?(open IN,$fa||die); while(<IN>){ chomp; my $line=($.-1)/4; if(exists $ha{$line}){ print "$_n"; print scalar <IN> for 1..3; } } close IN; (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |