bash – 使用awk进行无需替换的采样
发布时间:2020-12-15 19:01:26 所属栏目:安全 来源:网络整理
导读:我有很多看起来像这样的文本文件: ALGKAHOLAGGATACCATAGATGGCACGCCCTBLGKAHOLAGGATACCATAGATGGCACGCCCTHLGKAHOLAGGATACCATAGATGGCACGCCCTDLGKAHOLAGGATACCATAGATGGCACGCCCTELGKAHOLAGGATACCATAGATGGCACGCCCTFLGKAHOLAGGATACCATAGATGGCACGCCCTJGGKAHOLAGGATA
我有很多看起来像这样的文本文件:
>ALGKAHOLAGGATACCATAGATGGCACGCCCT >BLGKAHOLAGGATACCATAGATGGCACGCCCT >HLGKAHOLAGGATACCATAGATGGCACGCCCT >DLGKAHOLAGGATACCATAGATGGCACGCCCT >ELGKAHOLAGGATACCATAGATGGCACGCCCT >FLGKAHOLAGGATACCATAGATGGCACGCCCT >JGGKAHOLAGGATACCATAGATGGCACGCCCT >POGKAHOLAGGATACCATAGATGGCACGCCCT 有没有办法在不使用awk替换的情况下进行采样? 例如,我有这8行,我只想在一个新文件中随机抽样4个,而无需替换. >FLGKAHOLAGGATACCATAGATGGCACGCCCT >POGKAHOLAGGATACCATAGATGGCACGCCCT >ALGKAHOLAGGATACCATAGATGGCACGCCCT >BLGKAHOLAGGATACCATAGATGGCACGCCCT 提前致谢
对10%的线路进行随机抽样怎么样?
awk 'rand()>0.9' yourfile1 yourfile2 anotherfile 我不确定你的意思是“替换”…这里没有替代,只是随机选择. 基本上,它只精确查看每个文件的每一行,并在0到1的间隔内生成一个随机数.如果随机数大于0.9,则输出该行.所以基本上它是为每一行滚动一个10面骰子,只有当骰子出现为10时才打印它.没有机会打印两次线 – 除非它在你的文件中出现两次,当然. 为了增加随机性(!),你可以按照@klashxx的建议在开头添加一个srand() awk 'BEGIN{srand()} rand()>0.9' yourfile(s) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |