加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

Bash / Shell中并行处理的有效方法?

发布时间:2020-12-16 01:49:19 所属栏目:安全 来源:网络整理
导读:我有一个包含域的文本文件(Input.txt),总共有大约35百万个域. #Input.txtgoogle.comcnn.combbc.com........ 现在,我有一个python脚本来检查文本文件(Input.txt)中与之关联的每个域的状态代码.对于较小的一组,我做 for i in $(cat Input.txt);do python statu
我有一个包含域的文本文件(Input.txt),总共有大约35百万个域.

#Input.txt
google.com
cnn.com
bbc.com
........

现在,我有一个python脚本来检查文本文件(Input.txt)中与之关联的每个域的状态代码.对于较小的一组,我做

for i in $(cat Input.txt);do python status_check.py $i;done > out_file.txt

如果我以这种方式处理,可能需要很长时间才能检查所有3500万个域的状态代码.

我不熟悉并行处理.有人可以帮助我,如何使用shell / bash / any节省时间来完成任务?

解决方法

您正在寻找GNU Parallel:

cat Input.txt | parallel -j 100 python status_check.py > out_file.txt

GNU Parallel是一种通用的并行化程序,可以在同一台机器上或在您具有ssh访问权限的多台机器上轻松并行运行作业.它通常可以替换for循环.

如果要在4个CPU上运行32个不同的作业,并行化的一种直接方法是在每个CPU上运行8个作业:

GNU Parallel会在完成后生成一个新进程 – 保持CPU处于活动状态,从而节省时间:

安装

如果没有为您的发行版打包GNU Parallel,您可以进行个人安装,不需要root访问权限.这样做可以在10秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

学到更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

阅读教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读