加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

在awk中并行处理?

发布时间:2020-12-13 23:09:35 所属栏目:Linux 来源:网络整理
导读:Awk逐行处理文件.假设每个行操作都不依赖于其他行,有没有办法让awk一次并行处理多行? 是否有其他文本处理工具可以自动利用并行性并更快地处理数据? 解决方法 尝试提供awk并行实现的唯一awk实现是 parallel-awk,但现在看起来项目已经死了. 否则,并行化awk的
Awk逐行处理文件.假设每个行操作都不依赖于其他行,有没有办法让awk一次并行处理多行?
是否有其他文本处理工具可以自动利用并行性并更快地处理数据?

解决方法

尝试提供awk并行实现的唯一awk实现是 parallel-awk,但现在看起来项目已经死了.

否则,并行化awk的一种方法是将输入拆分为块并并行处理它们.但是,拆分输入数据仍然是单线程的,因此可能会破坏性能增强目标,主要问题是标准拆分命令无法在线边界处拆分而不读取每一行.

如果您有可用的GNU拆分,或者支持-n l / *选项的版本,这里有一种优化的并行处理文件的方法,假设您有8个vCPU:

inputfile=input.txt
outputfile=output.txt
script=script.awk
count=8

split -n l/$count $inputfile /tmp/_pawk$$
for file in /tmp/_pawk$$*; do
    awk -f script.awk $file > ${file}.out &
done
wait
cat /tmp/_pawk$$*.out > $outputfile
rm /tmp/_pawk$$*

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读