bash – 使用awk将大型复杂的一列文件拆分为多个列
发布时间:2020-12-15 22:25:18 所属栏目:安全 来源:网络整理
导读:我有一个由一些商业软件生成的文本文件,如下所示.它由括号分隔的部分组成,每个部分都有数百万个元素,但确切的值会从一个案例变为另一个案例. (1 2 3...)(112233...)(111222333...) 我需要实现如下输出: 1; 11; 111 2; 22; 222 3; 33; 333... ... ... 我发现
我有一个由一些商业软件生成的文本文件,如下所示.它由括号分隔的部分组成,每个部分都有数百万个元素,但确切的值会从一个案例变为另一个案例.
(1 2 3 ... ) (11 22 33 ... ) (111 222 333 ... ) 我需要实现如下输出: 1; 11; 111 2; 22; 222 3; 33; 333 ... ... ... 我发现了一种复杂的方式: >执行sed操作来获取 1 2 3 ... # 11 22 33 ... # 111 222 333 ... >使用awk如下将文件拆分为多个子文件 awk -v RS="#" '{print > ("splitted-" NR ".txt")}' >使用sed再次从子文件中删除空格 sed -i '/^[[:space:]]*$/d' splitted*.txt >将所有内容加入: paste splitted*.txt > out.txt >添加字段分隔符(在我的bash脚本中定义) awk -v sep=$my_sep 'BEGIN{OFS=sep}{$1=$1; print }' out.txt > formatted.txt 我觉得这很糟糕,因为我循环了几百万行. awk 'BEGIN{RS="(n)"; OFS=";"} { print something } ' 我发现了一些相关的问题,特别是这一个row to column conversion with awk,但它假设括号之间有一定数量的线,我不能这样做. 任何帮助,将不胜感激. 解决方法
使用GNU awk实现多字符RS和真正的多维数组:
$cat tst.awk BEGIN { RS = "(s*[()]s*)+" OFS = ";" } NR>1 { cell[NR][1] split($0,cell[NR]) } END { for (rowNr=1; rowNr<=NF; rowNr++) { for (colNr=2; colNr<=NR; colNr++) { printf "%6s%s",cell[colNr][rowNr],(colNr<NR ? OFS : ORS) } } } $awk -f tst.awk file 1; 11; 111 2; 22; 222 3; 33; 333 ...; ...; ... (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |