bash – 删除分隔符之间的重复文本

发布时间：2020-12-15 22:03:42 所属栏目：安全来源：网络整理

导读：我有一个 fortune的数据文件,包含许多重复的财富.我想删除它们. 财富由％’s描绘,所以样本财富文件可能如下所示： %This is sample fortune 1%This is sample fortune 2%This fortune is repeated%This is sample fortune 3%This fortune is repeated%This f

我有一个 fortune的数据文件,包含许多重复的财富.我想删除它们.

财富由％’s描绘,所以样本财富文件可能如下所示：

%
This is sample fortune 1
%
This is 
sample fortune 2
%
This fortune 
is repeated
%
This is sample fortune 3
%
This fortune 
is repeated
%
This fortune
is unique
%

正如你所看到的,财富可以跨越多条线,使solutions here无用.

我该怎么做才能找到并消除重复的命运？我想到只是找到一种方法让awk忽略以％开头的行,但是一些命运共享相同的行但总体上不一样(例如我的例子中的最后两行),所以这还不够.

到目前为止,我一直试图用awk解决这个问题,但任何工具都没问题.

解决方法

这是awk的工作：

awk 'seen[$0]{next}{seen[$0]=1}1' RS='%' ORS='%' fortune

RS =’％’表示我们使用％作为记录分隔符.

看到[$0]检查我们是否已经看到这个值. $0是整个记录,财富的文本,作为字符串.如果我们已经看到了我们正在转移到下一个记录的价值并且不打印任何东西.

{seen [$0] = 1}将记录添加到查找表中. 1打印当前记录,因为它始终为真.请注意,此代码仅在我们之前未看到记录时执行,因为之前的下一个语句.

ORS =’％’设置输出记录分隔符为％.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!