我想使用Linux命令从大的制表符分隔文件中删除重复的单词/字符串.

names john, cnn, mac, tommy, mac, patrick, ngc, discovery, john, cnn, adam, patrick

cities san jose, santa clara, san franscisco, new york, san jose, santa clara

以上是文件格式,我想删除重复的单词后保留标签和逗号.

names john, cnn, mac, tommy, patrick, ngc, discovery, adam

cities san jose, santa clara, san franscisco, new york

任何帮助,将不胜感激.

解决方法:

awk 'BEGIN {

FS = ", |\t"

}

{

printf "%s\t", $1

delim = ""

for (i = 2; i <= NF; i++) {

if (! ($i in seen)) {

printf "%s%s", delim, $i

delim = ", "

}

seen[$i]

}

printf "\n"

delete seen

}' inputfile

如果您没有使用GNU AWK(gawk),那么您无法删除数组,而是使用split(“”,array).

标签:linux,awk,sed

来源: https://codeday.me/bug/20190902/1788376.html

linux过滤重复字符串,linux – 从制表符分隔文件中删除重复的单词/字符串相关推荐

  1. mysql scrapy 重复数据_MySQL大数据量表中删除重复记录

    MySQL大数据量表中删除重复记录 最近工作中需要抓取大量新闻,抓取的数据中由于一些原因存在一些重复数据,而整个数据表的记录数接近10万条,大小接近1个G,又在我自己的渣渣本本上,查询速度十分不理想, ...

  2. python从后面删除重复项_如何从Python列表中删除重复项

    如何从Python列表中删除重复项 了解如何从Python中的List中删除重复项技巧. 实例 从列表中删除任何重复项: mylist = ["a", "b", ...

  3. php去除两个重复,php – 如何从两个数组中删除重复对?

    我有两个这样的数组: $arr = Array (1, 2, 3 ,4 ,5, 6 ,7 ,8 ) ; 还有这个: $arr2 = Array (7, 6, 5,8 ,3 ,2 ,1, 4 ) 这些数 ...

  4. python删除列表中的重复值_如何从 Python 列表中删除重复项

    例子解释 创建一个以 List 作为参数的函数. 创建函数 def my_function(x): return list(dict.fromkeys(x)) mylist = my_function ...

  5. 过滤Linux下不同大小的文件,linux查找当前目录下 M/G 大小的文件,删除Linux下指定大小的文件

    过滤Linux下不同大小的文件,linux查找当前目录下 M/G 大小的文件,删除Linux下指定大小的文件 find ./ -type f -size +1G| xargs rm 在清理系统日志文件 ...

  6. Linux 指令:怎样从文件中找到重复行?

    Linux 指令:怎样从文件中找到重复行? 1.例如有文件test1.txt,内容如下: Hello world. 122 122 343434 222222 执行uniq -d 可以找到重复行: 1 ...

  7. C语言字符串中删除重复的字符的算法(附完整源码)

    C语言字符串中删除重复的字符的算法 C语言字符串中删除重复的字符的算法完整源码(定义,实现,main函数测试) C语言字符串中删除重复的字符的算法完整源码(定义,实现,main函数测试) #inclu ...

  8. Linux,grep命令,在大日志文件中搜索关键字 最后/最开始出现位置

    Linux,grep命令,在大日志文件中搜索关键字 最后/最开始出现位置 grep [选项]... PATTERN [FILE]... grep -C N,(N代表一个整数)是搜索关键字出现位置,并且 ...

  9. 在记事本++中删除重复的行

    本文翻译自:Removing duplicate rows in Notepad++ 是否可以在Notepad ++中删除重复的行,而只留下一行? #1楼 参考:https://stackoom.co ...

最新文章

  1. docker 添加端口映射_Docker三大核心概念之容器
  2. 格式化输出字符串变量
  3. HTML的display属性将行内元素、块状元素、行内块状元素互相转换以及三者的区别
  4. Java自学笔记(16):常用类:Math,Data和Calender,Format,Scanner
  5. html5 css 文本缩进,使用 CSS 文本缩进和 Padding 隐藏文本 - 文章教程
  6. 经典面试题(6):NaN 是什么?如何测试一个值是否等于 NaN ?
  7. python反转数字_[蓝桥杯]使用列表反转的回文数(Python代码),数字,利用,取反
  8. wap游戏的一些理解
  9. 模拟电子技术基础-第一章-常用半导体器件
  10. rainmeter 修正天气插件信息不准确 设置居住城市
  11. python 3.6 pyltp 安装
  12. 7-1 六度空间(30 分)
  13. 为什么visio输出图片俩边有留白_Microsoft Office Visio导出图片添加边界的操作教程...
  14. canvas.toDataURL() gives “Security Error” in IE 11
  15. 工厂模式总结——三个工厂
  16. (OpenCV+Python)--目标跟踪,背景分割器:KNN、MOG2和GMG
  17. 模块regsvr32 c:\Windows\SysWOW64\comdlg32.ocx 加载失败
  18. 问渠那得清如许?为有源头活水来。——java面向对象的思想
  19. 网站关键词优化在短期内见到效果的方法
  20. leetcode_399. 除法求值

热门文章

  1. c语言在中职的作用,C语言程序下的中职教学论文
  2. 树与森林的概念与性质
  3. 吴恩达机器学习ex7:PCA降维
  4. 【海啸预警】乔碧罗都在谈“区块链”,意味着新浪潮真的要来了?!
  5. Java并发(三)——线程池
  6. Vue.js项目中,当图片无法显示时则显示默认图片
  7. Jmeter接口测试系列之测试用例变量参数化处理
  8. P3007 [USACO11JAN]大陆议会The Continental Cowngress(2-SAT)
  9. byte数组转blob类型_Java类型相互转换byte[]类型,blob类型
  10. python keystone_keystone命令与client接口学习