文件内容的格式是:

1  张三

2  李四

3  张三

第二列有重复数据,去重的脚本如下:

#!/bin/bashsort -t\t -k2 File.txt | awk -F'\t' '{if($2 == VALUE) {}
else if($2 != VALUE)
{VALUE = $2;print $0;}
}' > target.txt

sort -t\t -k1 target.txt > result.txt      rm target.txt

  首先将第二列进行排序: sort -t\t -k2 File.txt

  然后if($2 == VALUE) {}判断 第一列是否与变量 VALUE相等  (不必要担心 VALUE变量的值 在初始化时 awk 为 VALUE赋值 为""),如果相等什么多不做。  

  

else if($2 != VALUE)
{VALUE = $2;print $0;}

如果 一列不等于VALUE变量的值将$2赋值为VALUE然后打印这行数据,然后进行下一行 比较 下一行数据与上一行数据的VALUE是否相等相等什么都不敢也就是说

不打印着一行 如果不相等则打印着一行 从而起到去除重复数据的作用

转载于:https://www.cnblogs.com/pigerhan/archive/2012/09/25/2702106.html

shell取出多列文件中某一列重复的数据相关推荐

  1. 学python看什么书好1002无标题-如何使用pandas读取txt文件中指定的列(有无标题)

    最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了. 我的需求是取出指定的列的数据,踩了些坑给研究出来了. import pandas ...

  2. python按列读取txt文件_如何使用pandas读取txt文件中指定的列(有无标题)

    最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了. 我的需求是取出指定的列的数据,踩了些坑给研究出来了. import pandas ...

  3. python读取指定路径txt文件-如何使用pandas读取txt文件中指定的列(有无标题)

    最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了. 我的需求是取出指定的列的数据,踩了些坑给研究出来了. import pandas ...

  4. linux awk 某一列合并,利用shell中awk和xargs以及sed将多行多列文本中某一列合并成一行...

    一.问题描述 最近需要利用Shell将多行多列文本中某一列,通过指定的分隔符合并成一行.假设需要处理的文本如下: 我们主要处理的是,将用户名提取处理,合并成一行,并通过逗号进行分隔.最终的格式如下: ...

  5. python获取csv文件中某一列或者某些列

    把三个csv文件中的feature值整合到一个文件中,同时添加相应的label. # -*-coding:utf-8 -*- import csv; label1 = '1' label2 = '2' ...

  6. python读取数据文件夹_使用python依次读取文件中的所有csv格式的数据

    使用python依次读取文件中的所有csv格式的数据: #coding=gbk import pandas as pd import os path = r'D:\ml_datasets\PHM\c6 ...

  7. PTA在一大堆数据中找出重复的是一件经常要做的事情。现在,我们要处理许多整数,在这些整数中,可能存在重复的数据。

    在一大堆数据中找出重复的是一件经常要做的事情.现在,我们要处理许多整数,在这些整数中,可能存在重复的数据. 你要写一个程序来做这件事情,读入数据,检查是否有重复的数据.如果有,输出"YES& ...

  8. python提取文件指定列_如何从csv文件中提取特定列并使用python绘图

    我有一个csv文件,其中包含以下几行数据:# Vertex X Y Z K_I K_II K_III J 0 2.100000e+00 2.000000e+00 -1.000000e-04 0.000 ...

  9. java 取pdf 文本域_java – 使用iText从pdf文件中提取文本列

    我需要使用iText从pdf文件中提取文本. 问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中列被合并为结果(即同一行中两列的文本) 这是代码: public class pd ...

最新文章

  1. 当领导,核心是“抓住2点、做好5条”!做到了,员工根本不用管
  2. Sql Server 日期格式转换
  3. 【转贴】PLSQL不安装客户端连接远程oracle
  4. matlab——sparse函数和full函数
  5. 浏览器指纹实现方案:Cookie、Flash Cookies、帆布指纹识别
  6. 对于随机过程方面书籍的评论(转贴)
  7. XNA游戏:Hello XNA
  8. Actor-ES框架:Ray-Handler-消息订阅器编写
  9. 如何在IIS上配置多个网站,及网站发布配置讲解
  10. HIve常用CLI命令
  11. 数据库自增主键用完了怎么办
  12. Windows平台下tomcat+java的web程序持续占cpu问题调试
  13. java时间控件jar包_maven打jar包插件
  14. 博文视点读书节第七日丨IT大咖来荐书,CS提升分享今晚开播,晒单赢福袋活动上线!
  15. 第三方魔兽金币交易平台的影响力会很快地褪去
  16. 基于百度tts-实现文字转语音,支持下载,在线预览
  17. ccf 节日 java 思路
  18. 获取当前的url并移除不想要的字段
  19. sco unix 管理员速成
  20. 每天小练笔10-小和尚挑水(回溯法)

热门文章

  1. Android210更新2---支持喇叭
  2. wordpress--SEO们的福音
  3. lua string操作
  4. 【公告】服务器升级完成
  5. roller在eclipse中的部署
  6. “【第二届】Erlang Fans交流会”议程
  7. 常用公差配合表图_模具设计,常用模具零件选用
  8. Ansible中的变量及加密
  9. 试题 历届试题 幸运数(二分)
  10. Jdbc访问mysql查询聚合函数_JDBC连接参数设置对Oracle数据库的影响分析