本文示例了使用linux的seq产生数据,cat命令显示文件内容和进行文件合并,uniq命令去重,以及他们组合使用产生数据并集、合集和差集的威力。

  • seq 1 10
    产生1,2,… ,10 十个数据(默认步长为1),各个数据换行显示。
  • seq ‘ ’ 1 10
    产生1,2,…,10 十个数据(默认步长为1),数据之间空一格显示。
  • (seq 0 3 17) >text1
    从0到17之间,按照步长3选取数据,并命名为text1。
  • cat text1
    浏览text1文件内容。
  • (seq 3 6 18) >text2
    从3到18之间,按照步长6选取数据,并命名为text2。
  • cat text2
    浏览text2文件内容。
  • cat text1 text2 >twotext
    合并text1和text2内容,并命名为twotext。
  • cat twotext
    浏览twotext文件内容。
  • sort twotext -n >numTwo
    按照数据从小到大排列,并存到numTwo文件中。
  • cat numTwo
    浏览numTwo文件内容。
  • sort twotext >sortTwo
    按照数据中左起第一个数从小到大排列,再依次第二个、第三个 … ,并存到sortTwo文件中。
  • sort twotext -u >sorUniTwo
    按照数据中左起第一个数从小到大排列,再依次第二个、第三个 … ,并将其中重复的数据删去,并存到sorUniTwo文件中(求并集)。等价于:sort twoText|uniq
  • sort twoText |uniq -d
    选取出现次数大于等于2的元素(求text1和text2交集)。
  • sort twoText |uniq -u
    选取出现次数只有一次的元素(求text1和text2差集)。

思考练习:有a、b、c三个文件,求在a中存在但在b、c中不存在的行。
分析:要想选取b、c中不存在的行,可以先将b、c中元素翻倍,然后与a合并,统计合集中只出现过一次的行。因为a的行没有翻倍过,所以合集中只有仅在a才有的行只出现一次。这样就将在a中存在、而在b、c中不存在的(多集合之间先求合集,再求差集)。
答案:
cat a b b c c |sort|uniq -u >alldata
cat alldata

数据合集、并集和差集的产生(seq、cat、sort和uniq的综合使用)相关推荐

  1. 中国九大港口指标数据合集(2005-2019年)

    1.数据来源:中国港口年鉴 2.时间跨度:2005-2019年(没有缺失值) 3.区域范围:全国 4.指标说明: 包含以下主要指标: 主要指标:包括港口货物吞吐量.集装箱吞吐量.万吨级泊位数.港口码头 ...

  2. 大数据:数据合集,你想要的或许这里都有

    大数据时代,用数据做出理性分析显然更为有力.做数据分析前,能够找到合适的的数据源是一件非常重要的事情,获取数据的方式有很多种,不必局限.下面将从公开的数据集.爬虫.数据采集工具.付费API等等介绍.给 ...

  3. 碳中和数据合集:含中国碳中和政策全集、碳中和论文合集

    一.碳中和政策 1.数据来源:各省政府官网 2.时间跨度:至今 3.区域范围:全国 4.指标说明: 部分政策下: 名称 部门 发布时间 <十四五"促进中小企业发展规划> 工信部 ...

  4. 绿色信贷数据合集(更新至2021年)

     1. 2007-2021年国有大型商业银行和全国股份制商业银行绿色信贷数据 1.数据来源:公司年报和可持续发展报告以及社会责任报告 2.时间跨度:2007-2021年 3.区域范围:36家国有大型商 ...

  5. PPP管理库数据项目数、投资额数据合集

    一.PPP项目管理库数据 1.数据来源:财政部PPP数据库 2.时间跨度:截至2019年11月7日 3.区域范围:全国 4.指标说明: 包含如下指标: 项目名称.地区.行业.总投资额.发起时间.项目阶 ...

  6. 上市公司专利数据合集:专利申请授权、绿色专利申请量/授权量、专利引用数据

    上市公司专利合集专利申请授权.绿色专利申请量/授权量.专利引用数据 来源:国家知识产权专利数据库 一.上市公司各类别专利申请和授权数据(2007-2019) 1.指标:专利. 发明专利. 实用新型专利 ...

  7. 基尼系数、恩格尔系数泰尔指数等数据合集

    1.1988-2020年各省基尼系数(参考田卫民计算公式) 包含了2002年-2019年31省的基尼系数,包括城镇居民基尼系数.农村居民基尼系数.城乡整体基尼系数,总体居民基尼系数参考是田卫民老师的计 ...

  8. 全球GDP和人口数据合集

    目录 1. Population 1.1 Gridded Population of the world (GPW) 1.2 The Global Urban Rural Mapping Projec ...

  9. 2023年最新交通航线(飞机、高铁)信息数据合集(含经纬度匹配)

    中国高铁航线数据库Chinese High-speed Rail and Airline Database,CRAD)是一个专门收集和管理航空公司和高铁公司交通航线信息的数据仓库.它包含了航线的起始点 ...

最新文章

  1. JPPhotoBrowserDemo--微信朋友圈浏览图片
  2. linux自学笔记——RAID级别特性以及软RAID的实现
  3. Linux面试相关 c程序的运行流程
  4. SAP Spartacus 事件服务 Event Service 使用介绍
  5. 教你Mac电脑复制手机粘贴的隐藏玩法
  6. SpringBoot2.0 基础案例(15):配置MongoDB数据库,实现增删改查逻辑
  7. “开发人”注意了!百度AI快车道成都站:来了就不想走的活动
  8. python廖雪峰教程 学习笔记
  9. MySQL执行计划 EXPLAIN参数
  10. shell脚本:判断本地和远程文件是否存在
  11. RemObjects
  12. vector插入和删除操作
  13. 【机器学习系列】概率图模型第六讲:因子图和道德图
  14. win7桌面小工具 html5,Win7桌面小工具打不开怎么办
  15. DDoS是什么意思?
  16. springboot在线外卖点餐系统毕业设计毕设作品开题报告开题答辩PPT
  17. 免费字体下载预览,这几款字体非常冷艳动人。
  18. A7芯片 IOS降级 跳过ID | ipad Mini2降级 10.3.3
  19. 交叉熵以及相对熵的理解
  20. 即将截止?四川省2022年工业领域大企业大集团跨越发展激励项目申报条件、材料、要求及流程

热门文章

  1. unity游戏存档playerprefs
  2. linux需要wifi网络认证,无线802.1x认证简介及配置方法
  3. request.getParameter和SpringMVC后台控制层获取参数的方式
  4. pandas的使用(一)
  5. 大O表示法(复杂度分析)
  6. 学生学习成绩下降,家长应该怎么帮助学生进步?
  7. java获取微秒时间,java获取当前时间微秒
  8. 从传统金融变身科技公司后,2017年的平安交了这样一份答卷
  9. flppy bri_BRI的完整形式是什么?
  10. VB中实现IObjectSafety接口以声明控件安全的方法