群里同学的需求,刚学一段时间,到网上搜了下资料就开始操作了。

2个文件排重,在第二个文件里把第一个文件里出现的行删除,第一个文件有8000行,第二个文件有2000万行

环境1:

文件1

cat a.txt

aa

aaa

bb

cc

文件2

cat b.txt

aaa

ccc

vvv

cat c.py

python脚本

#!/usr/bin/env python

import difflib

import sys

a = open('a.txt', 'U').readlines()

b = open('b.txt', 'U').readlines()

diff = difflib.ndiff(a,b)

sys.stdout.writelines(diff)

python c.py > d.txt 输出脚本到d.txt

cat d.txt |awk -F ' ' '$1~/+/{print $2}'

ccc

vvv

把开头为加号的选出即可。

转载于:https://blog.51cto.com/bjzby/1791759

初心大陆-----python宝典之以外学习对比去重相关推荐

  1. 初心大陆-----python宝典   第三章

    先絮叨两句,刚好赶上了周六日,和对象提前已经计划好,要去北戴河,旅游一番,虽然时间较短,但是玩的还是很开心.大家要是去北戴河,建议去住市里,我是住的旅游区,住房是便宜,但是附近的饭店真是不敢恭维.到鸽 ...

  2. 初心大陆----python宝典(意外发生篇)

    我靠,小P老师居然让我去深渊魔窟,那个地方是人去的吗?不会让我去玩我吧. 算了,还是去看看吧,听说里面有宝藏. 带着无比激动的心情来到了深渊魔窟的门口,这尼玛是啥,还要口令. 什么口令:ip地址和十进 ...

  3. python宝典 宋强 pdf_Python宝典

    基本信息 书名:Python宝典 **:79.80元 售价:75.8元,便宜4.0元,折扣94 作者:杨佩璐 出版社:电子工业出版社 出版日期:2014-05-01 ISBN:978712122562 ...

  4. 腾讯技术官发布Python零基础就业宝典,想学习Python的朋友有福了

    近几年来,互联网行业变化非常大,除了龙头企业的更替,"裁员潮""失业潮"也不断掀起,尤其是对于年纪太大的程序员真的是不太友好.但是,根据数据统计表明,自2018 ...

  5. 精通python自然语言处理pdf_学习NLP《自然语言处理综论第2版》中文PDF+英文PDF+对比分析...

    对于从事自然语言处理.文本分析的专业人士来说,建议参考学习<自然语言处理综论第2版>.对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面 ...

  6. python 速度 memmap_浅析Python 读取图像文件的性能对比

    浅析Python 读取图像文件的性能对比 发布时间:2020-08-30 16:31:06 来源:脚本之家 阅读:57 作者:BriFuture''s Blog 使用 Python 读取一个保存在本地 ...

  7. Python机器学习、深度学习库总结(内含大量示例,建议收藏)

    Python机器学习.深度学习库总结(内含大量示例,建议收藏) 前言 python常用机器学习及深度学习库介绍 总结与分类 python 常用机器学习及深度学习库总结 分类 更多 前言 目前,随着人工 ...

  8. python中常用于输出信息的语句函数是print括号_第十四课我们研究一下常用的print()函数,翻看了一下Python宝典...

    很高兴又和大家见面了. 上一节课,我们学会了如何打通任督二脉,突破编程中的瓶颈,小K希望大家遇到问题时,能够冷静下来,认真分析,不要怂. 这两节课的主要内容是带大家探究"熟悉的陌生人&quo ...

  9. Python机器学习、深度学习库总结

    Python机器学习.深度学习库总结(内含大量示例,建议收藏) 前言 python常用机器学习及深度学习库介绍 总结与分类 python 常用机器学习及深度学习库总结 分类 更多 前言 为了大家能够对 ...

最新文章

  1. matlab 显示3d频谱_matlab 关于频谱分析程序集锦
  2. python查询数据库,打印查询结果过程中出现'NoneType' object is unsubscriptable
  3. Flutter中的提示工具
  4. boost::python::detail::result相关的测试程序
  5. nginx rtmp代码架构1 hook点总结
  6. 在.NET Core微服务中使用HostBuilder和Generic Host
  7. python 时间函数小总结
  8. 华为服务器euleros系统,euleros服务器版本
  9. mysql数据库连接限制,mysql-获取数据库连接表有限制
  10. += 对于可变对象和不可变对象的区别
  11. Vivado使用系列:使用自定义BD
  12. android图片叠加方法
  13. 外卖骑手困在算法,美团困在了利益中
  14. Spring Cloud Gateway +Oauth2 +JWT+Vue 实现前后端分离RBAC权限管理
  15. 商家如何在手淘里面做活动页面,引流到微信号上,如何做私域引流的活动页
  16. Vista系统安装优化备忘
  17. Docker实践7:容器与主机拷贝数据
  18. 人脸识别与神经风格转换
  19. 漂亮!竟然用一个脚本就把系统升级到https了,且永久免费!
  20. 励志|北大保安哥再上热搜!我连夜翻开了自己的书

热门文章

  1. 程序员提升编程效率的十五点建议!
  2. 【资源共享】《Rockchip 量产烧录 指南 V1.0》
  3. Hibernate关联关系配置(一对多,一对一,多对多)
  4. 【MongoDB数据库】怎样安装、配置MongoDB
  5. [转]C#多线程学习(四) 多线程的自动管理(线程池)
  6. 详解Ubuntu10.10下Qt连接Mysql数据库
  7. 华硕服务器第三届“IT硬件平台搭建大赛”获奖方案
  8. Go 语言编程 — 程序结构
  9. DPDK — EAL 环境抽象层
  10. 用 Flask 来写个轻博客 (8) — (M)VC_Alembic 管理数据库结构的升级和降级