linux下实现对多个文件去重软件,Linux下大文件的排序和去重复
简单的用法如下,如一个文件名:happybirthday.txt
cat happybirthday.txt (显示文件内容)
Happy Birthday to You!
Happy Birthday to You!
Happy Birthday Dear Tux!
Happy Birthday to You!
cat happybirthday.txt|
去大文件重复行
但有时碰到一个大文件时(例如G级的文件),用上面的命令时报错,提示空间不足。我尝试了一下,最后是用 split 命令把大文件分割为几个小文件,单独排完序后再合并 uniq 。
split -b 200m happybirthday.big Prefix_
用-b参数切割happybirthday.big,小文件为200M。切割后的文件名前缀是Prefix_
切割后的文件名如
Prefix_aa
Prefix_ab
再分别sort
sort Prefix_aa >Prefix_aa.sort
sort Prefix_ab >Prefix_ab.sort
再用 sort -m合并,再 uniq
cat Prefix_aa.sort Prefix_ab.sort |sort -m |uniq
上面的代码排序后还是不满意的话,可尝试下面的(2010-07-12更新):
sort -sm Prefix_aa.sort Prefix_ab.sort|uniq
这是好早前碰到的一个问题了。没记错的话应该是这么回事。~
sort 与 uniq 命令还有许多有用的参数,如sort -m、uniq -u、uniq -d等。sort 与 uniq的组合是很强大的。
~完。
linux下实现对多个文件去重软件,Linux下大文件的排序和去重复相关推荐
- 云服务器传文件用什么软件,免费云主机文件传输软件推荐,大文件极速秒传
在对云主机进行运维的过程中,我们总是需要在云主机和本地之间进行文件传输.但是文件传输的过程往往会受到带宽的限制,譬如小编仅从云主机上下载一个300兆大小的文件就需要10分钟,上传一个60兆大小的文件需 ...
- 谈谈Linux系统CP命令如何做到0.2秒复制100G大文件?
谈谈Linux系统CP命令如何做到0.2秒复制100G大文件? 文章目录 谈谈Linux系统CP命令如何做到0.2秒复制100G大文件? cp 引发的思考 文件系统 为什么 cp 那么快? 结语 cp ...
- Linux fs清理文件,linux找出已经删除但磁盘空间未释放的大文件并清空
linux找出已经删除但磁盘空间未释放的大文件并清空 1.找出已经删除但磁盘空间未释放的文件 如果文件已经删除,但实际的磁盘空间未释放,这个时候文件句柄fd相关信息还在内存中,可以通过lsof命令找出 ...
- 删除下拉框只找23火星软件_下拉推广选择23火星软件
不管你是微商还是实体店或是中小企业的老板,都会有以下令人头疼的问题,产品没有销量?没有意向客户?招不到代理?怎么办? 我们就是用百度下拉框业务,让精准客源,意向客户主动来联系你! 详情请咨询微信:yu ...
- linux去重复程序,Linux下大文件的排序和去重复
命令介绍: sort :将文本文件内容加以排序. sort -u [file] = sort [file] | uniq (去重) 参数说明 -b 忽略每行前面开始出的空格字符 -c 检查文件是 ...
- centos查找linux大文件,centos中查找出大文件命令汇总
在linux中简单的查找文件与目录大小很简单 #已易读的格式显示指定目录或文件的大小,-s选项指定对于目录不详细显示每个子目录或文件的大小 du -sh [dirname|filename] 如: 当 ...
- linux 复制文件_使用 rsync 复制大文件的一些误解 | Linux 中国
这位朋友认为 rsync 是一个神奇的工具,应该仅"同步"文件本身.但是,我们大多数人所忘记的是了解 rsync 的真正含义.用法,以及我认为最重要的是它原本是用来做什么的.-- ...
- linux磁盘空间被占满,但是找不到大文件
磁盘满了之后,会影响一些功能使用,使用df -h 发现磁盘空间满了, 但是任凭各个文件目录下du -sh * 也找不到大文件 解决方式: lsof -n | grep deleted 查看到以删除的占 ...
- centos查看盘符_Centos下磁盘管理的常用命令记录(如查找大文件)
Centos下磁盘管理的常用命令记录 查看系统磁盘空间占用,使用命令: df -h 结果: 查看磁盘inode使用情况,如果inode用完了,磁盘就没法写入新的内容了: df -i 结果: 如何查找磁 ...
最新文章
- 为什么我们的web前端变的越来越复杂
- Oracle Buffer-cache (数据高速缓存)作用概述
- CSS基础(part12)--盒子模型之外边距
- 想用 Python3 破冰人工智能?首先你得懂这些数学方法!
- ssh系统环境搭建步骤
- GCC的__attribute__ ((constructor))和__attribute__ ((destructor))
- 怎么还原mysql的数据库文件_.sql数据库文件如何还原?
- 『搬运』分享一些国内外的专利搜索网站
- 2-16-树状关系模式
- Java 2实用教程(第5版)实验指导与习题解答 第4章-类与对象
- 如何查看计算机开机启动的服务,开机启动项在哪里设置 开机启动项设置方法【图文】...
- RedHat7.5最小化安装之后一些配置
- 第一届全国区块链和分布式记账技术标准化技术委员会 委员名单
- LEAM(生活/生命体验算法模型)
- TortoiseSvn介绍(配置与管理)
- HTML+CSS面试技巧
- 第八天0304 构造方法 package import
- Feedforward ANC 主动降噪原理
- datastage7.5.1.A License 及 下载地址 Download
- 软考新思维--2017年上半年信息系统项目管理师上午试题分析与答案(试题46-50题)