http://blog.chinaunix.net/uid-23586172-id-3349317.html

sort在linux命令行下面是一个非常好用的工具,有人把它当做每个程序员都应该知道的8个Linux命令之一,http://news.cnblogs.com/n/157504/ 。最近在处理大数据的时候发现两点。

1. 用sort -u 而不是sort|uniq。 
sort应该是按照归并的思想来的,先分成一个个小文件,排序后再组合成最后拍好序的文件。所以,sort -u 要比sort | uniq 快。因为越早去除那些相同的元素,肯定是对后面归并的速度有好处的。
具体的测试如下:
2.更换sort的临时文件生成目录。
上面所说的sort的临时小文件是默认放在/tmp路径下的,有时候/tmp的空间有限制,比如4G,那么,超过4G的文件就没有办法用sort了。可以用sort -T Path 来临时文件的目录。不用担心,归并完以后小文件会自动删除的。
3. 按键值排序
这点其实跟大数据量有多大关系,而是很好用,sort -k 按照键值来排序。

大数据量下的sort相关推荐

  1. 一招教你解决大数据量下的各种报表使用问题

    在我们日常制作报表分析过程中,总会遇到各种问题.比如,报表底层数据日益增多.报表加载超慢,这些情况该怎么解决? 数据库是最常见的能处理大数据的计算方案,而永洪能利用数据库来完成数据计算.但是,有些报表 ...

  2. 大数据量下,身份证的查询优化

    大数据量下,身份证的查询优化 这里是测试练习采用select *,实际场景中还是使用所有字段的形式,这样也可以提高效率 方式一:身份证分别正向.逆向存储,使用like逆序模糊查询,满足最左匹配原则,索 ...

  3. Java8 Stream 数据流,大数据量下的性能效率怎么样?

    今日推荐程序猿惯用口头禅,你被击中了吗? 常见代码重构技巧(非常实用) B站,牛啊. 程序员缺乏经验的 7 种表现 2021年4月程序员工资统计:平均14596元,南京程序员收入挤进一线. 来源:bl ...

  4. 大数据量下高并发同步的讲解(不看,保证你后悔!)

    偶然的机会在网上看到了这篇blog,觉得作者写得挺不错的(虽然自己并没有怎么看懂...),所以就转来跟大家分享分享吧~~~ 对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发 ...

  5. 大数据量下水晶报表的实现及显示过程中的进度条显示讨论

    最近一段收到的反馈中,有几位是问到在应用程序中使用水晶报表时,大数据量情况下因为等待时间过长,给用户的感觉不好 所以想增加一个进度条,给用户一个比较直观的印象. 本文针对此问题而生,但是并没有一个像样 ...

  6. java导出Excel增加下拉框选项,解决小数据量和大数据量下拉框选项的问题

    文章目录 java导出Excel增加下拉框选项 一.小数据量情况 二.大数据量情况 java导出Excel增加下拉框选项(java结合easyExcel) 添加传参模型ConsumablesAddDT ...

  7. 大数据量下高并发同步的讲解(不看,保证你后悔)

    对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了.而并发问题是绝大部分的程序员头疼的问题, 但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研 ...

  8. 大数据量下数据库设计及分库分表拆分原则

    在设计数据库的建设前,首先准备工作是了解业务,然后根据业务数据进行数据库设计,设计的同时需要考虑业务数据量.可改造性.数据弱一致性.读写分离.复杂SQL多样化等: 首先,可数据根据读弱一致性可以考虑添 ...

  9. 大数据量下(批量)提升性能的方法以及常见的性能优化方法

    数据库层面(包含数据库设计和语句):尽量做到节省时间和数据库开销 1.让语句更加合理,符合查询优化的规则.避免全表扫描,建立高效索引,正确利用索引等. 2.避免频繁创建和删除临时表. 3.尽量避免向客 ...

最新文章

  1. EMQ学习笔记---Clean Session和Retained Message
  2. 数据库中间件 MyCAT源码分析:【单库单表】插入【推荐阅读】
  3. 【示例】Lucene创建索引库编程步骤
  4. Flink解析kafka canal未压平数据为message报错
  5. Linux系统语言教程,Linux操作系统基础及语言基础教程-麦可网张凌华
  6. 容器编排技术 -- Kubernetes 给容器和Pod分配CPU资源
  7. RocketMQ源码分析之从官方示例窥探:RocketMQ事务消息实现基本思想
  8. ios底部栏设计规范_2016年全新Apple iOS设计规范指南!
  9. The type List is not generic; it cannot …
  10. 华为新系统鸿蒙,爆料|疑似华为新MatePad Pro包装盒曝光:搭载鸿蒙OS
  11. Android 四大组件面试
  12. 大数据智能分析的未来发展趋势
  13. Lookup Table 应用
  14. 今日早报 每日精选12条新闻简报 每天一分钟 知晓天下事 6月29日
  15. FortiGate防火墙配置SSL用户分流
  16. cubemx实现CAN通讯
  17. 在javascript中重新加载/刷新页面的不同方法
  18. 爬虫 人人车字体反爬分析(含源码)
  19. swi prolog 和java_java-如何在Android中使用swi-prolog
  20. CF765F Souvenirs

热门文章

  1. 用计算机做科学计算是绝对精确的吗,科学计算与数学建模 - osc_3gfjojb2的个人空间 - OSCHINA - 中文开源技术交流社区...
  2. mysql增量同步kafka_MySQL数据实时增量同步到Kafka - Flume
  3. 【小白学习PyTorch教程】八、使用图像数据增强手段,提升CIFAR-10 数据集精确度
  4. 三十二、从0到1教你用Scrapy来爬取整站天气网
  5. sklearn模型评估
  6. keepalived安装与配置_面试官问LVS+keepalived+nginx怎么实现时该怎么答?
  7. 深圳内推 | ​IDEA数字经济研究院招聘NLP算法工程师/算法实习生
  8. ​让人惊叹的Johnson-Lindenstrauss引理:应用篇
  9. ECCV 2020 | 智能自动零售可行吗?AI安全应引起广泛关注!
  10. Word Embedding Papers | 经典再读之fastText