前言

前几天,从 DBA 手里接到一个 Redis RDB 文件,里面是 15G 约 660万 的 Redis 键值对数据,想通过这些数据提取出当前 Redis 的 Key 和这些 Key 的类型。其文件的每行结构类似于:

KEY: IAmATestKey || TYPE: STRING || expiretime:-1 || value:IAmTheTestValue

下文就是此问题的跳坑和脱坑过程:

文章经常被人爬,而且还不注明原地址,我在这里的更新和纠错没法同步,这里注明一下原文地址:http://www.cnblogs.com/zhenbianshu/p/7486530.html 以防误人子弟。


通用解决方案不好使

awk长时间处理中

对 linux 命令稍熟悉的同学可能就会说了:这些数据格式这么统一,数据字段间也有明显的分隔符,不正是 awk 工具大显身手的时刻吗?

是的,awk 是 linux 下一个强大而又略复杂的命令,使用它的简单语句也可以高效地处理大量文本,但是今天的主角不是它,我也不想复制粘贴网上到处都是的教程,就不再多介绍了。

原以为使用 awk -F ' ' '{printf $2","$6}' rdb.log >>keys.txt 将结果重定向到 keys.txt,也就一行命令的事,可是执行后,发现执行了两个小时还没有结束的意思。

是文件太大,awk 卡住了么?

切割文件也无法解决

文件太大处理不方便,这时,就要用到linux的另一个工具了:split 将文件以行数/大小平均分割; split [-b bytes][-l line] input_file output_prefix

由于每一行的大小是不同的,按照大小来分割的话可能会导致某一行被拆散,于是以每个文件 100 万行,分割出7个文件,再对这些文件分别使用 awk 来处理, split -l 1000000 rdb.log rdb_split_

对分割后的文件使用awk,结果奇怪的是还是会在某个文件上执行很长时间没反应。

这时使用 ls 命令查看文件大小的时候发现,15G 的文件分割成了 7 份,有一个竟然有 7G 大小,这时想到可能会有的 set 或 list 很大,占用几 G 的内存也是有可能的。而 awk 长时间处理有可能是因为这些特别大的行。


用C来高效处理

既然如此,那就只好用别的方法先处理一下文件了,这里我考虑取出文件数据每行的前100个字符,由于键都很短,100个字符已经是足够包括键名和类型了。

可是印象中没有相关的工具或命令,于是找谷哥搜索一下文件的大行怎么处理。。。结果并没有相应的解决方式,只好考虑自己来写脚本了,由于其逻辑并不复杂,而且对效率要求高,就舍弃了 PHP,准备使用 C 来解决。

整体思想是:利用 C 文件操作函数 fgets(&res, length, file_hanler) 在每一行读到换行符或读到 length 个字符的特点。如果读到100个字符还没有读到结尾(最后一个字符不是换行符),就说明此行是一个大行,那么就读取单个字符并丢弃,直到读到换行符,再继续处理下一行。

这里贴上 C 脚本:

#include <stdio.h>
#include <string.h>int main() {FILE *fp_in;FILE *fp_out;char ch;char line[100];fp_in = fopen("rdb.log", "r");fp_out = fopen("keys.txt", "w");while (!feof(fp_in)) {fgets(line, 100, fp_in);  //读取一行fputs(line, fp_out);if (line[strlen(line) - 1] != '\n') {while ((ch = fgetc(fp_in)) != '\n') { ;}fputc('\n', fp_out);}}fclose(fp_in);fclose(fp_out);
}

C 执行得还是很快的,大概三分钟。执行结束后,再使用 awk 工具,果然很快就把键和类型拆了出来。

此时心情大好,果然多掌握一门像 C 这种高效语言就是有用啊。


还有更好的工具

当从 leader 口中得知 cut 命令时,我的表情是这样的:

好吧,赶快了解一下 cut 命令:

cut [options] [file.name] :从每个文件中输出指定部分到标准输出。

其选项有:

  • -b n 输出第n个字节;
  • -c n 输出第n个字符,用于处理类似utf-8中文这种三个字节的字符;
  • -f n 输出第n个字段,其字段分隔符用 -d 指定;

不光有我脚本取前 n 个字符的功能,还能直接取第 n 个字段。。

试了下,cut -b 100 rdb.log >>keys.log 取前 100 个字符用了 8 分钟,虽然比 C 脚本要慢,可是它不用手写脚本,而且适用范围比我写的脚本要大。


小结

问题是顺利解决了,可是解决过程引起我的思考。这个问题应该会被更快更方便地解决的,搞得这么麻烦主要是因为 linux命令掌握不全

不知道 linux 还有 cut 命令。其实也不是不知道,事后发现我笔记里已经有了关于 cut 的简单记录了,可能是由于命令太过简单,没有很多参数,也没想到太多应用场景,被我记入了 linux 的杂项。

同时也发现了跟 cut 一样被遗忘的还有其他小知识点,是时候回忆一波了。

另外谷哥搜索命令的关键词也大有问题,没有抓住取文件前 n 字符的本质,竟然去搜索文件大行处理,因为急着要下班去接女朋友,失了智了,最后一个弥补工具问题的机会被抛弃了。

我一直认为:解决问题的能力 ~ 个人工具箱的大小。掌握的工具越多,面对问题就会有更多选择,解决问题也就越得心应手。开发技能是基础,工具用好才能快速高效地解决问题。

写几个常用自动化脚本、alias 简化一下很长的命令、掌握一些常用的快捷键,开发效率就能这么一点点提升了。

关于本文有什么问题可以在下面留言交流,如果您觉得本文对您有帮助,可以点击下面的 推荐 支持一下我。博客一直在更新,欢迎 关注

扩充你的工具箱 - 大行文件的处理相关推荐

  1. 全网最详细SpringBatch读(Reader)跨多行文件讲解

    文章列表 读记录跨多行文件 1.读跨多行文件job配置 2.读跨多行文件reader 3.自定义FieldSetMapper 4.读跨多行文件processor 5.读跨多行文件writer 写在前面 ...

  2. php 执行多个文件,PHP提高执行多个查询时读取一千行文件的性能

    我试图建立一个脚本,我需要读取txt文件并使用文件上的行执行某个过程.例如,我需要检查ID是否存在,如果信息已更新(如果有),则更新当前表(如果不存在),则在另一个临时表上插入一个新行,稍后手动检查. ...

  3. linux命令删除的文件怎么找回来,linux误删文件怎么恢复 linux误删命令行文件怎么恢复...

    linux误删文件怎么恢复 linux误删命令行文件怎么恢复 linux系统是不同于windows系统和mac系统的,它独特的系统操作深受广大网友喜爱.有的朋友在使用linux系统的时候,不小心把一些 ...

  4. 使用命令行进行文件操作

    使用命令行进行文件操作 考虑到权限问题时,一般创建.修改.删除文件需要使用sudo命令切换到root权限. 1.文件内容显示 (1)cat 命令 cat命令连接文件并打印到标准输出设备上,常用来显文件 ...

  5. android的属性如何使用方法,Android第二大控件,EditText的属性和使用方法

    原标题:Android第二大控件,EditText的属性和使用方法 EditText与TextView非常相似,它甚至与TextView 共用了绝大部分XML属性和方法.EditText与TextVi ...

  6. MFC工具箱各种控件的具体意义

    忘记在哪看到的了, 控件工具箱:  2 图形控件(picture):常用于显示位图(Bitmap)和图标(Icon) 3 静态文本(Static Text):用来在指定的位置显示特定的字符串,一般用来 ...

  7. 30款提升组织效能 SaaS 工具,我们的宝藏工具箱大公开

    熟悉 Juicedata 的小伙伴知道,从2017年成立到第一款产品发布.从寻找PMF(Product Market Fit) 到开源,我们一直保持着一个精简的团队配置,不少人都很好奇我们是如何做到的 ...

  8. 方便、快捷、免费的工具箱大合集!大、 多、 多

    hello大家好,今天给大家分享一款在线的工具箱 虽然分享过许多类似的网站,但这个网站绝对是能排到前三名,网站设计模板好看,工具不仅实用且都免费,需要的可以保存下. 67工具网 网站首页如下图所示.里 ...

  9. python读取文本并且替换_lin如何读取和替换python行文件中的文本

    我是python的初学者,想学习如何替换来自不同文件的文本.在 我知道如何进行基本操作,但需要帮助: 我有3个文件主.txt,名称.txt和数字.txt 在名称.txt看起来像这样:Anna Smit ...

最新文章

  1. JavaScript内置函数及API
  2. python中的引用_Python中的引用
  3. 手机浏览器页面知识收集
  4. 【转】漫画:Bitmap算法
  5. jQuery学习笔记(二)—— 操作DOM元素
  6. Linux内核中的常用宏container_of其实很简单【转】
  7. 设备驱动,字符设备驱动、(总线)设备驱动模型、sysfs文件系统、平台设备驱动
  8. linux中磁盘的iused,Linux 磁盘与文件系统管理
  9. 容器映像_容器映像中的内容:应对法律挑战
  10. 李宁是怎么输给安踏的?
  11. 一加7T Pro曝光:10月10日发布
  12. 我的世界服务器自定义怪物怎么用,我的世界怪物属性自定义教程 怪物属性代码一览...
  13. java输入年月判断当月天数_java输入月份,年份,显示对应月份的天数,
  14. 树莓派 ubuntu gpio_如何给树莓派安装操作系统
  15. 在 Cloudera Data Flow 上运行你的第一个 Flink 例子
  16. qt禁止拖动_Qt如何实现拖拽功能?
  17. 青果教务管理系统存储型XSS 一枚
  18. Springboot 邮件发送(html内嵌图片、附件)
  19. html打字机特效,[JS插件]酷炫的打字机效果: Typed.js
  20. 左边是地狱右边也是地狱_我担任地狱首席执行官的时间

热门文章

  1. 解决css冲突的问题
  2. Docker修炼第一招: 先从Dockerfile开始
  3. 学开发的基本规范和要求
  4. day31-python阶段性复习五
  5. SpringBoot分页组件PageHelper介绍及使用
  6. ubuntu16全程安装mysql5.7.15!
  7. 【转】JavaScript常用代码书写规范
  8. MongoDB的选举过程
  9. Dev-Cpp 5.5.2 MinGW 4.7.2 写pthread C++ 多线程
  10. 设计模式系列-代理模式