数据提取操作

1、操作命令(都可以结合pipe使用)

1、cut:切分操作(可以切分出一整列)

2、grep:检索(可以使用正则表达式)

3、sort:排序(可以对整列排序)

4、wc:统计字符、字数、行数

5、uniq:去重(只去除连续的重复值)

6、tee:双向重定向

7、split:文件切分(按字节大小、按行等)

8、xargs:参数代换(结合pipe使用)

9、tr、替换、压缩和删除

2、具体操作

(1)cut 切分:cut [option] <file>

-d c:以c字符分割
-f num:显示num字段的内容【n-;n-m;-m;m,n】

-b num:按字节切分 <<=>> -c num:按字符切分

(2)grep 检索

-c :统计搜寻到的行数

-i:忽略大小写
-n :顺序输出行号

-v:反向输出(去掉不想要的内容)

-w:匹配整个单词而不是一部分

(3)sort 排序(默认以字符串第一个字符从小到大排序)

-f:忽略大小写
-M:以月份名称排序
-n:根据数值排序
-r:反向排序
-t:分割字符:指定排序时用的栏位分割字符
-k:以哪个区间排序
例如:将 /etc/passwd中的内容按照uid反向排序

(4)wc 统计字符、字数、行数

-l :仅列出行数
-w:仅列出字数
-c:列出字节数
-m:列出字符数
-L :统计最长行字符数

(5)uniq 去重

-i:忽略大小写
-c:对重复项计数
-u:只输出不重复的行
使用last命令输出登录用户名及次数

(6)tee 双向重定向

-a:append追加(既打印在屏幕上又打印进文件中)

(7)splite 文件切分

-b SIZE:切分为SIZE bytes 大小的文件
-C SIZE:切分为SIZE bytes大小的文件不断开一行
–l num:以num行为大小进行切分

图中切分为每3行一个文件,所以ls之后有了6个文件

(8)xargs 参数代换(管道后面不收标准输入时使用)

-p:执行命令前先询问
-n num:每次执行command时需要的参数个数
-eEOF:执行到EOF这个参数就结束

按照用户名查看 /etc/passwd中的用户,当读到‘sync’用户时结束

(9)tr 替换、删除、压缩(tr [ option] <字符集1><字符集2>)

-c :替换所有不属于第一字符集的字符
-d:删除所有属于第一字符集的字符
-s:将连续重复的字符以单独一个字符表示

词频统计

a.txt 文件的内容
进行统计

Linux之数据提取操作相关推荐

  1. Node_exporter+Prometheus+Grafana 快速实现Linux系统性能数据提取、存储和可视化展示

    Node_exporter+Prometheus+Grafana 快速实现Linux系统性能数据提取.存储和可视化展示 1. 前言 2. Node_exporter 2.1 安装 node_expor ...

  2. linux大数据命令操作

    一:基本命令 1.显示当前的目录 2.长格式显示目录自身的信息 3.创建文件 4.创建目录 创建多层目录,使用-p. 5.删除目录或者文件 -f:不提示,强制删除 -i:删除前,提示 -r:删除目录以 ...

  3. EXCEL表格-“魔法操作”之智能填充(数据提取)

    ❤关注我,不迷路❤ 点击进入EXCEL综合应用场景专栏 数据提取可以说是EXCEL中再常见不过的操作了,且数据提取的方式有很多种,只要有规则可循,使用函数一定是可以把数据分离出来的,问题在于写函数提取 ...

  4. spring可用于数据层吗_Spring XD用于数据提取

    spring可用于数据层吗 Spring XD是一个功能强大的工具,它是一组可安装的Spring Boot服务,可以独立运行,在YARN或EC2之上运行. Spring XD还包括一个管理UI网站和一 ...

  5. Spring XD用于数据提取

    Spring XD是一个功能强大的工具,它是一组可安装的Spring Boot服务,可以独立运行,在YARN或EC2之上运行. Spring XD还包括一个管理UI网站和一个用于作业和流管理的命令行工 ...

  6. python网络爬虫系列(六)——数据提取 lxml模块

    一.数据提取-lxml模块 知识点 了解 lxml模块和xpath语法的关系 了解 lxml模块的使用场景 了解 lxml模块的安装 了解 谷歌浏览器xpath helper插件的安装和使用 掌握 x ...

  7. 当你学会这项python数据提取神器时,请做好升职准备!

    Jsonpath 详解 一.什么是 jsonpath ● JsonPath 是一种信息抽取类库,是从 JSON 文档中抽取指定信息的工具,提供多种语言实现版本,包括:JavaScript.Python ...

  8. Linux基础加实际操作演示

    Linux 一.操作系统简介 计算机是一台机器,它按照用户的要求接收信息.存储数据.处理数据,然后再将处理结果输出(文字.图片.音频.视频等).计算机由硬件和软件组成. 操作系统(Operating ...

  9. linux下c语言调用mysql,Linux下C语言操作MYSQL总结

    Linux下C语言操作MYSQL总结 发布时间:2006-12-17 00:40:00来源:红联作者:anciens 下文的用到的数据库表: 数据库中存在表table, 有name(varchar类型 ...

最新文章

  1. 怎样让你的安全预算更具战略性?
  2. jQuery复选框选中状态更改事件
  3. 2017-2021年中国大数据产业预测分析及全球市场规模预测
  4. 【Linux】18_日志管理rsyslog系统日志管理
  5. Hough直线检测的理解
  6. 一分钟学会使用RichEdit控件
  7. 【转】C#运算符重载**
  8. Ant部署测试出错(关键字:Ant NoClassDefFoundError xml-apis/jar)
  9. 东北到底有没有互联网?!
  10. Bashtop – Linux的资源监视工具(亲测)
  11. android drawable-hdpi 分辨率,android – 设置可用于不同分辨率的drawable文件夹
  12. 浅谈如何删除JSP编译后的空行
  13. Java学习笔记(二)注解、反射和class对象
  14. 关于磁力计和加速度计的融合以及坐标系的对准
  15. 显示器接口_显示器接口 - CNZHIQIANG
  16. 链表---合并两个有序链表
  17. 计算机各种办公软件都很卡,电脑中打开office2016办公软件很卡的解决方法
  18. 运营周期爆发期是什么?
  19. 作为使用者对qq拼音输入法和搜狗输入法的评价
  20. Docker创建容器后无法update更新以及Job for docker.service failed because the control……错误

热门文章

  1. 阿里云短信服务API怎么调用
  2. input 输入框限制只能输入两位有效小数
  3. NAT网络地址转换协议
  4. Linux删除swapfile
  5. 文件上传Getshell复习~
  6. sql语句如何去除重复的数据
  7. 一文掌握使用Python的IP处理模块IPy
  8. 人员离岗自动识别算法
  9. Java 中(hash 0x7FFFFFFF)问题 哈希表中数组下标的计算
  10. 高通平台 设置LDO电源域