php如何对几G的文本数据去重,Linux下导出数据库文件进行统计+去重
本文主要讲述了如何在Linux中实现数据库文件统计以及去重,感兴趣的朋友可以来学习一下!
1. 把数据库表导出到文本文件中
mysql -h主机 -P端口 -u用户 -p密码 -A 数据库 -e "select email,domain,time from ent_login_01_000" > ent_login_01_000.txt
总共要统计最近3个月的登陆用户 , 按月份分表,并且每月有128张表 , 全部导出到文件中 , 总共有80G
2. grep 查出所有的2018-12 2019-01 2019-02
find ./ -type f -name "ent_login_*" |xargs cat |grep "2018-12" > 2018-12.txt
find ./ -type f -name "ent_login_*" |xargs cat |grep "2019-01" > 2019-01.txt
find ./ -type f -name "ent_login_*" |xargs cat |grep "2019-02" > 2019-02.txt
3.使用awk sort 和 uniq 只取出前面的用户 , 并且先去一下重复行
cat 2019-02.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2019-02-awk-sort-uniq.txt
cat 2019-01.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2019-01-awk-sort-uniq.txt
cat 2018-12.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2018-12-awk-sort-uniq.txt
uniq 只去除连续的重复行 , sort可以把行排成连续的 -T是因为默认占用/tmp的临时目录 , 根目录我的不够用了,因此改一下临时目录
这几个文件占用了100多G
想学习更多关于Linux教程,请关注PHP中文网的Linux视频教程!
php如何对几G的文本数据去重,Linux下导出数据库文件进行统计+去重相关推荐
- linux exp 导出数据库命令,linux exp 导出数据库
解决Linux系统下exp导入EXP-00028异常 问题描述: 在Linux系统中,对某个数据库用户进行exp导出备份时,出现下述异常: Oracle Database 11g Enterprise ...
- linux中mysql导入数据库命令_linux下mysql数据库导入导出命令
首先linux 下查看mysql相关目录 root@ubuntu14:~# whereis mysql mysql: /usr/bin/mysql-- mysql的运行路径 /etc/mysql ...
- MySQL 技术篇- linux下mysql数据库利用binlog文件进行数据回滚实例演示,binlog恢复数据库的两种方式
MySQL 数据库数据回滚 第一章:利用 binlog 进行数据回滚 ① 查看 binlog 文件所在位置 ② 查看主数据正在存储数据的 binlog 文件名 ③ 在控制台查看 binlog 文件内容 ...
- rpm安装的mysql如何数据迁移_linux下mysql数据库的rpm安装步骤及常见问题的解决
一.准备工作 从MySQL官网上分别下载mysql服务器端和客户端包. 如: MySQL-client-5.6.14-1.rhel5.i386.rpm MySQL-server-5.6.14-1.rh ...
- Linux-非结构化数据同步-Linux下Rsync+Rsync实现非结构化增量差异数据的同步2
说明: 操作系统:CentOS 5.X 源服务器:192.168.21.129 目标服务器:192.168.21.127,192.168.21.128 目的:把源服务器上/home/www.osyun ...
- linux下备份mssql文件,linux服务器怎么定时备份mysql的sql文件数据
一.编写备份shell脚本 #!/bin/bash #保存备份个数,备份31天数据 number=31 #备份保存路径 backup_dir=/root/mysql/backups #日期 dd=`d ...
- Linux下MySQL数据库的备份与还原,mysql快速导入导出数据库实例演示,解决mysql大数据量数据库导出慢的问题
MySQL 数据库的备份与还原 第一章:数据库的导入与导出 ① 数据库的导出 ② 大数据量下 mysqldump 的导出优化 ③ 数据库的导出 第一章:数据库的导入与导出 ① 数据库的导出 需要用到 ...
- linux 监听数据包,linux下网络监听与发送数据包的方法(即libpcap、libnet两种类库的使用方法)...
linux下可以用libpcap函数库实现监听数据包,使用libnet 函数库发送数据包 安装: 在命令行下apt-get install 就可以了 libpcap的使用: /*author hjj ...
- linux读取dmp备份数据打开,Linux 中 Oracle dmp 文件导入导出(转)
远程工具连接到 Linux 进行操作,进行 Linux 上 dmp 文件的导入导出. 1.将用户 system 用户表导出到指定路径 D 盘 exp system/password@SID file= ...
最新文章
- Android4.0与2.3的差异
- java map存储对象_JAVA:查找存储在hashMap中的对象的最佳性能方法
- 测试—自定义消息处理
- cmd执行python 环境变量应该怎么写_python怎么运行py文件?.py文件cmd命令方法及环境变量配置教程...
- 乐高泰坦机器人视频解说_“安防”机器人将亮相服贸会
- CamtasiaStudio如何导出视频上传优酷实现高清
- 屏幕取色器设计思路及源码
- Hillstone 防火墙流量命令
- Python项目 huobi量化交易系统
- 如何使用串口调试助手(调试串口)
- 谷粒微博学习笔记一:Utilsconstants
- OpenMMLab全景图
- 三坐标检测之精密零件测量的恒温时间
- 初中晨读必看古诗名句
- OPENGL简介---反走样
- 超级应用 - 免费应用内测托管平台|APP应用分发平台|iOS应用分发|Android应用分发|免费应用内测托管平台 源码下载
- 将打开在扩展显示器的界面移动到主显示器中的方法
- VirtualLab Fusion:基于微软专利的蝴蝶型出瞳扩展光导
- 查询计算机系统操作工,计算机系统操作工B卷
- 渗透测试-Openssl心脏出血漏洞复现