以前公司的数据日志是每天从生产数据库导出到数据服务器,再通过一个python脚本分析这些日志并存入mysql当中,这种方式在数据量小的情况下还没什么事,数据量一大,所需时间是几何增长。有段时间每天光apache log解压之后就有几十个G,虽然通过很多手段比如减少查询,减少单条数据插入,使用LOAD将数据导入数据库,但所需时间还是要很久。为了减少每天log分析的时间以及数据的稳定性,决定搭建一个hadoop系统,使用hadoop map/reduce来并行的处理log。

具我分析,目前数据分析系统的主要瓶颈在于数据文件分析,数据的提取以及数据库的查询操作,而不在于数据的插入操作,我们知道mysql load100万条数据也就只要几十秒种,如果能使用多台机器并行的数据分析,提取操作,势必能减少总时间。但需要注意的是,数据的查询和少量的更新仍需要想办法减少或去除,在并行的处理过程中,这些操作不仅会导致程序执行变慢还会产生数据一致性问题。

为保证程序执行过程中一些全局变量的一致,考虑用membase存放这些变量,为了方便调试和保留生产环境中产生的log,考虑用logy或redis来收集log,具体哪个还没想好,logy与python logging结合的很好,代码简单,比较好查看,但调试时比较不容易使用,因为需要用到浏览器, redis很稳定,消息不容易丢失(毕竟写的人牛啊),但不太好查看,python redis client也没研究过,不知道好不好用,但用redis调试起来应该会比较方便,写个shell脚本就可以了。

目前想法是每个hadoop task处理一个用户或一个ip的数据,但每个task要不要去连mysql还没考虑好,毕竟每个task都连mysql的话load操作就变成了insert操作,如果不连,就只能通过hive最后一起导入mysql,又增加了系统的复杂度。

还有一个现在没考虑好的问题是hadoop key value的取值问题,感觉这个跟数据分析部门的工作相关性非常大,如果作的好,兄弟部门的人就直接可以使用hive来作数据分析了,mysql只用来为报表系统提供数据就可以了。

转载于:https://www.cnblogs.com/largetalk/archive/2011/04/10/2229052.html

为什么要用hadoop相关推荐

  1. hadoop 添加删除机器以及设置免密登录

    添加hadoop机器 先在slaves中添加机器 然后启动datanode $: ./usr/hadoop-0.20.2-cdh3u4/bin/hadoop-daemon.sh start datan ...

  2. linux环境下快速配置hadoop集群免密登录

    背景 在hadoop的日常使用过程中经常需要登录某些机器,如何更好的免密登录呢?这将为我们节省大量的时间 操作 假设你需要在A机器上免密登录B机器,那么你首先要确定B机器下是有秘钥文件的.如何确定是否 ...

  3. hadoop问题小结

    20220322 https://blog.csdn.net/lt5227/article/details/119459827 hadoop控制台设置密码 访问验证 20220314 进入hive 高 ...

  4. hadoop,spark,scala,flink 大数据分布式系统汇总

    20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...

  5. spark,hadoop区别

    https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...

  6. 2021年大数据Hadoop(三十):Hadoop3.x的介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop3.x的介绍 介绍 Hadoop 3.0新特性 ...

  7. 2021年大数据Hadoop(二十九):​​​​​​​关于YARN常用参数设置

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...

  8. 2021年大数据Hadoop(二十七):YARN运行流程

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn运行流程 本系列历史文章 2021年大数据Hado ...

  9. 2021年大数据Hadoop(二十六):YARN三大组件介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn三大组件介绍 ResourceManager No ...

  10. 2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 YARN通俗介绍和基本架构 Yarn通俗介绍 Yarn基本 ...

最新文章

  1. OSError: [WinError 126] 找不到指定的模块/Could not find 'cudart64_90.dll'.
  2. go防止多次递交表单
  3. python 测试用例中设置执行时间_Python基于unittest实现测试用例执行
  4. 中国锂电池行业运营态势分析与投资前景研究报告2022-2028年版
  5. 中国教育电视台的iEnglish英语风采秀 为我们揭示了“双减”的本质目标
  6. 底层系统如何实现数据一致性/系统底层如何保证有序性
  7. 管理好你的愿望,人生将另一个样
  8. OpenShift 4 - 使用教程和免费试用环境
  9. 1)关于配置centos的网络问题
  10. Learn English !
  11. 3h精通OpenCV(四)-绘制形状与文本
  12. 电信行业BOSS系统
  13. html5自动显示日期脚本,HTML显示日期时间代码 - [js 特效代码]
  14. 第一次发博客想问这积分只能充钱送吗,一次就要冲100多?
  15. 在小县城做什么赚钱?来看看这十种赚钱的项目吧!
  16. 客户端设置超时,max_fails失效----问题分析
  17. 淘宝移动转型复盘:技术扮演重要角色
  18. 计算机图形学-五角星的画法
  19. c语言单片机自动浇花系统,LLAKG:Arduino 自动浇花系统(第3集:C语言程序升级与功能优化)...
  20. Uncaught ReferenceError: is not defined at HTMLAnchorElement.onclick

热门文章

  1. 【Java Web前端开发】深入浅出xml
  2. 【Network Security!】Banner信息收集
  3. python【蓝桥杯vip练习题库】ALGO-201大等于n的最小完全平方数
  4. 驱动人生(离线网卡版)_驱动人生8.0版正式发布,最新功能速看
  5. python实现简易版成绩管理系统_Python 实现简易版成绩管理系统!
  6. flutter listview 滚动到底部_Flutter常用Widget详解(三)
  7. faster rcnn第二阶段loss出现nan_利用Faster_Rcnn训练模型时出现的问题
  8. 前端性能优化-HTTP添加Expires头和Cache-Control
  9. 360导航源码php,114啦网址导航源码仿360网址导航最新版
  10. 计算机网络数据容量100M,华工网络教育计算机网络作业及答案