为什么要用hadoop

以前公司的数据日志是每天从生产数据库导出到数据服务器，再通过一个python脚本分析这些日志并存入mysql当中，这种方式在数据量小的情况下还没什么事，数据量一大，所需时间是几何增长。有段时间每天光apache log解压之后就有几十个G，虽然通过很多手段比如减少查询，减少单条数据插入，使用LOAD将数据导入数据库，但所需时间还是要很久。为了减少每天log分析的时间以及数据的稳定性，决定搭建一个hadoop系统，使用hadoop map/reduce来并行的处理log。

具我分析，目前数据分析系统的主要瓶颈在于数据文件分析，数据的提取以及数据库的查询操作，而不在于数据的插入操作，我们知道mysql load100万条数据也就只要几十秒种，如果能使用多台机器并行的数据分析，提取操作，势必能减少总时间。但需要注意的是，数据的查询和少量的更新仍需要想办法减少或去除，在并行的处理过程中，这些操作不仅会导致程序执行变慢还会产生数据一致性问题。

为保证程序执行过程中一些全局变量的一致，考虑用membase存放这些变量，为了方便调试和保留生产环境中产生的log，考虑用logy或redis来收集log，具体哪个还没想好，logy与python logging结合的很好，代码简单，比较好查看，但调试时比较不容易使用，因为需要用到浏览器， redis很稳定，消息不容易丢失（毕竟写的人牛啊），但不太好查看，python redis client也没研究过，不知道好不好用，但用redis调试起来应该会比较方便，写个shell脚本就可以了。

目前想法是每个hadoop task处理一个用户或一个ip的数据，但每个task要不要去连mysql还没考虑好，毕竟每个task都连mysql的话load操作就变成了insert操作，如果不连，就只能通过hive最后一起导入mysql，又增加了系统的复杂度。

还有一个现在没考虑好的问题是hadoop key value的取值问题，感觉这个跟数据分析部门的工作相关性非常大，如果作的好，兄弟部门的人就直接可以使用hive来作数据分析了，mysql只用来为报表系统提供数据就可以了。

转载于:https://www.cnblogs.com/largetalk/archive/2011/04/10/2229052.html

为什么要用hadoop相关推荐

hadoop 添加删除机器以及设置免密登录
添加hadoop机器先在slaves中添加机器然后启动datanode $: ./usr/hadoop-0.20.2-cdh3u4/bin/hadoop-daemon.sh start datan ...
linux环境下快速配置hadoop集群免密登录
背景在hadoop的日常使用过程中经常需要登录某些机器,如何更好的免密登录呢?这将为我们节省大量的时间操作假设你需要在A机器上免密登录B机器,那么你首先要确定B机器下是有秘钥文件的.如何确定是否 ...
hadoop问题小结
20220322 https://blog.csdn.net/lt5227/article/details/119459827 hadoop控制台设置密码访问验证 20220314 进入hive 高 ...
hadoop,spark,scala,flink 大数据分布式系统汇总
20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...
spark,hadoop区别
https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...
2021年大数据Hadoop（三十）：Hadoop3.x的介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录本系列历史文章前言 Hadoop3.x的介绍介绍 Hadoop 3.0新特性 ...
2021年大数据Hadoop（二十九）：关于YARN常用参数设置
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录本系列历史文章前言关于yarn常用参数设置设置container分配最小内 ...
2021年大数据Hadoop（二十七）：YARN运行流程
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录本系列历史文章前言 Yarn运行流程本系列历史文章 2021年大数据Hado ...
2021年大数据Hadoop（二十六）：YARN三大组件介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录本系列历史文章前言 Yarn三大组件介绍 ResourceManager No ...
2021年大数据Hadoop（二十五）：YARN通俗介绍和基本架构
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录本系列历史文章前言 YARN通俗介绍和基本架构 Yarn通俗介绍 Yarn基本 ...

为什么要用hadoop

为什么要用hadoop相关推荐

最新文章

热门文章