从数据源到数据呈现说说目前的情况吧,

数据源:

1、mysql

2、日志文件

呈现:

1、csv文件导出或者发送邮件

2、提供接口数据给web呈现图标

当前涉及的一些技术点:

从日志文件读取数据主要是 shell + awk ,从 mysql 主要是 php 读取数据存储到文件,之后通过 php 或者 shell 来进行一些运算或者统计处理, 相应数据入库或者发送邮件提供给需求方。

目前项目积累了大量的脚本,和一些临时性的解决办法(零散脚本),而且随着数据的增长, mysql 这部分效率也越来越慢, 复杂的脚本已经变得越来越难维护。这些脚本有一些是需要的时候手工跑一次,还有很多是定时跑,如果继续下去已经快不可控了。

寻求一套从数据入口到数据呈现的解决方案,或者是各位有经验的同学分享分享。

日志文件存储在 hadoop 上一部分,目前没有写 mapreduce 直接去处理这部分。

->3Q

回复内容:

从数据源到数据呈现说说目前的情况吧,

数据源:

1、mysql

2、日志文件

呈现:

1、csv文件导出或者发送邮件

2、提供接口数据给web呈现图标

当前涉及的一些技术点:

从日志文件读取数据主要是 shell + awk ,从 mysql 主要是 php 读取数据存储到文件,之后通过 php 或者 shell 来进行一些运算或者统计处理, 相应数据入库或者发送邮件提供给需求方。

目前项目积累了大量的脚本,和一些临时性的解决办法(零散脚本),而且随着数据的增长, mysql 这部分效率也越来越慢, 复杂的脚本已经变得越来越难维护。这些脚本有一些是需要的时候手工跑一次,还有很多是定时跑,如果继续下去已经快不可控了。

寻求一套从数据入口到数据呈现的解决方案,或者是各位有经验的同学分享分享。

日志文件存储在 hadoop 上一部分,目前没有写 mapreduce 直接去处理这部分。

->3Q

0、方案取决于你的目标和团队实力。自建方案的复杂度和你的期望成正比,和数据量成正比。

1、你可以研究一下Splunk或者Logstash + ES + Kibana这两个方案,相信会有惊喜。

2、如果还想更深入,可以了解一下SIEM。

3、Dirty And Quick是一种选择;Flexable是另一种选择。

源数据整理好格式,定好Schema,用Hive统计,用Oozie定时跑作业,结果放在约定好的地方,用Web呈现。

基本上都是这么个套路。

只能采纳一个答案.

其实这是一个讨论性的话题,希望有更多的人参与吧。

本文原创发布php中文网,转载请注明出处,感谢您的尊重!

php 统计 系统设计,求解统计系统设计的一些技术方案和实现相关推荐

  1. 【统计学习方法】统计学习及监督学习概论

    1.1 统计学习 1.1.1统计学习的特点 数据对统计学习很重要 学习: 如果一个系统更能够通过执行某个过程改进它的性能 1.1.2 统计学习研究对象 统计学习研究对象:数据 数据的基本假设是同类数据 ...

  2. 一.统计学习(统计机器学习)

    自嗨 本人目前是一名统计学在读本科生,统计学作为当代火爆的一门专业,在生活中也发挥了很多重要的作用,目前的大数据.预测等等都需要用到统计学的知识.因此,我决定在csdn上面也更新一些关于统计学的专栏. ...

  3. 统计学习方法(一)——统计学习方法概论

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 1. 统计学习方法概论 本文是统计学习方法(李航)第一章的学习总结. 1.1 统计学习 1.统计学习的特点 统计学 ...

  4. MySQL手机统计信息_MySQL统计信息

    摘要 我们将一条查询SQL提交给MySQL之后,MySQL在进行真正的查询操作之前通常会经历两个阶段:SQL解析和查询优化.在SQL解析过程中,MySQL会将SQL解析为一个树状结构,而在查询优化阶段 ...

  5. 统计决策理论1 统计问题与统计决策

    统计决策理论1 统计问题与统计决策 Kolmogorov公理化体系 统计问题的描述 这个系列的目标是在数理统计的语境下建立统一描述统计问题的统计决策理论,第一讲阐述统计问题和统计决策的含义. Kolm ...

  6. 搞定系统设计 03:系统设计面试的答题框架

    终于要讲到答题框架了! 我们说系统设计面试题没有统一的答案,但答题过程还是有一定的规律可寻,这就是第 3 章要讲到的答题框架. 系统设计面试中,经常会被问到如何设计微信.如何设计微博.如何设计百度-- ...

  7. jieba库词频统计_如何用python对《三国演义》、《红楼梦》等名著开展词云分析及字频统计、出场统计等工作。...

    以下以<红楼梦>为例进行设计. 在制作词云图及统计之前,需要下载python的几个库,wordcloud.jieba以及imageio等,我的操作系统为Windows10,IDE环境为id ...

  8. 弱水三千 之 统计独立性、统计相关性辨析

    序 在随机信号分析中,存在这样一个概念群:不相关.正交.统计独立. 当两个随机过程保持统计独立时,它们必然不相关:但反过来则不一定成立,即不相关的两个随机过程不一定能保持统计独立,唯有高斯过程才是个例 ...

  9. Python 数据分析三剑客之 Pandas(五):统计计算与统计描述

    CSDN 课程推荐:<迈向数据科学家:带你玩转Python数据分析>,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员:已出版<跟老齐学Python ...

最新文章

  1. 竞赛专题 | 挖掘模型哪家强,自动调参 VS 祖传参数?
  2. 阿里移动|《蚂蚁金服移动端高可用技术实践》
  3. 2018python好找工作吗-2018年为什么要学习Python?Python还有前景吗?
  4. lua代码格式化工具_FFLUA——C++嵌入Luaamp;扩展Lua利器
  5. 【NLP】几个NLP实用工具:不用重新造轮子
  6. 使用python进行渗透测试_利用Python进行Web渗透测试(五):剖析HTTP请求
  7. 有赞“小程序订阅消息”功能上线 支持商家主动推送「活动通知」
  8. mysql中的页与磁盘关系_数据库和磁盘阵列的关系
  9. 雷电模拟器无法桥接网络解决办法
  10. 掌财社:央行重磅数据出炉 M2增速大降3个百分点 社融增量仅1.85万亿 释放什么信号?
  11. c++知识点汇总--数组
  12. 【Android】_干货_制作透明背景icon
  13. PageX、clientX、screenX、offsetX、layerX的区别
  14. 旅行青蛙服务器维护时间,旅行青蛙多久出门一次?青蛙旅行出门时间一览
  15. 维特WT931 姿态角度传感器(陀螺仪)使用记录
  16. 漫步者蓝牙耳机 LolliPods断连,充电异常问题解决
  17. Asp.Net Core 鉴权授权
  18. 基于Gstreamer和大疆OSDK4.0视频h264接口推流
  19. 电脑右键新建没有记事本怎么办?
  20. mysql转换戳转换成小时_MySQL时间函数 | 时间戳和日期之间得转换

热门文章

  1. 解决nginx: [emerg] bind() to [::]:80 failed (98: Address already in use)
  2. Mac OS/Linux命令查询网络端口占用情况
  3. Web Hacking 101 中文版 二十、漏洞报告
  4. linux之shell脚本管理(一)
  5. Meteor项目实战 -- Next 0.0.2
  6. 解剖SQLSERVER 第六篇 对OrcaMDF的系统测试里避免regressions(译)
  7. hibernate dialect 方言 sqlserver2000 的方言
  8. JAVA环境配制和生成jar包的方法
  9. 你真的了解 “开源” 么?请查收【保姆级】开源百科
  10. 程序员加班一般是有原因的,但是有些程序员却表示:我是自愿的!