好长时间没有写东西了,前几天去面试别人总是问我有没有处理过大数据的经验,说实话工作这3年来还真没有处理过太大的数据,呵呵。

不过个人对企业级应用中数据库的处理大致是如下思考的(只是自己的遇见,欢迎高手拍砖)。

(1)项目初期分析数据可能存储量,对可能存储大数据的数据进行垂直分表(把一个很多字段的表才分为多个小表,一定程度上遵循范式原则)。

(2)对于冷数据(不经常改变的数据,但查询观看)可以考虑使用缓存技术。

(3)对于日益增长的数据访问,可以使用数据库集群,双击热备。

优点:方便,风险低,基本上不需要改变原有程序代码。

缺点:数据库集群只是把读写分离了,但是数据表的数据还是会日益增长。

(4)水平分表,比方说淘宝双十一这天可能一天就会产生几千万或者上亿的数据集,那么我们这里只考虑订单这个数据集,我们可以按照时间(小时为单位)按照一定算法(hash也好,还是自己杜撰的也罢)把一张大的订单表按照相同结构不同表名称(小时为单位弄出来一定规律的表名称)来分辨存储这莫多订单数据,比方这里弄了24张表。

优点:可以解决大数据问题。

缺点:对以前的项目数据访问层要做修改(表名称变了),而且对于查询统计整个订单时候会有一定难度,如果不是24个表而是240个表,那我们要把这240个表全部查询一遍然后合并,可想而知噩梦啊。(这里还没有找到好的方法,请高手指点)

还有一点需要说明的是对Mysql引擎里面的MYISAM和INNODB。MYISAM在对表读写操作的时候会对表锁定,而INNODB只会对行锁定。所以这里我建议经常读取的表就用MYISAM,经常更新的表就用INNODB。还有一点就是INNODB支持对事物的处理。

下面是引用网上大神的一句话:

一般来说,MyISAM适合:(1)做很多count 的计算;(2)插入不频繁,查询非常频繁;(3)没有事务。InnoDB适合:(1)可靠性要求比较高,或者要求事务;(2)表更新和查询都相当的频繁,并且表锁定的机会比较大的情况。

转载于:https://blog.51cto.com/3131854/1322693

我对企业级大数据的小小个人分析相关推荐

  1. 【大数据】企业级大数据技术体系概述

    目录 产生背景 常见应用场景 企业级大数据技术框架 数据收集层 数据存储层 资源管理与服务协调层 计算引擎层 数据分析层 数据可视层 企业级大数据技术实现方案 Google 大数据技术栈 Hadoop ...

  2. 阿里专家分享:企业级大数据轻量云实践

    本文根据井诚老师于第九届中国数据库技术大会(DTCC 2018)的现场演讲<把大象装进冰箱 企业级大数据轻量云的实践>内容整理而成. 讲师介绍: 井诚,阿里巴巴技术专家,2004年毕业于哈 ...

  3. 新一代企业级大数据应用方案

    摘要:本文的整理自2017云栖大会-成都峰会上阿里云资深专家张辉的分享讲义,讲义主要由大数据时代大数据方案的三个思考引出大数据时代企业数据应用架构:由数据模型层到计算模型层到接口层.随后介绍了OLT- ...

  4. 企业级大数据平台应用场景介绍

    从业务的角度看,企业级大数据平台功能可细分为查询检索.数据挖掘.统计分析.深度分析,其中深度分析分为机器学习和神经网络. 从技术的角度看,企业级大数据平台功能细分为Batch.SQL.流式处理.mac ...

  5. 易观CTO郭炜:如何构建企业级大数据Ad-hoc查询引擎

    凭借多年大数据平台建设经验,易观 CTO郭炜为大家分享了易观在大数据实时查询引擎建设过程所获经验与挑战,以及大数据人员如何快速建立自己的大数据查询引擎套件,让自己的数据人员不再是"表哥表妹& ...

  6. 浅谈大数据如何管理与分析

    构建面向海量信息的大数据管理平台,其本质上是要实现一套可软件定义的数据中心来通过对下层的基础架构进行有效的管理(存储.网络.计算以及相关资源的调度.分配.虚拟化.容器化等)以满足上层的业务与应用需求, ...

  7. 大数据之电商分析系统(一)

    大数据之电商分析系统(一) 一:项目介绍 ​ 本项目来源于企业级电商网站的大数据统计分析平台, 该平台以 Spark 框架为核心, 对电商网站的日志进行离线和实时分析.该大数据分析平台对电商网站的各种 ...

  8. 启明星辰阐释基于大数据的异常行为分析

    2015年中国电机工程学会年会于11月17日至20日在武汉召开.本次年会的主题为"能源革命与电力发展".会议期间,中国电机工程学会还安排了3场技术论坛和4场专题研讨会,包括在11月 ...

  9. Druid:一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统...

    转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...

最新文章

  1. 没有云平台,又不会代码?MicrobiomeAnalyst:一款综合的可视化微生物组学数据分析网页工具
  2. linux中的五大查找命令---whereis,find,locate,which,type
  3. 《Adobe Illustrator大师班:经典作品与完美技巧赏析》—Svetlana Makarova
  4. parseInt和valueOf
  5. 使用devops的团队_DevOps团队的3种指标仪表板
  6. wpf,后台触发按钮点击以及拖动
  7. 待支付取件费用是什么意思_SEDEX验厂是什么意思,sedex验厂审核费用是多少?...
  8. c/c++教程 - 2.4.1 类和对象,封装,class和struct的区别,成员属性设为私有,类拆分成.h.c文件编写方法
  9. 使用arttemplate js模板引擎,直接用模板渲染,减少字符串拼接。
  10. 边界安全 - CDN/DMZ/网络协议
  11. 02Windows日志分析
  12. 数学模型之最小二乘法
  13. 史上最强窃密软件来袭,手机或成泄密工具
  14. JVM-内存区域与OOM
  15. 打开 mhtml 文件 显示不全_解决 Nginx autoindex 显示文件名不全的问题
  16. JavaSE学习笔记
  17. 关于PolarCode方案被5G标准采纳这件事
  18. 7.23翻倍奖励——滴滴快车单(成交率≥60%,≥5指派单)
  19. 浙江大学计算机陈曦博士,浙江大学控制科学与工程学院博士生导师简介:陈曦...
  20. java 字符串驻留_【Java中的字符串驻留】

热门文章

  1. 自研框架(Webx)整合Zuul网关工作总结
  2. 在Linux基于Keepalived搭建LVS实现高可用负载均衡
  3. 秋毫ERP论坛成为国家信息产业部和微软官方推荐的Dynamics论坛
  4. 编写高质量代码:改善Java程序的151个建议 (第1章 Java开发中通用的方法和准则)
  5. 计算机office PowerPoint ⑥
  6. golang泛型:generics
  7. 知多一点二进制中的负数
  8. Makefile文件详解一(怎么在Windows下使用Makefile文件)
  9. pyinstall报错和,打包大小过大解决方案链接
  10. UE5学习笔记01(基础操作一)