paip.论大数据的方法,技术erlang,haddop.attilax总结.
paip.论大数据的方法,技术.attilax总结.
1. 大数据是什么.............................................................................................................. 2
2. 大数据技术综述........................................................................................................... 3
3. 大数据与普通数据应用的区别...................................................................................... 3
4. 大数据的格式种类:...................................................................................................... 3
5. 大数据处理数据时代理念的三大转变:........................................................................ 3
6. 大数据特点:................................................................................................................. 3
7. 大数据的应用:............................................................................................................. 4
7.1. 行为分析........................................................................................................... 4
8. 大数据优点................................................................................................................. 4
10. 关联技术................................................................................................................... 5
10.1. 刷票器/自动化web操作/浏览器引擎................................................................ 5
10.2. 注册机/登录器/................................................................................................ 5
10.3. 发帖机/............................................................................................................ 5
10.4. 语音识别技术.................................................................................................. 5
10.5. 手写识别技术.................................................................................................. 5
10.6. 验证码../手机验证码........................................................................................ 5
10.7. 水军好评差评.................................................................................................. 5
10.8. 云计算、移动互联网........................................................................................ 5
10.9. 物联网............................................................................................................. 5
10.10. 非结构化nosql数据库技术............................................................................. 5
10.11. 分布式文件系统............................................................................................. 6
10.12. DDBS 分布式存储数据库 ........................................................................... 6
10.13. ETL工具........................................................................................................ 6
10.14. 采集器/分布式网络爬虫................................................................................. 6
10.15. 分布式编程语言,ERLANG并行处理计算........................................................ 6
10.16. 机器智能化学习............................................................................................. 6
11. 大数据的生产/来源.................................................................................................... 6
12. 大数据处理的流程(采集>>预处理>>导入>>统计分析>>数据挖掘).............................. 7
13. 数据采集以及承载..................................................................................................... 7
14. 数据清洗、转换、集成ETL工具............................................................................... 7
15. 大数据的存储............................................................................................................ 8
16. 统计分析................................................................................................................... 8
17. 大数据的5个基础分析方法....................................................................................... 8
18. 数据挖掘................................................................................................................... 9
19. 大数据的传输............................................................................................................ 9
20. 应用领域................................................................................................................... 9
21. 数据分析师的入门进阶(20天时间)........................................................................... 10
22. Erlang分布式大并发编程语言.................................................................................. 10
22.1. 超强的并发性................................................................................................. 11
22.2. 天生的分布式................................................................................................. 11
22.3. 灵活多样的错误处理...................................................................................... 11
22.4. 代码热替换.................................................................................................... 11
22.5. ● 软实时性-................................................................................................... 12
23. NoSQL数据库......................................................................................................... 12
24. Ddms--Storm —— Twitter开发的ddms..................................................................... 12
24.1. 4.1. HBase 3.................................................................................................... 13
24.2. 4.2. Hypertable 3............................................................................................. 13
24.3. 4.3. Hadoop -----Hive 3.................................................................................... 13
24.4. 4.4. 基于MySQL的分布式数据库实践 3........................................................ 13
24.5. 4.5. 使用MySQL federated 引擎构建 MySQL 分布式数据库访问层 3............. 13
24.6. 4.6. 用Amoeba构架MySQL分布式数据库环境 4........................................... 13
24.7. 4.7. Facebook开源的Cassandra 4..................................................................... 13
24.8. 4.8. 淘宝的Amoedb 4..................................................................................... 13
25. 案例:....................................................................................................................... 13
25.1. 谷歌流感趋势"的工具.................................................................................... 13
25.2. 这个工具工作的原理...................................................................................... 14
25.3. 大数据应用案例之:医疗行业........................................................................ 14
25.4. 大数据应用案例之:能源行业........................................................................ 14
25.5. 大数据应用案例之:通信行业........................................................................ 15
25.6. 大数据应用案例之:零售业........................................................................... 15
25.7. 麻省理工学院利用手机定位数据和交通数据建立租房规划。[5] [6].............. 16
26. 参考:....................................................................................................................... 16
作者Attilax , EMAIL:1466519819@qq.com
来源:attilax的专栏
地址:http://blog.csdn.net/attilax
1. 大数据是什么
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity
"大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量
数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。
数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性
通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态…点击查看>>
2. 大数据技术综述
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术
3. 大数据与普通数据应用的区别.
"大数据"的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的"4个V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。
换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力
4. 大数据的格式种类:
除了普通的文本数据.还有图片,视频,pdf,地理位置信息LBS等等非结构化数据..
视频、图片、半结构化的,如XML文档。
5. 大数据处理数据时代理念的三大转变:
要全体不要抽样,要效率不要绝对精确,要相关不要因果。
6. 大数据特点:
价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
7. 大数据的应用:
预测,,寻人,解决欺诈侦测、客户获取与维持、网络销售、市场细分、风险分析、亲和性分析、客户满意度、破产预测和投资组合分析
7.1. 行为分析
了解行为的技术会...安全应用.
8. 大数据优点
报告强在“时效性”上,但“大数据”应用突出强调数据处理的实时性
在线个性化推荐
9.
10. 关联技术
10.1. 刷票器/自动化web操作/浏览器引擎
10.2. 注册机/登录器/
10.3. 发帖机/
10.4. 语音识别技术
10.5. 手写识别技术
10.6. 验证码../手机验证码.
10.7. 水军好评差评
10.8. 云计算、移动互联网
技术的发展,使得大量数据的生产和连通变成现实;
10.9. 物联网.
10.10. 非结构化nosql数据库技术
非结构化数据库技术的发展,使得数据收集的要求大大降低;
10.11. 分布式文件系统
10.12. DDBS 分布式存储数据库
一个分布式数据库在逻辑上是一个统一的整体,在物理上则是分别存储在不同的物理节点上。一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库。它的分布性表现在数据库中的数据不是存储在同一场地。更确切地讲,不存储在同一计算机的存储设备上。这就是与集中式数据库的区别。从用户的角度看,一个分布式数据库系统在逻辑上和集中式数据库系统一样,用户可以在任何一个场地执行全局应用。就好像那些数据是存储在同一台计算机上,有单个数据库管理系统(DBMS)管理一样,用户并没有什么感觉不一样。
10.13. ETL工具
10.14. 采集器/分布式网络爬虫
NUtch等...
10.15. 分布式编程语言,ERLANG并行处理计算
,使得数据可以得到高速处理,更快获得结果、应用;
10.16. 机器智能化学习
等等又进一步促进大数据的应用发展。所以,我们可以做到存储处理所有数据,而不是存储抽样数据,并且可以将粒度从整体面向个体。这些也带来一系列变革:
11. 大数据的生产/来源
据创造的主体由企业逐渐转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非结构..语音..
搜索引擎:跟踪搜索词得到相关数据
微博:搜索
Bbs:
微信:
社交SNS数据
电子商务交易纪录
12. 大数据处理的流程(采集>>预处理>>导入>>统计分析>>数据挖掘)
具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
13. 数据采集以及承载
物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,
14. 数据清洗、转换、集成ETL工具
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
15. 大数据的存储
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
16. 统计分析
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用
17. 大数据的5个基础分析方法
可视化分析(报表??),因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,
预测性分析能力,大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
语义引擎:
数据质量和数据管理
18. 数据挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text,Web ,图形图像,视频,音频等)
19. 大数据的传输
20. 应用领域
所有的领域
21. 数据分析师的入门进阶(20天时间)
,从理论基础、软件应用、数据挖掘到数据应用系统,18天玩转数据分析~
22. Erlang分布式大并发编程语言
Erlang是一个结构化,动态类型编程语言,内建并行计算支持。最初是由爱立信专门为通信应用设计的,比如控制交换机或者变换协议等,因此非常适合于构建分布式,实时软并行计算系统。
使用Erlang编写出的应用运行时通常由成千上万个轻量级进程组成,并通过消息传递相互通讯。进程间上下文切换对于Erlang来说仅仅只是一两个环节,比起C程序的线程切换要高效得多得多了。
使用Erlang来编写分布式应用要简单的多,因为它的分布式机制是透明的:对于程序来说并不知道自己是在分布式运行。
●并发性 - Erlang支持超大量级的并发进程,并且不需要操作系统具有并发机制..号称一台服务器百万并发..
22.1. 超强的并发性
由于采用其自身Process,而没有采用操作系统的进程和线程,我们可以创建大规模的并发处理,同时还简化了我们的编程复杂度。我们可以通过几十行代码实现一个并发的TCP服务器,这在其他语言中都想都不敢想
22.2. 天生的分布式
Erlang天生适合分布式应用开发,其很多的BIF(内建函数,相API)都具有分布式版本,我们可以通过BIF在远程机器上创建Process,可以向远程机器上的某个Process发送消息。在分布式应用的开发中,我们可以像C、C++,JAVA等语言一样,通过Socket进行通讯,也可以使用Erlang内嵌的基于Cookie的分布式架构,进行开发。当然也可以两者混合。分布式开发更加方便,快速。Erlang的Process的操作,Error的处理等都对支持分布式操作。
●健壮性 - Erlang具有多种基本的错误检测能力,它们能够用于构建容错系统。
22.3. 灵活多样的错误处理
Erlang最初为电信产品的开发,这样的目的,决定了其对错误处理的严格要求。Erlang中提供一般语言所提供的exception,catch,try…catch等语法,同时Erlang支持Link和Monitor两种机制,我们可以将Process连接起来,让他们组成一个整体,某个Process出错,或推出时,其他Process都具有得知其推出的能力。而Monitor顾名思义,可以用来监控某个Process,判断其是否退出或出错。所有的这些Erlang都提供内在支持,我们快速的开发坚固的产品,不在是奢望。
22.4. 代码热替换
你的产品想不间断的更新么?Erlang可以满足你这个需求,Erlang会在运行时自动将旧的模块进行替换。一切都静悄悄。
●热代码升级-Erlang允许程序代码在运行系统中被修改。旧代码能被逐步淘汰而后被新代码替换。在此过渡期间,新旧代码是共存的。
22.5. ● 软实时性-
Erlang支持可编程的“软”实时系统,使用了递增式垃圾收集技术。
23. NoSQL数据库
24. Ddms--Storm —— Twitter开发的ddms
Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单,因为用它处理大数据不会带来新老技术的交替。
24.1. 4.1. HBase 3
24.2. 4.2. Hypertable 3
24.3. 4.3. Hadoop -----Hive 3
24.4. 4.4. 基于MySQL的分布式数据库实践 3
24.5. 4.5. 使用MySQL federated 引擎构建 MySQL 分布式数据库访问层 3
24.6. 4.6. 用Amoeba构架MySQL分布式数据库环境 4
24.7. 4.7. Facebook开源的Cassandra 4
24.8. 4.8. 淘宝的Amoedb 4
25. 案例:
25.1. 谷歌流感趋势"的工具
25.2. 这个工具工作的原理
25.3. 大数据应用案例之:医疗行业
25.4. 大数据应用案例之:能源行业
25.5. 大数据应用案例之:通信行业
25.6. 大数据应用案例之:零售业
25.7. 麻省理工学院利用手机定位数据和交通数据建立租房规划。[5] [6]
26. 参考:
窥视互联网金融:谈谈大数据
Hadoop并非完美:8个代替 HDFS 的绝佳方案
paip.论大数据的方法,技术erlang,haddop.attilax总结.相关推荐
- 大数据开源框架技术汇总
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理.可能会有疏漏,发现再整理.参考得太多,就不一一列出来了.这只是作为一个梳理,对以后选型或者扩展的做个参考. ...
- 吴甘沙清华演讲:大数据的十个技术前沿(完结篇)
吴甘沙清华演讲:大数据的十个技术前沿(完结篇) 来源:数据派 时间:2015-01-05 17:39:06 作者:清华大数据产业联合会 吴甘沙院长从大数据技术前沿的十个问题入手,对大数据产业进行了深度 ...
- 兼顾稳定和性能,58大数据平台的技术演进与实践
http://www.infoq.com/cn/articles/58-big-data-platform-technology 主要内容分为三方面:58大数据平台目前的整体架构是怎么样的:最近一年半 ...
- 独家 | 大数据与AI技术在金融科技的应用
独家 | 大数据与AI技术在金融科技的应用 [导读]本文选自百融金服CEO张韶峰和CRO季元于2017年9月14日晚在清华大数据"技术·前沿"系列讲座--大数据与AI技术在金融科技 ...
- 稳定和性能如何兼顾?58大数据平台的技术演进与实践
作者|赵健博 编辑|尚剑 本文将为你分享58大数据平台在最近一年半内技术演进的过程,包括:58大数据平台目前的整体架构是怎么样的:最近一年半的时间内我们面临的问题.挑战以及技术演进过程:以及未来的规划 ...
- 《大数据》编辑推荐 | 基于遥感大数据的信息提取技术综述
主题词 遥感大数据:目标识别:地物分割:变化检测 遥感大数据虽然能够多粒度.多时相.多方位和多层次地反映地物信息,但其数据量与日俱增.种类日益增多,且存在大量的冗余信息,使得从遥感数据中提取有效信息具 ...
- 《大数据》专题征文:大数据可视分析技术与应用
点击上方蓝字关注我们 <大数据>专题征文:大数据可视分析技术与应用 (截稿时间:2020年12月31日) 随着信息技术的飞速发展,特别是网络的普及,人类产生的数据量呈现爆炸式增长.而可视化 ...
- 处理大数据需要哪些技术
大数据之所以能够从概念走向落地,说到底还是因为大数据处理技术的成熟,面对海量的数据,在有限的硬件条件下,以低成本满足大数据处理的各种实际需求.那么具体处理大数据需要哪些技术,今天我们来简单介绍一下大数 ...
- 大数据和云计算技术周报(第101期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spring熔断降级方 ...
- 大数据和云计算技术周报(第81期)
大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:分布式事务.缓存 .排序.druid.s ...
最新文章
- 网络推广关键词布局仍需网络推广专员时刻“运筹帷幄”
- Php数组面包屑导航,PHP 导航提示(面包屑型轨迹)
- 2013年计算机专业对口模拟试题二,计算机对口升学模拟试题全解.doc
- Fiddler抓包原理解析
- 使用eclipse开发javaweb注册功能
- 散文绘画集《心欢喜,灵快乐》研讨会在京举行
- Java GC 垃圾回收器
- FlowDocumentPageViewer
- Money----思维+模拟
- linux不识别iwconfig,CentOS中iwconfig命令not found的解决方法
- C#全局钩子参考文章
- JavaWeb登录案例带验证码(mysql+servlet+jsp+idea)
- 我的CSDN博客规划说明
- VMware-ovftool命令行部署与导出镜像
- MySQL夺命连环15问,你能坚持到第几问?
- 01组团队项目-Beta冲刺-2/5
- 使用Druid数据源配置方法
- 关于ubuntu下的c++编译
- 在32位、64位操作系统下各数据类型所占的字节数
- 【干货】中继链路trunk+实验