ArchSummit讲师专访:EMC研究院资深研究员陶隽谈实时数据分析
编者按:由InfoQ主办的全球架构师峰会将于2012年8月10日-12日在深圳举行,为了更好地诠释架构的意义、方法和实践,InfoQ中文站近期会集中发布一批与架构相关的文章,本篇即为其中之一。InfoQ也欢迎读者亲身参与到本次全球架构师峰会中,与来自国内外的顶尖架构师进行面对面的交流。报名参会请点击这里。
\
陶隽,EMC中国研究院资深研究员。2008年加入EMC, 曾参与多个存储管理系统的构架参考实现。现为EMC 中国研究院大数据实验室资深研究员,负责MapReduce相关的研究和开发工作。2002年复旦大学计算机系硕士毕业,加入EMC之前,就职于Intel,先后参与BIOS网络协议栈,Java虚拟机及Web Services管理协议方向的项目研发。
\
InfoQ:您能介绍一下这次演讲的内容和背景吗?
\
陶隽:演讲分别介绍了学术领域和工业界在大数据处理方面针对优化系统性能,降低系统延迟的研究和实践。内容包括了基于Batch模式的和基于流式处理的多个系统, 此外还结合Bolt MR项目,介绍了EMC中国研究院大数据实验室在MapReduce数据处理的性能及可用性提升方面的研究工作。
\
InfoQ: 现在业界对于实时数据分析的越来越重视,各个厂商也都推出了自己的实时数据分析解决方案,您认为这背后的原因是什么呢?
\
陶隽:需求是对技术的强大驱动,越来越多的在线应用对系统交互性,计算的时效性方面提出了更高的要求。比如交互式数据查询,集群实时监控,搜索业务中的个性化广告推广等等都是其中典型的用例。
\
InfoQ:您能向InfoQ中文站的读者简单介绍一下实时数据分析当前的发展状况吗?
\
陶隽:大型实时数据分析要求系统具备高并发,可扩展,高性能等特点之外,对系统处理的延迟也提出了更高的要求。不同的数据分析系统,为了获得各自面对的应用领域所需要的低延迟,会采取不同的技术方式:比如基于MapReduce Batch模式的系统,典型的有来自于Berkeley的Hadoop Online Prototype(HOP)原型系统,HOP通过pipeline的方式增加数据处理的并行度,提高资源利用率并减少响应时间。而来自于Google的基于MapReduce的查询引擎Tenzing通过在Worker Pool, 数据传输和查询优化等方面的工作大大降低了系统延迟。对应于Batch模式,来自 Yahoo!的S4和Twitter的Storm属于流式计算模式的系统,流式系统的特点是输入数据并不是存贮在可随机访问的存储中,而以数据流的形式以不确定的速率到达,对系统的负载,容错等方面提出了不同的设计需求。
\
InfoQ:您这次的演讲属于本次大会的“海量数据之快准狠”,面对海量数据量,您认为实现又快又准的诀窍是什么呢?
\
陶隽:个人的理解是一方面从系统设计的各个方面,包括资源调度、资源利用、数据传输等优化来提高系统伸缩性,降低系统延迟,另一方面又要处理好系统的容错性。
\
InfoQ:最后,相对于一般的数据分析而言,实时数据分析对于开发者的观念和思路上是否要求作出改变?如果有,会有哪些转变呢?
\
陶隽:比如说数据分析中由于采用的pipeline或者流式计算模型,导致编程模型上的变化,引入了计算状态,增量式计算的需求,另外,应用的实施也会基于新的伸缩性和容错性方式。
\
相关信息
\
- \
ArchSummit架构师峰会
\ \
- \
ArchSummit讲师专访:洪涛——难以预测的日均1亿PV
\ \
- \
ArchSummit讲师专访:诺基亚西门子移动通信平台李程远–移动通信平台要求高实时性
\ \
- \
ArchSummit讲师专访:乌云安全平台创始人方小顿谈架构师和互联网安全
\ \
- \
ArchSummit讲师专访:花瓣网周兆兆
\ \
- \
ArchSummit讲师专访:微酷首席架构师赵志猛
\ \
ArchSummit讲师专访:EMC研究院资深研究员陶隽谈实时数据分析相关推荐
- ArchSummit讲师专访:腾讯微博张松国谈腾讯微博的架构成长过程
编者按:由InfoQ主办的全球架构师峰会将于2012年8月10日-12日在深圳举行,为了更好地诠释架构的意义.方法和实践,InfoQ中文站近期会集中发布一批与架构相关的文章,本篇即为其中之一.Info ...
- ArchSummit讲师专访:百度主任架构师廖若雪谈搜索新时代
编者按:由InfoQ中文站主办的首届International ArchSummit架构师峰会即将召开.我们也对一些专题的讲师进行了采访,谈谈他们要讲的议题. \ 廖若雪,百度主任架构师,现在主要负责 ...
- 微软亚洲研究院资深研究员梅涛:原来视频可以这么玩了! | CCF-GAIR 2017
7月9日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的CCF-GAIR 2017全球人工智能与机器人峰会进入了第三天.在CV+专场首场,微软亚洲研究院资深研究员梅涛博士为大会带来 ...
- ArchSummit讲师专访:腾讯张凯谈手机浏览器架构
编者按:由InfoQ中文站主办的首届International ArchSummit架构师峰会即将召开.我们也对一些专题的讲师进行了采访,谈谈他们要讲的议题. \ 张凯,华中科技大学硕士 2004年毕 ...
- 京东争抢AI人才,前微软亚洲研究院资深研究员梅涛博士加盟
计算机视觉和多媒体领域的杰出科学家梅涛博士日前正式加入京东,出任京东集团AI平台与研究部AI研究院副院长,并担任计算机视觉与多媒体实验室主任.他将负责创建计算机视觉与多媒体实验室,以及京东AI平台与研 ...
- ArchSummit讲师专访:微酷首席架构师赵志猛
编者按:由InfoQ中文站主办的首届International ArchSummit架构师峰会即将召开.我们也对一些专题的讲师进行了采访,谈谈他们要讲的议题. \ 本次采访的是微酷首席架构师赵志猛,在 ...
- 如何将推荐系统与异构数据巧妙结合——专访微软资深研究员谢幸博士
科技高速发展的社会,人与人之间的交流越来越密切,随之带来了庞大的数据量,然而对于多维度用户而言,在训练个性化模型的过程中,数据依然很少,那么,如何解决数据稀疏问题,挖掘出更多可用数据?如何将数据高效运 ...
- Gopher China 2019 讲师专访-Grab/地图团队资深架构师胡泊
第五届 Gopher China 大会将于2019年4月26日-4月28日在北京市海淀区朗丽兹西山花园酒店举办,Gopher China 大会目前是国内最大规模,最专业的 Go 语言线下技术交流大会. ...
- Gopher China 2019 讲师专访-滴滴出行/R lab 高级专家工程师杜欢
第五届 Gopher China 大会将于2019年4月26日-4月28日在北京市海淀区朗丽兹西山花园酒店举办,Gopher China 大会目前是国内最大规模,最专业的 Go 语言线下技术交流大会. ...
最新文章
- Windows上传代码到github操作指导
- [物理学与PDEs]第4章习题3 一维理想反应流体力学方程组的数学结构
- 算法--生成m个指定范围的不重复随机数的三种方法分析(Java实现)
- 开源|如何开发一个高性能的redis cluster proxy?
- mysql数据库备份工具expdb,使用expdp完成自动备份数据库案例以及遇到的问题
- 华为堡垒机_运维堡垒机----Gateone
- django ModuleNotFoundError: No module named 'tinymce***'
- Bootstrap 按钮上拉菜单
- 嵌入式电路设计(stm32电路设计)
- 深圳三防手持终端供应商×××
- 向程序发送命令失败_Word提示:“向程序发送命令时出现问题”重装软件也没用?...
- 方舟生存进化服务器Linux,方舟生存进化官方服务器与私人服务器有什么区别
- 拓端tecdat|R语言确定聚类的最佳簇数:3种聚类优化方法
- google“退出”中国?
- 谷歌大牛 Jeff Dean 是如何成为互联网战神的
- alc236黑苹果驱动_黑苹果亮度调节及调节快捷键驱动
- 计算机毕业设计-springboot企业考勤管理系统(前后端分离)员工考勤管理系统-公司日常管理系统java代码
- jos lab 2-3函数说明
- 缓存、缓存算法和缓存框架简介
- 阿拉伯世界的历史现状与前景2019尔雅满分答案