大数据工具和数据库区别和关联
当今时代工作任务种类繁多和任务处理机制逐渐多样化,对此您有什么看法?
John Myers:我们真正看到的是混合数据生态系统的出现。我们并不指望单个数据管理平台就能满足所有数据处理和管理需求。人们在考虑Hadoop和NoSQL技术,例如考虑Mongo和Cassandra。
也可能利用如Apache Spark或者其它不同类似的数据库,对吗?
Myers:是的,我认为Spark更是一个处理引擎,而不是数据管理平台。
一般来说,我们考虑数据管理系统的时候,会考虑满足ACID标准,还有就是要关注其持久性。Spark是很好的处理引擎。但是,它仍然需要其它持久化组件的配合。Spark必须依托于其它产品一起应用,要处理的数据需要留存和在某个地方管理。Spark正在变得越来越好,我不知道是否你曾经考虑把Map Reduce和Yarn与Spark融合考虑。这是启动转向非常好的平台,虽然它只发展了两三年。从这个角度讲,它还有很多工作要做,还要学习其它引擎的很多东西,这还需要一段时间。
对于某些使用案例,Spark的运行效果非常好。但是有些案例中,如果持续运行,Spark会比其它处理引擎运行的慢,这对任何平台都是一样的,完全取决于你希望解决什么问题。
回到关系数据库的本质,如果你想让关系数据库系统来实现加减乘除是很容易的,它一天到晚都在做这种任务。40年来大家一直在这么用它。
另一方面,如果你让关系数据库像Neo4j或者Objectivity(InfiniteGraph)这种图形数据库做图分析,这就非常困难了。你必须让关系数据库做非常复杂的递归关联,这都不是关系数据库擅长的事情,它本来设计定位就不是用来干这个的。
然而,如果你使用图数据库做图分析,你可以查询“朋友的朋友的朋友是谁?”图数据库会给你返回结果清单。但是如果你让图数据库计算加减乘除,它处理效果可能不尽如人意。
你会发现人们想知道应该选择哪个平台。但是,我想强调的是,要为使用多个平台协作解决问题留足空间。
您如何看待业务方面对大数据分析新状态的反应呢?
Myers:业务涉众对大数据分析会发生什么感到好奇。我们过去五年来针对这个主题的研究发现,大数据项目的实施几乎总是能带来收入增加,会降低成本和提高利润率。
我们发现很多项目都可以帮助增加销售机会。另一个问题是风险转移,包括风险缝隙的形式和欺诈检测管理。推动这些项目会给业务涉众带来价值。
事实上,IT人员可以给Hadoop中加载数据,但是他们不知道下一步该干什么。同时,业务人员不一定会说:“把Hadoop中的客户数据和企业数据仓库中的客户数据对比一下,然后给我”。相反,他们只会说“给我客户数据。”
由此可见,获取事件级别或者行为数据是IT团队的任务,例如从在线应用或者移动应用获取点击流数据,这些数据可能存储在Hadoop平台;然后把这些数据与数据仓库中的数据做关联,以便带来真正的价值。
大数据和这些不同的数据库类型正在帮我们把点击流数据和策划数据整合到一起,这样我们可以获得更好的利润、交叉销售和更好的风险控制等等,可以这样说吗?
Myers:是的,正是如此。但是业务人员不会说“来,我们做大数据分析吧。”他们会说“我们要扩展信息领域,了解客户的更多信息。”
在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取
大数据工具和数据库区别和关联相关推荐
- 大数据和云计算的区别和关联
关于大数据和云计算的关系人们通常会有误解.而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理. 虽然上面的一句话解释不是非常的贴切,但是可以帮助 ...
- 大数据工具之Trino
大数据工具之Trino 简介 不少人没有听说过Trino,但绝大多数人都听说过Presto,一个基于JVM的MPP计算引擎,Presto是一个高性能的.分布式的大数据SQL查询引擎. 诞生于Faceb ...
- 大数据工具千千万,到底谁才是最强王者?
外面有成千上万的大数据工具.它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力.虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易. 哪一种工具适合你的技能组合?哪一种工 ...
- 大数据与海量数据的区别
如果仅仅是海量的结构性数据,那么解决的办法就比较的单一,用户通过购买更多的存储设备,提高存储设备的效率等解决此类问题.然而,当人们发现数据库中的数据可以分为三种类型:结构性数据.非结构性数据以及半结构 ...
- 大数据工具之Superset
大数据工具之Superset 概述 Apache Superset是一个开源的.现代的.轻量级BI分析工具,能够对接多种数据源.拥有丰富的图标展示形式.支持自定义仪表盘,且拥有友好的用户界面,十分易用 ...
- 科普丨数据中心、云计算、大数据之间有什么区别和联系?
不少人把数据中心.云计算数据中心.大数据搞混淆,觉得这三者是一样的产品,其实有显著地区别,数据中心机房是一整套复杂的设施,如今,云计算即将成为信息社会的公共资源,而数据中心则是支撑云计算服务的基础设施 ...
- 分享Hadoop处理大数据工具及优势
现如今,随着云计算技术.物联网技术的兴起,企业需要应对的数据规模越来越大.数据格式越来越复杂.数据收集速度越来越快,也使得它和传统意义的业务数据相比,有了明显的特点.比如ApacheHadoop已成为 ...
- 大数据(1)---全球100款大数据工具汇总(前50款)
全球100款大数据工具汇总(前50款) 大数据 01 Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract.传输Transform.载入Load)开 ...
- Bossie Awards 开源大数据工具最佳列表
在最佳开源大数据工具奖中,Google的TensorFlow和Beam无可置疑的入选,同时也有Spark,Elasticsearch,Impala,Kylin,Kafka,Zeppelin等市场热点, ...
最新文章
- Linked list(单链表)
- Python 技术篇 - 使用unicode_escape对js的escape()方法编码后的字符串进行解码实例演示
- nodejs 面向对象 私有变量_Java准备校招之面向对象总结
- session过期跳转登录页面
- __stdcall c++ 默认_JMeter必知必会系列(6) JMeter参数化之__CSVRead()
- python sql注入漏洞 ctf_CTF-WEB 一个登录框SQL盲注
- vscode插件开发实践与demo源码
- 力扣226-翻转二叉树(C++,附思路)
- 协程是什么?怎么来的?它有什么作用?
- TCP/IP(五)传输层之细说TCP的三次握手和四次挥手
- 顺序查找、折半查找、索引查找
- m3u8在线播放接口附成品
- vue高德多条路线规划+带途径节点多组多个maker text标签创建+各路线颜色区别
- pdf转换成jpg转换器的使用方法
- 激光雷达:点云语义分割算法
- 电容ESR表(一) 电容ESR表的特点、测量原理、电路分析
- 抠脚大叔如何改变性别,Python实现变声器功能
- Linux 权限相关指令
- GhostXP SP3 统一会员纯净版 V2.1
- #10038.A Horrible Poem
热门文章
- Program received signal SIGFPE,Arithmetic exception.
- 概念:蓝筹主板创业板新三板科创板
- valid/ready握手协议之ready打拍
- 树莓派4+普通机械硬盘+Netatalk搭建家用Nas+苹果TimeMachine
- Hibernate缓存集成IMDG
- 使用canvas画二维码
- HTTP 错误 404.3 – Not Found 由于扩展配置问题而无法提供您请求的页面。如果该页面是脚本,请添加处理程序。如果应下载文件,请添加 MIME 映射。
- 猜数字游戏 由计算机,猜数字游戏玩法
- 【密码学】Java课设-文件加密系统(适用于任何文件)
- 网路学员面试常见问题: