本报道根据LinkedIn工程经理Hien Luu在ArchSummit深圳2015的主题演讲内容整理而成。该主题演讲《大数据趋势》从三个层面分享了Hien对于大数据行业发展的观察与理解,分别是:

\\

  • 数据技术在业务需求——无论是生活还是商政方面——在近年来的巨大变化\\t
  • 现代数据技术的重要里程碑\\t
  • 数据技术以及它们在解决业务需求的时候正在面临的挑战,以及未来的一些可能出现的趋势\

嘉宾简介

\\

Hien Luu,目前在LinkedIn领导团队构建大数据应用及基础设施,负责细分与定位平台、工作流与调度系统。有20余年工作经验,Apache Pig项目贡献者。在大数据应用与基于Web的可扩展应用领域拥有丰富的设计与构建经验。在大数据、Web应用框架、云计算、RESTful Web服务和加密等领域都有很丰富的经验。作为软件工程师和技术领导交付了很多成功的软件。热爱构建可伸缩、高可用的系统。

\\

世界对数据技术的需求

\\

当前,全球每日产生的数据量大约为1.5 EB。目前全球所有的数据里,有90%都是在过去两年内生成的;而且在未来,预计每两年的数据量都会翻倍增长。

\\

1.5 EB是个什么概念?10 TB大约是国会图书馆内所有3700万藏书的信息量;1 PB是1000 TB,50 PB大约是全人类有史以来所有书写内容的信息量;1 EB是1000 PB,5 EB大约是全人类有史以来所有说过的话语的信息量。现在整个互联网的信息量大约是YB级,就是EB之上的ZB之上的一个数量级,现在像是NSA那种规模的数据中心能够容纳这个数量级的数据。

\\

这些数据都是哪儿来的?Facebook现在是300 PB的量级,Amazon大约是EB级,Google大约是10 EB级,而这些数据都是来自我们每一个人的贡献。而现在所被频繁讨论的物联网,则每一个物品都有一个独特的识别,它们将会数量庞大,以更快的速度制造更多的数据。比如,Google自动驾驶汽车不间断的从激光感应器、雷达、方位感应器等传感器收集数据并进行实时处理,每辆车收集的数据量达到每秒1GB。GE的飞机引擎,每一个引擎平均在一次飞行中就会产生1TB的数据,而一个引擎每年能消耗价值2000亿美金的燃油。而对于GE这样庞大的企业,即使是1%的燃油节省、1%的效率提升,都意味着巨大的节省。

\\

数据就是21世纪的原油,需要加工才能产生价值。我们用数据做什么?怎样带来价值?目前常见的大概有五个方向:预测,推荐,问题识别,个性化,以及参考。预测,尤其是近期预测,以Google Flu Trends为代表,结合历史数据推断近期是否会爆发流感。内容推荐,以Netflix为代表,他们当时为电影评分推荐引擎专门设置了一个奖项。问题识别,如城市堵车问题,有一家叫做Inrix的公司在37个国家提供实时交通信息。个性化,以LinkedIn的Economic Graph为代表。公共参考这一块,我很欣赏的一个非盈利组织DataKind做得很不错,他们在全球很多国家都提供数据点,涉及饥饿问题、气候问题等。另外美国政府在数据这方面也有很大投入,他们聘请了DJ Patil作为首席数据科学家,也建立了data.gov网站公布很多政务信息。

\\

现代数据技术的重要里程碑

\\

大数据时代可以说是从2003年Google两篇论文的公布开始的,一篇是Google File System,另一篇则是MapReduce。这两个方面的研究都是为了解决Google在搜索和索引当中遇到的数据问题,后来促生了2006年Hadoop的诞生。

\\

Hadoop最大的特点就是数据处理的民主化(分布决策),对于部分系统失效的情况能够较好的处理。喜欢上Hadoop的开发者们很快就在Hadoop的基础上创建了新的抽象层,如Hive和Cascading等,不过Hadoop 1.0仍然有很多局限性,最大的两个局限性就是扩展性问题和资源配置的效率问题。这两个问题到了Hadoop 2.0就好了很多。

\\

Hadoop只是一个框架,提供了数据处理能力,而用户需要的是解决方案。在用户需求的推动下,又促生了诸如Hortonworks这样的公司。

\\

2010年,AMPlab推出的Spark又带来了重大的改变。其有三个特点最令人兴奋,一是速度(内存计算),二是通用性(是一个支持各种数据类型的通用引擎),三是易用性(API容易上手且提供多个流行语言的版本)。

\\

对于Spark的性能,2014年有一次基准测试的数据,100TB的数据在23分钟内完成处理,比Hadoop要快数倍。而且在资源使用方面,更是只有Hadoop的十分之一(206 vs 2100)。

\\

将这些框架和能力做成解决方案,如何做得灵活又能够容错,就是一个系统架构的问题了。现在一个架构模式是Lambda架构,其中有三个设计原则,一个就是能够对人类的错误进行容错(因为是人总会犯错),让人类的错误不会造成数据破坏、数据丢失,第二个是数据的不变性,三是保留原始的数据,以后可以再进行其他的处理计算。

\\

Lambda架构包括三部分。数据来的时候会送到Speed Layer,下面是Batch Layer,再往下是Service Layer用于服务Batch Layer。

\\

数据技术正在面临的挑战以及未来可能的趋势

\\

一个挑战是把不同来源的数据进行更高效的整合。一个挑战是缺乏分析的技能,因为这个领域目前还缺乏人才,预计到2018年数据科学家的缺口会达到150万,但是越来越多的大学已经在提供这方面的硕士课程。另一个是数据在刚刚被制造出来的时候是更有价值的,即实时数据的价值高于历史数据,所以快速处理数据的能力也是一个挑战,不仅要快、要高效率,还要支持大规模。

\\

其他的挑战还有文化方面的,要在公司内部建立数据驱动的文化,存储、收集、分析数据的文化。

\\

还有一个趋势是数据科学即服务。其实现在已经有一些,比如Amazon Maching Learning Service,Google Prediction API等等,但能做的事情还很有限,这里的难度还是很高的。

\\

下一个大数据的创新是Prediction Phase,机器学习将无所不在。数据越来越多,机器学习的效果就越好,会逐渐的提升。

\\

【完】

\\

Looking for更多有爱的技术会议?可以看看下面这三个能量满塞的活动:

\\

  • 全球容器大会CNUTCon,由InfoQ最懂container技术的编辑Gary同学策划邀请可能是国内外在container技术的应用上最有经验的工程师们创造一次为期两天的交流机会,只需要在北京就可以跟他们近距离接触。会议时间:2015年8月28~29日。\\t
  • QCon上海2015,综合性软件技术会议中的经典,无需赘言。会议时间:2015年10月15~17日。\\t
  • ArchSummit北京2015,将在本次ArchSummit深圳站结束之后公布议程与报名信息,敬请留意!\

LinkedIn工程经理眼中的数据世界格局相关推荐

  1. Hadoop十岁!Doug Cutting成长史+他眼中大数据技术的未来

    上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上.今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝.最近CSDN和InfoQ都在制 ...

  2. 拥抱开放计算标准 重构数据中心格局

    如今,我国正在从互联网大国向互联网强国迈进,互联网时代正在逐渐演变为智慧时代.而开放计算,无疑为智慧时代下数据中心的重构带来了极大的动能.浪潮一直走在开放计算领域的前列,近日,在浪潮主办的<开放 ...

  3. 大数据世界中的新技术

    大数据世界正在以前所未有的方式发生着变化,特别是企业将数据整合到一起并将其应用到业务的情况下.而企业都面临的挑战是能够发现.识别并带来构建产品.提供服务和了解客户所需的数据.数据集成本身几十年来一直是 ...

  4. 一个IT经理眼中的RTX、Simba2013与Lync

    一个IT经理眼中的RTX.Simba2013与Lync 今年公司要上一个企业级即时通信,希望有扩展性,能集成通信和应用.综合测试3家IM产品的功能特性比较,总结如下: RTX在企业级应用层面上不如LY ...

  5. 第二届大数据世界论坛 聚焦行业需求

    本文讲的是第二届大数据世界论坛 聚焦行业需求,随着现代技术的发展,企业产生的业务数据和客户数据早已汗牛充栋.如何有效的组织管理数据,提供商业解决方案,已经不是单纯的IT技术问题,而是与企业未来发展前途 ...

  6. 晋升工程经理几个月后,我选择退回编程岗位的起点

    "当你是一名程序员时,你只有一个高于你职位的老板给你任务.当你是一名经理时,你可以收到一个老板和你下面的几个人给你的任务.老板可以从顶端扼杀你,而下面的人会从底部掐住你." 从普通 ...

  7. 今晚7:30 | 连界、将门、百度、碧桂园创投四位大佬眼中的AI世界,是继续高深还是回归商业本质?...

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 7月27日19:30-21:30,本期直播间邀请了连界资本合伙人.微博大V高庆一.将门创投创始合伙人.CTO沈强.百度风投董事总经理刘水 ...

  8. cbinsight独角兽_想要编码为工程经理? 是时候找到独角兽了

    cbinsight独角兽 Coding as an engineering manager is an exercise in cognitive dissonance. 担任工程经理的编码是认知失调 ...

  9. 信息时代把数据当成了信息,互联网让数据真正发挥出价值,让人们相信人眼看不见的数据世界。...

    信息时代把数据当成了信息,互联网让数据真正发挥出价值,让人们相信人眼看不见的数据世界. 转载于:https://www.cnblogs.com/beingonline/p/7484113.html

最新文章

  1. python json文件_python读写json文件的简单实现
  2. python神经结构二层_《python深度学习》笔记---8.3、神经风格迁移
  3. epoch,iteration,batch,batch_size
  4. Linux硬件信息查看
  5. tq2440 jlink连接问题
  6. Grails精华:使用Groovy SQL
  7. 30分钟3300%性能提升—python+memcached网页优化小记
  8. 极光推送android 区分开发测试,给自己的项目做极光推送的步骤
  9. gym103117J. Ants
  10. Windows下Lua安装环境配置教程
  11. 卡开启中断_上网卡顿、网络连接中断……9012年了PC上网还只靠宽带?
  12. 19_07_09校内训练[分组]
  13. swift继承与重载
  14. lumaQQ.net 学习分析
  15. a与a的共轭转置相乘_线性代数A矩阵乘以A的转置的含义或者几何意义
  16. shiny 服务器未响应,在centos上重启shiny-server
  17. 苹果发布iOS9.1 Beta 3:新增壁纸和表情
  18. Word2007 表格换页自动“续表”方法
  19. 【字源大挪移—读书笔记】 第三部分:字尾
  20. 当前应用计算机解决实际问题的能力主要体现,当前,应用计算机解决实际问题的能力主要体现为能够熟练使用OFFICE和网页制作工具操作计算机...

热门文章

  1. DELL备份恢复系统的小工具 Dell DataSafe Local Backup
  2. 智能提示导致Visual Studio 2010崩溃问题
  3. mysql半同步复制问题排查
  4. 批量启用lync用户-3
  5. 【编程练习】C语言debug合集
  6. Ubuntu 下配置 SSH服务全过程及问题解决
  7. 根据两点间的经纬度计算距离
  8. constrain to margins
  9. os-cocos2d游戏开发基础-进度条-开发笔记
  10. 使用XML创建Excel文档