2013 China Hadoop Summit杂记

China Hadoop Summit的前身叫Hadoop In China，后来跟中科院计算所分开，分成两个大会，一个叫CHS，一个叫BDTC。

今年哥们作为主持人兼演讲嘉宾参加了CHS大会，这次大会举办的十分隆重和成功，请到了业界很多的大牛，包括Hortonworks的CTO Jeff，HBase的committer Ted Yu等等，介绍了目前Hadoop 2.0上面的很多新鲜玩意，还请到了Spark界的大牛Reynold Xin等人。辛老板是Shark的主要作者，也是Tachyon的重要参与者，在Spark界是响当当的人物。还有来自国内各大互联网巨头，国外的LinkedIn，Pinterest等重要大数据公司的工程师们分享了Hadoop在各自公司中的应用，干货超多。

我是第一天架构与实践分论坛的主持人，同时在这场也有一个很水的主题报告。之所以说很水，是因为我前面出场的是特么Hortonworks的CTO。所以我压力超大，跟他所讲的Hadoop 2.0的架构和源码相比，我的集群自动化运维的内容就很水了。

在这个分论坛，其实挺难做的，我既是主持人，又是演讲者。所以用了一个比较轻松的方式跟大家见面。我怀疑这可能是历届大会中，唯一一个自己主持自己的论坛。虽然以前在社区活动里已经无数次的这样做了。但这种大型的国际会议还是第一次。

台上讲的可能还都是大面上的东西，主要是下面的交流比较重要，下来以后，跟LinkedIn的俞晨杰聊了聊，作为Hadoop的使用者，我们的感觉比较类似，这个也是我跟之前阿里，百度的朋友交流得出的一个共识，就是Hadoop其实安装部署，以及MR的开发都不是很难的事情，最难的还是在搭建后期的运维上。这在LinkedIn也是个比较现实的问题。如何去做Hadoop整个分布式系统的自动化运维，是整个Hadoop环境里面最具有挑战性的事情。正好我在我的报告里面也提到了这个问题，Hadoop本身也是个大数据的生产者，每天的日志去分析处理，找出集群运行的问题，然后进行有针对性的性能调优，是目前Hadoop生态系统所面临的挑战。

也跟很多互联网界和Hadoop界的同仁们探讨了各种各样的问题，比如我很高兴的得知，在酷狗和Pinterest都用到了phpHiveAdmin作为Hive的ADHOC的查询管理工具，作为一个开源软件的作者，我有很大的成就感。然后LinkedIn极少使用Hive，更多的是用Pig做处理；Revolution最新的RRE7可以用处理单机的方式去写R语言脚本，而不用再写成MR方式了。国内孙元浩的星环科技在Hadoop 2.0和Spark上做了大量的工作。我也依然坚持我的想法，把Hadoop及生态系统的Easy做到极致。

第二天跟以前暴风的同事们，叫上TedYu等人一起吃了个饭。早先我就在微博上说要请Ted吃饭，终于实现这个夙愿了。附带几张照片，留念一下。

然后在会上还遇到了51cto的著名美女黄丹。

It's my honor to meet you guys.

HBase Committer Ted Yu，清华87级的大牛，之前在EBAY，后来去了Hortonworks

AMPLab实验室的Reynold Xin中文叫辛缇，Spark参与者，Shark主要作者，Tachyon主要参与者，伯克利大学的高材生。

Jeff Markham，Hortonworks CTO

吴甘沙，Intel研究院首席科学家，IntelHadoop首席科学家。

最后来一张大合影

从左往右依次为

前暴风影音，现京东数据科学家杜泽龙

数盟社区创始人兴宝

前暴风影音，现缔元信数据分析工程师李立松

前暴风影音，现缔元信数据挖掘工程师赵修湘

暴风影音Hadoop运维组工程师史东杰，著名的hivefans，也是phpHBaseAdmin的作者

暴风影音Hadoop运维组工程师廖旻可，开源代码HiveHA的作者。

前新华社数据分析师，人大统计学博士，SuperStat创始人陈堰平，国内R语言界的大牛。

光头死胖子就是我，除我之外都是Hadoop和学术界的高帅富，唯我一人实是屌丝。

Hortonworks工程师，Hbase committer，著名的Ted Yu

Pinterest Hadoop工程师李杰

暴风影音HBase组负责人马延辉，也是Apache Incubator项目Pheonix的代码贡献者。

LinkedIn Hadoop工程师，著名任务流调度系统阿兹卡班Azkaban的作者俞晨杰。

十分荣幸与诸位共事。

2013 China Hadoop Summit杂记相关推荐

圣何塞Hadoop Summit 2014看点
摘要:据AMR研究显示,2020年,Hadoop将拥有502亿美元市场.如此多金诱惑下,各大解决方案提供商又会有什么样反应,这里我们走进圣何塞Hadoop Summit. 在数据为王的时代,数据挖掘能 ...
【Hadoop Summit Tokyo 2016】Rakuten是如何解决由于大规模多租户Hadoop集群造成的迷之问题的...
本讲义出自Tomomichi Hirano在Hadoop Summit Tokyo 2016上的演讲,主要分享了Rakuten公司遇到的大规模多租户Hadoop集群造成的迷之问题:从来不结束任务.数据 ...
【Hadoop Summit Tokyo 2016】LLAP：Hive上的次秒级分析查询
本讲义出自Yuta Imai在Hadoop Summit Tokyo 2016上的演讲,主要分享了为什么选择LLAP,并对于LLAP的相关概念进行了分享,在演讲中还介绍了Hive 2 与LLAP的架构 ...
【Hadoop Summit Tokyo 2016】Spark上可扩展的深度学习
本讲义出自Matthias Langer.Dr. Zhen He与Dr. Zhen He在Hadoop Summit Tokyo 2016上的演讲,主要介绍了深度学习的基本概念和相关知识,分享了Spa ...
【Hadoop Summit Tokyo 2016】企业数据分类和治理
本讲义出自Shwetha Shivalingamurthy与Suma Shivaprasad在Hadoop Summit Tokyo 2016上的演讲,主要分享了企业数据分类和治理的案例并且深入地讲解 ...
【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库
本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spar ...
【Hadoop Summit Tokyo 2016】云上的大象
本讲义出自Sanjay Radia在Hadoop Summit Tokyo 2016上的演讲,主要分享了基于云上的Hadoop架构设计以及解决方案,并分享了云上的共享数据存储相关内容以及如何通过使用C ...
【Hadoop Summit Tokyo 2016】一小时之内使用Apache Nifi从零到数据流
本讲义出自San Jose在Hadoop Summit Tokyo 2016上的演讲,主要介绍了为什么在钻探行业复合数据流非常重要,以及当前Apache Nifi的发展概况和突破点,还介绍了不被期待的 ...
【Hadoop Summit Tokyo 2016】基于Apache Spark的数据科学
本讲义出自Robert Hryniewicz在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据科学以及机器学习的相关基本概念以及机器学习的例子,并分享了机器学习的方法,还分享了 ...

2013 China Hadoop Summit杂记

2013 China Hadoop Summit杂记相关推荐

最新文章

热门文章