2016年12月8日-10日,BDTC 2016 中国大数据技术大会将在北京新云南皇冠假日酒店隆重举办。本届BDTC 2016为期三天,聚焦行业最佳实践,数据与应用的深度融合,关注热门技术在行业中的实践和应用,除Keynote外,主办方精心策划了16场专题技术和行业论坛,涵盖了大数据分析与生态系统、大数据云服务、HPC大数据、推荐系统、数据安全与隐私保护、人工智能、网络与通讯、政策法规与标准化、工业与制造业、数据库、金融、精准医疗和生物医药大数据、数据开放与政府治理高层沙龙、交通旅游与出行等主题。

目前,大会的全部议程已经出炉,超过130位技术专家将为现场千名以上的大数据行业精英、技术专家及意见领袖带来100多场技术演讲,分享最新技术与实践的洞察与经验,共商大数据时代发展之计。

在备受关注的“大数据分析与生态系统论坛”,无论是讲师阵容还是议题质量都堪称顶级,其学术价值极高,对于从事大数据领域的研究者来说具有极高的学习价值和参考价值。具体议题和介绍如下:

李昆:华为技术有限公司大数据设计部部长

讲师简介: 2004年加入华为,长期从事电信协议、管道智能化、数据可视化、用户行为分析等系统研究和开发工作。近年致力于数据管理和处理技术研究,参与Hadoop,Spark,Alluxio等开源社区,2016年作为CarbonData PMC成员参与Apache CarbonData项目孵化,寻求大数据与一站式分析平台的创新机会点。

议题名称:CarbonData:Hadoop生态面向交互式分析的索引文件格式

议题介绍: Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景,并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应。

李扬:Apache Kylin project CTO

讲师简介:李扬 Kyligence联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。

议题名称:Apache Kylin的新Streaming OLAP实现?

议题介绍:回顾Apache Kylin架构,介绍麒麟在Streaming OLAP领域的历史。讲解Apache Kylin v1.5对流式处理尝试,总结设计的成功和失败。讲解Apache Kylin v1.6最新的Streaming OLAP实现,如何横向扩展实现大数据的流式Cube构建,如何在无序的流数据上分割Cube Segment,确保没有记录丢失。最后展望Apache Kylin的后续工作。

熊永平 北京邮电大学副教授

讲师简介:北京邮电大学网络技术国家重点实验室副教授,分别从哈尔滨工业大学和中科院计算所获得硕士和博士学位,先后在诺基亚研究中心、中国电子信息产业研究院、无锡物联网产业研究院等单位,从事网络安全、移动物联网、数据科学和数据挖掘等领域的研究开发工作,主持和参与了国家自然科学基金、科技部重大专项、973等多项国家科研项目。在IEEE Transactions on Mobile Computing、ACM MobiCom等国内外著名期刊会议上发表论文30多篇,单篇论文他引次数超过210次。其研究成果先后转化到信息安全公司和物联网科技公司,近年来在流式数据处理、大规模复杂网络分析、可视化机器学习与数据建模领域进行了深入研发,其研究成果在保险领域的理赔反欺诈和营销分析、全科医生诊疗模型、源代码安全检测、电力运监大数据等领域进行多个不同行业的企业级应用,取得了良好的效果。

议题名称:基于Spark的交互式数据探索与建模系统

议题介绍:随着内存计算时代的到来,分布式内存计算框架SPARK正在快速的普及开来,Scala强大的表达和抽象能力,使之成为高效的数据处理语言。然而,由于缺乏统一的手段,机器学习建模经历的抽取、清洗、转换、特征筛选、建模到开发分布式算法落地实施等多个环节,通常需要来回利用各种工具和程序的组合来完成,写脚本程序清洗转换数据,利用R或SAS等工具进行小数据集建模,最后开发成spark程序进行分布式处理。本团队针对SPARK框架进行了深入研究,提出了一套将SPARK计算服务化的方法,设计了一个统一的可视化交互式数据探索处理与机器学习系统,支持机器学习建模全流程的可视化处理,并支持数据处理算子可插拔的可扩展能力,便于不同数据分析人员共享数据分析能力和经验。

艾毅:滴滴出行/技术专家

讲师简介:艾毅,滴滴出行大数据部BI系统组负责人。负责滴滴大数据实时计算系统的架构设计及研发。

议题名称:滴滴实时业务监控系统架构及实践

议题介绍:

实时计算的挑战及解决方案:(1)可扩展性(2)有状态的实时计算(3)数据被重复处理(4)高可用(5)实时数据流与外部系统或服务关联计算;

OLAP系统架构选型:KV store与column store 哪种存储更适合OLAP应用?

简要介绍Kafka的特性,阐述为何Kafka是实时计算系统中理想的数据存储方案;

详细介绍Druid的架构设计及原理,阐述Druid作为OLAP解决方案的优点;

详细介绍Samza的架构设计及原理,阐述如何通过Samza解决实时计算中的各种挑战;

介绍Lambda architecture,阐述如何将离线计算和实时计算统一起来,通过离线计算来修正实时计算。

张彭善:PayPal数据科学家

讲师简介: 2008年硕士毕业于上海交通大学,2012年初加入PayPal Risk Data Science团队。2013年开始研发基于Hadoop/YARN的分布式端到端的机器学习框架,以满足PayPal日益增长的风控大数据的需要。在PayPal的主要成绩包括实现、优化和实施基于Hadoop/YARN的分布式的神经网络、逻辑回归以及梯度提升树等算法,以及基于PayPal风控建模的需求构建端到端的机器学习管道。目前在PayPal Risk负责整个分布式机器学习的框架的研发优化以及端到端的机器学习工程化的系统平台建设。

议题名称:分布式机器学习算法在PayPal风险控制部门的实践

议题介绍: PayPal风险控制部门一直致力于利用基于大数据的机器学习模型检测欺诈交易以及欺诈用户,并且取得了显著的效果。本次演讲将主要分享PayPal风险控制部门内部利用机器学习算法的最佳实践,包括:

如何利用Hadoop/YARN实现和优化分布式的逻辑回归、神经网络以及梯度提升树等机器学习算法;

如何针对海量的数据做特征工程,构建端到端的大数据机器学习管道;

应用各种机器学习算法到具体产品环境的最佳实践;

如何将算法组合起来提升模型的性能和稳定性。

金昀:Facebook工程经理

讲师简介:金昀目前在美国Facebook基础架构核心系统部门担任工程经理。负责Facebook 跨数据中心大型分布式系统的开发。在此之前,金昀在中国PPTV公司和阿里云担任研发副总裁和研发总监,负责PP视频云平台和阿里云“飞天”分布式系统的开发。归国前,他在美国微软公司担任资深开发主管,负责多项核心服务器系统的开发。

议题名称:Facebook计算和存储分离的分布式计算平台

议题介绍:大数据方向的演讲题目,我可以讲一下Facebook里计算和存储分离的MapReduce框架。MapReduce的一个核心思想是计算必须靠近存储,这样做的原因是在分布式Map Reduce提出的时代网络是整个系统的瓶颈。但是计算和存储的耦合也造成了系统灵活性的下降,在Facebook海量数据应用场景不断变化的情况下这种耦合造成了整个数据仓库可扩展性的下降。在本次演讲中,来自Facebook基础架构部门的金昀将分享Facebook 在Map Redouce框架中分离计算和存储的实践。

黄鑫:百度基础架构部分布式计算架构师

讲师简介:黄鑫,百度基础架构部,从事分布式计算平台研发工作,负责百度下一代计算系统,将MR演变为为dag引擎、负责DCE(Distributed Computing Engine)项目,并推动内部多个sql平台升级使用DAG。现在,黄鑫参与分布式计算统一API - bigflow项目,统一多个流式和批处理计算平台API,并和多个项目组合作,推动业务作业升级。

议题名称:百度大数据离线计算平台发展历程

议题介绍: DCE是百度新一代离线批处理计算引擎,是在百度多年大数据发展积累的实际需求和规模影响下逐渐演变而成,有远超业界同行的集群规模、作业量、以及CPU利用率。DCE有独创的Shuffle模式和Native c++数据执行层实现,并且为满足业务实际多样需求,优化完善DAG引擎,降低计算平台框架资源消耗,提升框架计算有效性,进一步强化平台计算能力。并且,在众多流式和批处理引擎涌现的现在,百度内部已使用统一分布式计算API - Bigflow,来让业务用户可以一套代码高效的运行到任意多种计算引擎上,每天已有近百产品线、数百用户使用。

郑龙:中兴飞流信息科技有限公司CTO

讲师简介:郑龙,中兴飞流信息科技公司CTO。毕业于日本会津大学,取得博士学位,在日本期间作为日本学术振兴会特别研究员(JSPS Research Fellow)开展多核—众核并行与分布式异构计算研究;博士后师从数据流技术权威高光荣教授,在美国特拉华大学进行数据流大数据技术研究,曾任美国ET International(ETI)公司产品架构师,后任教于上海交通大学计算机系。

议题名称:Yita:基于数据流的大数据计算引擎

议题介绍:数据流起源于上世纪七十年代,由IEEE冯诺依曼奖章获得者、美国科学院院士、MIT教授Jack Dennis提出,并由以ACM、IEEE Fellow高光荣教授为代表的众多学者推进发展至今,是对冯诺依曼模型的一个突破,并在大规模并行领域有着独特优势的技术理论。随着大数据对并行计算效率要求的提升,数据流成为当前并行与分布式计算领域的重要热点,特别是在Google表明其深度学习框架TensorFlow基于数据流理论,学术界及工业界更是掀起了研究数据流的高潮。Yita是基于高光荣教授三十余年的理论工作,面向大数据场景开发的一套支持海量实时智能计算的大数据引擎。受益于数据流的细粒度—异步并行执行模型,Yita一方面大幅提高计算资源的利用效率,另一方面提供更为灵活的算法实现支持,在实现相同的计算场景上,相比当前的Spark与Storm,Yita提供高达十余倍的性能加速,且无需系统参数静态调优。中兴飞流现正联合多家高校,建立技术生态圈,并计划开源,努力推动Yita成为继Hadoop MR、Spark之后,中国自主研发的新一代开源大数据引擎。本演讲将对Yita进行深度探讨。

华思远:Apache Apex PMC

讲师简介:我叫华思远,江苏省无锡人。2006年从西安交通大学软件工程本科毕业,2009年赴美国南加州大学攻读软件工程和计算生物。2011年从南加州大学硕士毕业,之后加入总部位于旧金山的Saleforce.com公司,作为软件工程师负责Saleforce.com核心数据平台的开发和维护。2013年我加入硅谷大数据初创公司DataTorrent。DataTorrent的核心成员来自于雅虎原Hadoop工程总监和开发团队。我在DataTorrent主要负责Apache Apex项目,是Apex项目的PMC成员之一。Apex项目是新一代的实时大数据处理平台,已经为数家500强企业同时提供实时处理和批处理服务。

议题名称:下一代实时数据处理引擎——Apache Apex项目简介及应用

**议题介绍:**Apache Apex 是一个用Java开发的开源流数据处理平台。Apex 已经被部署在很多大公司的关键数据处理应用上。Apex 从一开始就关注海量处理能力,高吞吐,低延时,高可用性。Apex 的设计和架构也使 Apex 可以同时适用于实时数据处理和批处理。本次演讲会探讨Apex的一些关键功能以及其与其他类似系统的不同点,正是这些关键功能保证了Apex应用程序可以进行快速的数据处理,做出实时响应,达到低延时的商业要求并同时具有高吞吐能力(比如其可在较优的资源消耗下每秒处理百万数据的能力)。还会涉及到如何用Apex的一些高级的Partition特性来实现高扩展性,如何按需分配资源,如何实现容错,如何保证数据只处理一次,Apex的计算和任务调度模型,运行时状态管理,改变运行时程序的能力以及通过一些连接库和其他数据源的整合的能力。与会者也可以了解到这些关键特性对于降低开发成本和开发时间的意义。最后本次演讲还会展示Apex在具体生产环境中的一些应用,Apex现在正在开发的特性以及将来的路线图。

邹永强:云账户联合创始人兼CTO

讲师简介:邹永强,云账户联合创始人兼CTO。生于1981年,2010年于中科院计算所获分布式系统方向博士学位。曾负责腾讯深度学习平台Mariana设计、开发与应用,成功支持微信语音识别,图像识别,并在广点通图文广告点击率预估的创新工作中获得效果提升。有丰富的腾讯自研分布式文件系统开发和数千台服务器运营经验,具备领导设计和开发大数据并行处理解决方案经验。拥有25项专利,涉及基于深度学习的广告点击率预估算法、并行深度学习平台、分布式文件系统和分布式数据库。曾获PDCAT2008最佳论文奖和NPC2010最佳论文奖提名,并有研究工作发表于国际顶级学术会议VLDB2014。

议题名称:金融SaaS实战:云账户钱包SDK的技术挑战与解决方案

议题介绍:金融科技Fintech的强势崛起与此前互联网金融的火热,标志着金融行业的持续创新,催生更多非金融行业玩家的金融探索。云账户推出钱包SDK,包括红包和结算,提供群红包、专属红包、广告红包等提升用户活跃度,解决实时、高频的用户资金结算问题以提升用户体验和减轻财务负担,帮助开发者快速实践金融业务。钱包SDK面临多项技术挑战,包括:金融业务的数据可靠性与一致性挑战;互联网产品的并发性能挑战;安全与风控挑战;数据处理与运营挑战;SDK独特的集成、升级、机型兼容性挑战。本演讲将围绕这些技术挑战展开,并给出针对性的解决方案,包括云账户通过状态定义和事务机制解决红包与结算业务的数据可靠性与一致性,提升基础服务质量;通过请求分区、轻重分离、削峰填谷的架构设计,以及Golang实现解决并发性能问题;提供网络安全、金融安全、业务安全,并形成红包和结算等业务的独特风控机制;借助日志收集系统,完成离线统计和对账,通过日志搜索定位线上问题;针对SDK的特殊性,解决名字空间潜在冲突,并集成至各IM SDK简化集成过程。目前云账户钱包SDK已集成至五大IM SDK,并集成至上千个客户的产品中。

常雷:Apache HAWQ创始人,乐我科技CEO

讲师简介:常雷,博士,Apache HAWQ创始人,乐我科技CEO。曾任EMC/Pivotal研发部总监,Pivotal HAWQ团队负责人。并曾任EMC高级研究员,专注于大数据与云计算领域。于2008年获得北京大学计算机系博士学位。在国内外顶级数据管理期刊和会议(比如SIGMOD等)发表数篇论文,并拥有多项美国专利。

议题名称:云中Apache HAWQ服务:轻松取代传统数据仓库

议题介绍: Apache HAWQ是一个原生的SQL-on-Hadoop引擎,它的新颖设计有效得结合了MPP数据库的性能以及Hadoop的可扩展性优势。它给用户提供了SQL标准兼容的接口,可以轻松管理PB级数据,从而可以轻松取代传统数据仓库。本演讲将介绍云中Apache HAWQ服务的挑战和体系架构,并介绍几个关键部件的设计,包括云服务基础架构、基于代价的优化器,高可扩展UDP互联协议,弹性执行引擎运行时以及高级资源管理。同时还将介绍Apache HAWQ正在开发的新功能,以及未来的发展方向,包括针对点查询的高效索引,基于只读文件系统的更新,快照以及跨地域复制等。

更多讲师信息,更新中……

最后感谢本场论坛主席,来自中国科学院计算技术研究所副研究员查礼的组织和策划,为大家献上大数据分析与生态系统的盛宴。

本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

精英云集,看国内外12家顶级公司大数据实践相关推荐

  1. 12家无人驾驶公司新进展:驾照怕白考了!

    文章讲的是12家无人驾驶公司新进展:驾照怕白考了,对于沃尔沃.特斯拉和宝马等汽车制造商来说,无人驾驶汽车将塑造未来的驾驶和出行方式.随着越来越多的科技公司的加入,无人驾驶汽车可能会比我们预想中来得要早 ...

  2. AI人才「用工荒」如何解决?看看这几家顶级公司的应对策略

    https://www.toutiao.com/a6652650197727838734/ 2019-01-31 21:20:27 作者 | Tom Taulli 来源 | Forbes 编译 | 太 ...

  3. 第一家云创大数据产业学院在佛山职业技术学院挂牌

    2019年1月10日,"云创大数据产业学院揭牌暨战略合作协议签署仪式"在佛山职业技术学院电子信息学院会议室举行.云创大数据总裁刘鹏教授.市场部经理单明月,佛山职业技术学院电子信息学 ...

  4. 五天面试 Google、Facebook、Airbnb 等硅谷五家顶级公司,我是如何都拿到 Offer 的

    编者按: God helps those who help themselves! 在 2017 年 7 月 24 日至 28 日的五天里,一位华裔技术工程师曾笑寒连续面试了 LinkedIn.Sal ...

  5. 年薪高达218万元,12家独角兽公司工程师薪资曝光,这些岗位最吃香

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 杨净 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI工程师,月薪60k-140k. ...

  6. 与癌症作战的 12 家 AI 公司,八仙过海各显神通

    linkedin 编者按:地球村的人口老龄化现象日趋严重,患癌人数也逐年增长.据世界卫生组织的预计,全球的癌症病患将在未来 20 年增加 70%,从原来的 1400 万人增至 2200 万人. CB ...

  7. 从顶会层面看科研!计算机顶级会议大盘点!

    写在前面 计算机是一个涵盖面广.选择面宽的领域.因为机器学习.计算机视觉和人工智能领域发展非常迅速,新的工作层出不穷,如果把论文投到期刊上,一两年后刊出时就有点过时了.因此大部分最新的工作都首先发表在 ...

  8. 全球326家独角兽公司大盘点:中国入围92家

    转自"SciTouTiao"微信公众号 数据来源 CB Insights 近日,CB Insights发布了一份报告,此报告基于CB Insights数据库,最终统计时间为2019 ...

  9. 从顶会层面看科研!计算机顶级会议大盘点(下)

    写在前面 对于刚入门的科研工作者来说,选择合适的研究方向学习必要的背景知识是进行创新的基础.只有实时了解该方向的研究进展,才能跟上总体的步伐.因此,阅读好的会议论文是进行研究的前奏. 上期岛主向大家展 ...

最新文章

  1. 计算机黑屏策略,小黑w7系统诊断策略服务已被禁用的还原教程
  2. java 多线程日志_多线程 打印的日志出现重复行
  3. mysql怎么分组计算逾期率_转行数据分析第三篇:mysql查询入门练习题
  4. 宝宝安全座椅什么牌子好?[自己参考]
  5. linux之loop设备
  6. javascript对象的浅拷贝、深拷贝和Object.assign方法浅析
  7. StringUtils 的常用方法
  8. jdk安装好了怎么使用_安装jdk怎么打开
  9. 第五章 初始化和清理
  10. unordered_map详细介绍
  11. golang性能调优工具pprof的使用
  12. 聊聊个人站长的自我修养
  13. 一点一滴分析LinkIt™ Smart 7688 webUI
  14. html 怎么设置鼠标效果,css怎么设置鼠标形状
  15. CAN通信(一)——认识CAN总线
  16. 阿里云轻量应用服务器如何快速搭建WordPress个人博客?
  17. leeCode动态规划(矩阵求最大正方形面积)
  18. 山东大学软件学院人工智能导论(考试)——期末考试回忆版
  19. 赋予金融科技人性化 易通贷召开品牌重塑发布会
  20. 当当、卓越、京东商城货物配送流程揭秘

热门文章

  1. RAC+DG搭建过程
  2. 【图论】C008_HDU 1317 XYZZY(spfa / floyd+ spfa / 一遍 spfa)
  3. 计算机专业十六字口号,励志口号大全16字
  4. C/C++数据结构(四) —— 栈
  5. HMS Core电商与游戏行业解决方案,全流程赋能开发者创新
  6. Can not perform this action after onSaveInstanceState和重建Activity时恢复缓存的Fragmen的问题
  7. Android蓝牙UUID
  8. Dell R710 iDRAC6 远程控制卡设置
  9. 串口设置波特率linux函数接口,Linux下串口编程之一:基础设置函数
  10. 日本电子企业败走世界舞台的真假面