11:15–11:55 Friday, 2017-07-14

使用R和Apache Spark处理大规模数据 (Scaling R faster and larger using Apache Spark)

地点: 多功能厅5B+C(Function Room 5B+C)观众水平 (Level): 中级 (Intermediate)

Xiaoyong Zhu (Microsoft)

平均得分:: 

(5.00, 1 次得分)

R is a popular data science tool for data analysis. However, it has many drawbacks, such as its memory utilization and single-thread design, that limit its usage for big data analysis. Xiaoyong Zhu explains how to use R to analyze terabytes of data. 了解更多信息.

13:10–13:50 Friday, 2017-07-14

Fregata:在Spark上支持万亿维模型的机器学习算法库(Fregata: Machine learning algorithm libraries for supporting trillion-dimensional model on Spark)

地点: 多功能厅5B+C(Function Room 5B+C)观众水平 (Level): Intermediate

张夏天 (TalkingData)

平均得分:: 

(5.00, 1 次得分)

TalkingData的一些核心业务能力如Lookalike十分依赖大规模机器学习的能力,我们发现现有的大规模机器学习技术都不能很好的满足我们的需要。因为我们需要支持大规模数据的高速,稳定,无需调参的机器学习算法,而这是目前的一些主流平台和工具无法提供的能力。为此我们在算法和系统方面做了一些研究,取得了一些成果。我们开源的Fregata机器学习算法库完全基于Spark标准接口,在Logisti Regression, Softmax算法上能够做到无需调参,高速,支持万亿维度的模型。Fregata Logistic Regression算法,在消耗大约2-4台服务器的机器资源,对于5.1亿条,1万亿维度的训练数据,可以在15分钟内完成训练。我们在本次演讲中将介绍Fregata在算法上和系统方面的一些工作。 了解更多信息.

13:10–13:50 Friday, 2017-07-14

数据驱动企业增长 (Data-driven business growth)

地点: 多功能厅6A+B(Function Room 6A+B)观众水平 (Level): 高级 (Advanced)

ximeng zhang (GrowingIO)

平均得分:: 

(5.00, 1 次得分)

当流量红利渐消,数据驱动用户和收入增长成为新的核心;用数据驱动决策,而不是靠拍脑袋;数据分析究竟有哪些魅力?如何帮助企业创造巨大的商业价值,如何令公司全员做到数据决策;硅谷最前沿的方法论、工具、技术,最前沿的产品理念有哪些? 了解更多信息.

14:50–15:30 Friday, 2017-07-14

使用Spark/BigDL高级机器学习实现寿险业务再发现 (Reimplement life insurance services using Spark and BigDL advanced machine learning)

地点: 报告厅(Auditorium)观众水平 (Level): 中级 (Intermediate)

王玮 (中国人寿), Qinyan XU (中国人寿), 顾佳盛 (中国人寿),Pengfei Yue (Intel), Binggang Wo (Cloudera)

平均得分:: 

(3.33, 3 次得分)

中国人寿多年来积累了大量数据,如何深度挖掘数据的价值,用于业务推动、风险管理、客户服务等领域,是我们数据部门的主要目标。我们将介绍中国人寿如何使用Spark以及Spark上的深度学习库BigDL构建针对保险业务场景的高级分析应用。我们尝试了多种前沿的高级机器学习和深度学习技术,我们将分享我们的机器学习系统的架构,应用构建的流程,以及从中吸取到的经验和教训。 了解更多信息.

14:50–15:30 Friday, 2017-07-14

使用开源人工智能和机器学习工具训练现实世界的信用模型(Training a real-world credit model using open source artificial intelligence and machine learning tools)

地点: 多功能厅8A+8B(Function Room 8A+8B)观众水平 (Level): Beginner

Michael Li (The Data Incubator)

平均得分:: 

(3.00, 1 次得分)

Michael Li demonstrates how to iteratively train and refine a simple yet robust credit model for loan-default prediction, based on real-world loan performance data using 100% open source machine learning and artificial intelligence tools. The data is based on US$26 billion in loans issued over 10 years. 了解更多信息.

16:20–17:00 Friday, 2017-07-14

从LR到DNN点击率预估系统的进化 (The evolution of CTR prediction systems, from LR to DNN)

地点: 报告厅(Auditorium)观众水平 (Level): 中级 (Intermediate)

吴炜 (万达网络研究院)

广告点击率(ctr)预估的是一个热点问题,从事计算广告的公司一般都有自己的ctr系统,如何稳定可控地改进点击率预估系统,数据,架构,算法这三方面在不同的时间点要做什么是我这次想要分享的主题.通过回顾一个点击率预估系统是如何从最初的单纯的ETL+LR的形式逐步演变为包括模型在线训练,自动baddit,自动大规模特征探索的成熟在线系统.着重介绍在演化的几个关键节点上基于当时情况选择那个技术方向的思考过程,相当于结合ML&DL的知识体系和最近2年的发展,以业内几个比较知名的应用场景为线索,以几个关键节点(千人千面的上下线,双11的逐年演化)为例子来介绍大规模机器学习,分布式最优化的相关知识点,为参会者在面对在具体业务中遇到ML,DL相关问题如何做选型提供一份历史案例的参考 了解更多信息.

13:10–13:50 Saturday, 2017-07-15

多视图建模与半监督学习:应用于海量用户数据挖掘与行为分析 (Multiview modeling and semisupervised learning applied to massive user data mining and behavior analysis)

地点: 多功能厅5B+C(Function Room 5B+C)观众水平 (Level): 中级 (Intermediate)

杨帆 (Lenovo)

平均得分:: 

(4.67, 3 次得分)

在无法直接收集个人信息的情况下,企业需要根据用户行为数据,来预测用户的特定属性(如性别、职业、学历、购买力、年龄以及其它个人生命周期的状态等)。(目标) 一些有监督机器学习算法被用来实现这一目标,但是,面对数千万甚至上亿的海量用户、数百亿甚至更多的行为数据,标注量需要达到一定规模,才能保障机器学习的效果,而为了获得标注数据,是成本非常巨大的工作。(难点) 在实践中,我们通过多个角度对用户进行建模,构造不同的用户数据视图,在每个视图下选择合适的机器学习算法,应用cotraining半监督学习算法,通过多个数据视图机器学习算法的协同训练(cotraining),在使用非常少量的标注数据的情况下,就能在用户属性预测方面达到良好的效果。(方法) 了解更多信息.

14:50–15:30 Saturday, 2017-07-15

大规模机器学习在PayPal风险控制部门的实践 (Large-scale machine learning in PayPal’s Risk Management department)

地点: 紫金大厅B(Grand Hall B)观众水平 (Level): 中级 ()

Pengshan Zhang (PayPal Shanghai)

PayPal风险控制部门一直致力于利用基于大数据的机器学习的模型检测欺诈交易以及欺诈用户。本次演讲主要分享PayPal风险控制部门内部如何利用Hadoop/YARN实现分布式的逻辑回归、神经网络以及梯度提升树等机器学习算法,以及如何针对不同的算法做特征工程,构建端到端的机器学习管道。最后分享如何将这些算法组合起来提升模型的性能和稳定性。 了解更多信息.

数据科学高级分析 (Data science advanced analytics)相关推荐

  1. 香港大学数据科学(HKU Data Science) 笔试面试经验贴汇总

    2019: 笔试: 形式:总共1个小时,选择*10(5选项,4分,错了扣1分)+编程题*1(20分) 题型:高阶特殊矩阵的行列式的计算:泊松分布:贝叶斯概率公式:正态分布:概率论的实际应用题:函数的求 ...

  2. 《数据科学入门》(Data Science from Scratch)读书笔记

    0. 前言 这本书以python语言为载体,介绍了数据科学的基本概念和相关的数学方法.本书也是O'Reilly系列丛书之一,作者为格鲁斯(Joel Grus).书本不过300页左右,要想在这样的篇幅去 ...

  3. 乔治敦大学计算机专业排名,2020USNEWS数据科学与分析专业综合排名(上)

    2020年USNEWS专业排名已经陆续放出了,今天慧德留学就带大家看一下2020年美国USNEWSS数据科学与分析专业的综合排名,供大家参考. 独立项目 综合排名 学校名称 专业名称 专业英文名 开设 ...

  4. 数据科学与大数据排名思考题_排名前5位的数据科学课程

    数据科学与大数据排名思考题 目录 (Table of Contents) Introduction介绍 Udemy乌迪米 Machine Learning A-Z™: Hands-On Python ...

  5. 充分利用UC berkeleys数据科学专业

    By Kyra Wong and Kendall Kikkawa 黄凯拉(Kyra Wong)和菊川健多 ( Kendall Kikkawa) 什么是"数据科学"? (What i ...

  6. python数据科学库_Python数据科学库

    python数据科学库 什么是数据科学? (What is Data Science?) We live in an information age, where the challenge is t ...

  7. 推荐 :数据科学与大数据技术专业特色课程研究

    在我国,数据科学与大数据技术专业的建设已成为新的热点话题.在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程视角重点分析加州大学伯克利分校.约翰·霍普金斯大学.华盛顿大学.纽约大学.斯坦福 ...

  8. hahabet05-com:大数据与数据科学课程体系--哈哈电竞

    一. 大数据与数据科学专业 二. 大数据与数据科学培养的主要人才 大数据与数据科学主要培养大数据应用分析师.大数据系统工程师.大数据算法研究员几大类,猫先生官网登录搜hahabet每个大类下又可以根据 ...

  9. 顶尖高手2019_2019顶尖的在线数据科学课程

    顶尖高手2019 After over 80+ hours of watching course videos, doing quizzes and assignments, reading revi ...

  10. 敏捷数据科学pdf_敏捷数据科学数据科学可以并且应该是敏捷的

    敏捷数据科学pdf TL;DR; TL; DR; I have encountered a lot of resistance in the data science community agains ...

最新文章

  1. 使用acme.sh撸一个免费且自动更新的HTTPS证书
  2. iOS9系统下SEGV_ACCERR问题的解决方案
  3. 测试开发岗面试问题-工具类
  4. 28. css样式中px转rem
  5. layui流加载及传参
  6. 用MVC做可拖拽的留言板,利用 Jquery模板 -- JsRender
  7. RabbitMQ入门指南二(Java)
  8. 推荐一款DataGridView的打印解决方案
  9. php网站登录界面验证码打不开,php网站无法显示验证码
  10. 观点|蚂蚁金服玉伯:我们是如何从前端技术进化到体验科技的?
  11. 因为迁移,所以出卖(1)
  12. Centos迁移旧硬盘的数据
  13. 戴尔电脑重装系统的blos设置
  14. 【干货】数据集网站汇总!
  15. 页面倒计时按钮的两种实现方式
  16. js/Jquery通过MutationObserver实现监听dom元素的属性变化 用div简单实例
  17. 一个完整的交互设计步骤有哪些
  18. AutoCAD入门——常用指令
  19. WordPress主题美女图片整站源码多功能CX-UDY图片主题(带会员积分系统)
  20. 简单评测几个常见集成开发环境(IDE)(新手入门向)

热门文章

  1. python 获取内存使用率_获取一个python实例的总内存和cpu使用率
  2. (已拿offer)2017腾讯暑期实习生从笔试到面试总结(附带华为、阿里面试经历)...
  3. 怎么用计算机excel计算矩阵,怎样用EXCEL进行矩阵计算?
  4. android 白平衡,保存Android相机焦点和白平衡状态
  5. php 快速安装,PHP - 快速配置及安装
  6. springboot 多线程_从零开始到架构,800页Java+并发+容器+多线程+高并发+Spring+SpringBoot源码...
  7. 苹果home键在哪里设置_苹果手机怎样添加辅助触控功能
  8. python种颜色循环_如何用Python做一个RGB和16进制的互转工具
  9. 大连工业大学计算机专硕调剂,2020大连工业大学调剂信息
  10. mysql--实战1--查询数据1--scan方法