使用高级分析算法(如大规模机器学习、图形分析和统计建模等)来发现和探索数据是当前流行的思路,在IDF16技术课堂上,英特尔公司软件开发工程师王以恒分享了《基于Apache Spark的机器学习及神经网络算法和应用》的课程,介绍了大规模分布式机器学习在欺诈检测、用户行为预测(稀疏逻辑回归)中的实际应用,以及英特尔在LDA、Word2Vec、CNN、稀疏KMeans和参数服务器等方面的一些支持或优化工作。

当前的机器学习/深度学习库很多,用Spark支撑分布式机器学习和深度神经网络,主要是基于两点考虑:

  1. 大数据平台的统一性。因为随着Spark特性,分析团队越来越喜欢用Spark作为大数据平台,而机器学习/深度学习也离不开大数据。
  2. 其他的一些框架(主要是深度学习框架,如Caffe)对多机并行支持不好。

在某顶级支付公司的端到端大数据解决方案中,英特尔开发的Standardizer、WOE、神经网络模型、Estimator、Bagging Utility等都被应用,并且ML管线也由英特尔改进。

稀疏逻辑回归主要解决了网络和内存瓶颈的问题,因为大规模学习,每次迭代广播至每个Worker的的权重和每个任务发送的梯度都是双精度向量,非常巨大。英特尔利用数据稀疏性,使用高级编码缓存数据(使用稀疏格式缓存),压缩数据通信,并对二进制值优化处理,最后得到的梯度是稀疏向量。

基于Apache Spark的大规模主题模型正在开发中(https://github.com/intel-analytics/TopicModeling)。

Spark上的分布式神经网络,Driver广播权重和偏差到每个Worker,这与稀疏逻辑回归有类似之处,英特尔将神经网络与经过优化的英特尔数学核心函数库(支持英特尔架构加速)集成。

面向Spark的参数服务器的工作,包括数据模型、支持的操作、同步模型、容错、集成GraphX等,通过可变参数作为系统上的补充,实现更好的性能和容错性,相当于将两个架构仅仅做系统整合(Yarn之上)。由于模型并行的复杂性,英特尔团队目前也还没有考虑模型并行的工作。

演讲PPT完整下载

基于Apache Spark的机器学习及神经网络算法和应用相关推荐

  1. 使用基于Apache Spark的随机森林方法预测贷款风险

    原文:Predicting Loan Credit Risk using Apache Spark Machine Learning Random Forests  作者:Carol McDonald ...

  2. Livy:基于Apache Spark的REST服务

    原文:http://geek.csdn.net/news/detail/208943 Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活,但在企业应用中面临诸如部署.安全等问题.为 ...

  3. [时间序列预测]基于BP、LSTM、CNN-LSTM神经网络算法的单特征用电负荷预测[保姆级手把手教学]

    系列文章目录 深度学习原理-----线性回归+梯度下降法 深度学习原理-----逻辑回归算法 深度学习原理-----全连接神经网络 深度学习原理-----卷积神经网络 深度学习原理-----循环神经网 ...

  4. CV之IC之AlexNet:基于tensorflow框架采用CNN卷积神经网络算法(改进的AlexNet,训练/评估/推理)实现猫狗分类识别案例应用

    CV之IC之AlexNet:基于tensorflow框架采用CNN卷积神经网络算法(改进的AlexNet,训练/评估/推理)实现猫狗分类识别案例应用 目录 基于tensorflow框架采用CNN(改进 ...

  5. 基于Apache Spark机器学习的客户流失预测

    流失预测是个重要的业务,通过预测哪些客户可能取消对服务的订阅来最大限度地减少客户流失.虽然最初在电信行业使用,但它已经成为银行,互联网服务提供商,保险公司和其他垂直行业的通用业务. 预测过程是大规模数 ...

  6. 7天人工智能训练营,带你玩转机器学习与神经网络算法!(含6大实战练习,限200人)...

    在这个人工智能技术进入落地应用的爆发时代,作为有着技术追求的IT人,好像不懂点人工智能,就像与这个世界脱节了一样. 说到人工智能,想必大家都听说过一个词叫"神经网络",神经网络作为 ...

  7. 机器学习_神经网络算法入门

    近来迷上机器学习了,特别是神经网络这一段,很有科幻片的味道,这里把神经网络的内容整理成一篇博客,欢迎大家点评. 神经网络是让计算机模仿人的神经网络结构,设计出的一种算法,(简写ANN),有时候也称为连 ...

  8. Zeta:eBay 基于 Apache Spark 开发的新一代数据开发分析平台

    供稿 | eBay DSS Team 作者 | 田川晓阳 编辑 | 顾欣怡 本文4490字,预计阅读时间14分钟 导读 新一代数据开发分析平台Zeta由eBay DSS(Data Services a ...

  9. 【Hadoop Summit Tokyo 2016】基于Apache Spark的数据科学

    本讲义出自Robert Hryniewicz在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据科学以及机器学习的相关基本概念以及机器学习的例子,并分享了机器学习的方法,还分享了 ...

最新文章

  1. php crypt返回的是对象还是字符串,php – 将字符串与哈希值进行比较时,Crypt函数不起作用...
  2. spring各版本jar包和源码
  3. vi和vim的基础使用
  4. 2018\National _Java_A\1.三角形面积
  5. winform窗体控件多,加载慢、卡顿的解决办法
  6. powerdesigner mysql 自增主键_PowerDesigner Mysql 主键自增、初始值、字符集
  7. 【CVE-2018-12613】phpmyadmin 4.8.1 远程文件包含漏洞复现
  8. Python稳基修炼的经典案例1(计算机二级、初学者必须掌握的例题)
  9. RGB转换cv::Mat
  10. 核PCA与PCA的精髓和核函数的映射实质
  11. html5中秋节吃月饼游戏源码,html5中秋吃月饼大赛微信游戏源码
  12. 很有意思的HDB3编解码--C++实现
  13. 计算机 打印机型号编码不可用,win10系统查看打印机属性中描述不可用的解决方法...
  14. 废物利用!电路板元器件焊拆必备姿势、焊接技巧、维修拆焊方法
  15. 节卡JAKA机械臂培训笔记(偏入门)
  16. CDH6.2环境中启用Kerberos
  17. GPRS模块中AT指令发送短信的PDU编码规则
  18. 加州大学圣地亚哥分校计算机科学排名,2020年加州大学圣地亚哥分校排名TFE Times美国最佳计算机科学硕士专业排名第17...
  19. Linux 修复硬盘smart,使用 Smartmontools 检测硬盘坏道
  20. linux ls和cd命令详解,Linux基础cd、pwd和ls命令

热门文章

  1. OpenCV中CV_IS_MAT_CONT(src->type dst->type) 的含义
  2. Open vSwitch相关字段详解之L4:TCP, UDP, SCTP
  3. c语言如何打印矩形图形的程序 五行七列,C语言习题与实验
  4. php控制器无限极分类,thinkphp无限极分类实现方法
  5. 线程间怎么交换数据_2 万字长文详解 10 大多线程面试题|原力计划
  6. gcp上使用gpu来学习tensorflow
  7. Unable to instantiate application
  8. 【转载】探索式测试基础系列—生活进阶曲
  9. PowerShell CLI 获取VM信息
  10. Linux查看程序端口占用情况【转】