开发十年,就只剩下这套Java开发体系了 >>>   

Spark分为两大块:1基于hive的sql操作,2基于mllib的机器学习模型

1.Spark On Hive:在R下通过sql命令可完美支持对hive的增删改查;

2.MLLib的机器学习模型:分为普通机器学习模型和RDD版的机器学习模型,由于Spark目前将逐渐淘汰掉RDD版的API,所以这里不再包含RDD版的API:

1.基本数据统计:无R版,大概是R通过summary等基本命令即可完成;

2.ML Pipelines(数据管道):无R版,大概是R本身就有DataFrame和Data.Table等,可以直接进行数据治理;

3.数据抽取、变换、特征选择:无R版,同上

4.分类和回归:

a.逻辑回归:spark.logit

b.决策树分类器:无R版,原因不明

c.随机森林分类器:spark.randomForest

d.梯度提升树分类器:spark.gbt

e.多层感知器分类器:spark.mlp

f.支持向量机:spark.svmLinear

g.一对多分类器(One-vs-All):无R版,原因不明

h.朴素贝叶斯:spark.naiveBayes

i.线性回归:R只有一个广义线性回归的API: spark.glm

j.决策树回归:无R版,原因不明

k.随机森林回归:spark.randomForest 参数为regression即可

l.梯度提升树回归:同上

m.生存回归(survival regression):spark.survreg

生存分析:通过研究个体间的相似性,预测个体的生存时间,主要用于生物寿命预测或机器设备寿命预测,详见:http://blog.csdn.net/jaen_tail/article/details/79081954

n.保序回归(isotonic regression):spark.isoreg

保序回归:在不改变数据集顺序的前提下进行回归分析,主要用于药品毒性分析,详见:http://blog.csdn.net/legotime/article/details/51836014

5.聚类:

a.K-means:spark.kmeans

b.LDA:spark.lda

c.二分K均值(Bisecting k-means):spark.bisectingKmeans

d.高斯混合模型(GMM):spark.gaussianMixture

6.协同过滤:spark.als

7.频繁模式挖掘(FP-Growth):spark.fpGrowth

8.模型选择与调参:无R版

综上所述Spark的MLLib并不是一个全面的机器学习框架,也是结合了spark自身业务特点的。

如果使用Spark+R的方式进行机器学习建模时,就需要根据MLLib的现状,合理选择模型方案。

SparkR对R的支持情况相关推荐

  1. 使用modernizr.js检测浏览器对html5以及css3的支持情况

    使用modernizr.js检测浏览器对html5和css3的支持情况 详情请看主页:modernizr主页 1. modernizr 是什么? modernize 是一个js库----一个用于检测当 ...

  2. modernizr 支持html5,使用modernizr.js检测浏览器对html5以及css3的支持情况

    使用modernizr.js检测浏览器对html5和css3的支持情况 1.modernizr 是什么? modernize 是一个js库----一个用于检测当前浏览器对html5&css3 ...

  3. 调研CSS选择器在浏览器中的支持情况

    网上有很多这样的信息,很多的图表对各个浏览器进行比较,关于特性的支持,其实有些不全面,本文就日常常见的一些css选择器进行一个总结(本文在标准模式下). 1)关于:active,:link,:hove ...

  4. 支持html5特性的浏览器,HTML 5浏览器的支持情况

    我经常看到有很多人询问HTML5某个特性当前各浏览器的支持情况.的确,因为HTML5内容庞大,特性众多,而浏览器的支持情况又混杂不一,随时都有可能变化,所以了解起来比较困难.在这里,我汇总了一些常用的 ...

  5. 报表工具流行度以及对linux的支持情况调研

    以前程无忧为例,调研下企业最爱用的BI工具的应用频率 BI工具 前程无忧上的招聘页码数量(页) 与大数据组建的配合使用 对linux的支持情况 Power BI 9页 可以连接kylin来分析hado ...

  6. 华为云.NET Core支持情况调查

    各大公有云都提供了开发者开发的SDK,今天我们来看看华为云对.NET Core的支持情况怎么样? .NET SDK地址 https://developer.huaweicloud.com/sdk#.N ...

  7. IE 浏览器各个版本 JavaScript 支持情况一览表

    不同版本的 Internet Explorer 浏览器支持不同的 JavaScript 元素集.标准模式(有 <!doctype> 指令时 Internet Explorer 所有当前版本 ...

  8. 8种图数据库对 NULL 属性值支持情况

    摘要:在语义网等图模型中,遵循开放世界假设,对于数据中未包含的事实,都认为是未知的而非假的. 本文分享自华为云社区<图数据库对 NULL 属性值支持情况>,原文作者:你好_TT . NUL ...

  9. input 对伪元素(:before :after)的支持情况

    最近做一个自定义视觉效果的Switch组件,用到了 input:radio 和 label,并在label里用伪元素 :before 模拟状态的切换效果. 但是同事评审的时候说可以不用label,直接 ...

最新文章

  1. IntelliJ 创建main函数快捷
  2. 吴恩达朋友圈宣布“喜讯”:AI专家王冬岩加入Landing AI...
  3. Python-turtle标准库知识小结(python绘图工具)
  4. Kafka-Monitor
  5. YOLOv5自定义数据集训练
  6. python中api_通过Python中的API查找相关的工作技能
  7. 【常见笔试面试算法题12续集二】动态规划算法案例2矩阵最小路径和练习题
  8. java工具类应该抛异常吗,java学习阶段一 工具类(异常)
  9. Spring mvc 请求体处理 @RequestBody
  10. VC++调试方法和技巧
  11. volley浅析(磨砺营马剑威Android)
  12. 深度学习自学(十一):Aborted at 1558257386 (unix time)
  13. 书单丨724运维日,为运维人干杯
  14. LINQ TO SQL 如何进行增删改查
  15. 基于Pytorch版yolov5的滑块验证码破解思路
  16. 计算机视觉相关公开数据集(免费下载)
  17. Family Show 3.0分析(一)项目文件结构分析
  18. excel如何删除空白行_Excel小技巧之快速调整列宽行高和删除空白行
  19. 密钥协商算法的演变 —— RSA算法 - DH算法 - DHE算法 - ECDHE算法
  20. JavaScript入门学习指南

热门文章

  1. 关于在web项目中实现本地打印
  2. python数据库应用开发实例_纯Python开发的nosql数据库CodernityDB介绍和使用实例
  3. FDDWNET:模型参数仅为0.8M,速度和准确率综合性能在轻量级分割网络中达到SOTA
  4. 创建一个栈存储结构,并且写入一些对栈的基本的操作
  5. JS中的offsetWidth, clientWidth, scrollWidth, innerWidth, outerWidth, pageXOffset
  6. 第四课.KNN电影推荐
  7. 接口测试用例设计思路_用了Swagger2后,接口设计文档,测试用例都不用自己写了,爽...
  8. postgresql 查询序列_时间序列数据库(TSDB)初识与选择
  9. 在 VS Code 里逛知乎、发文章?Zhihu on VSCode 来啦!重新定义内容创作!
  10. 在线作图|2分钟画一张堆叠面积图