向导

  • 介绍
    • MML

介绍

  LightGBM是使用基于树的学习算法的梯度增强框架。它被设计为分布式且高效的,具有以下优点:

  • 训练速度更快,效率更高。
  • 降低内存使用率。
  • 更好的准确性。
  • 支持并行和GPU学习。
  • 能够处理大规模数据

  LightGBM比XGBoost快将近10倍,内存占用率大约为XGBoost的1/6,并且准确率也有提升。官网地址:https://lightgbm.readthedocs.io/en/latest/

MML

  由于LightGBM是python版的,而sparkML并不原生支持LightGBM,所以我们使用了微软的LightGBM On Spark,即MML项目。
  官网地址:https://mmlspark.blob.core.windows.net/website/index.html
  github地址:https://github.com/Azure/mmlspark

maven坐标:

 <dependency><groupId>com.microsoft.ml.spark</groupId><artifactId>mmlspark_2.11</artifactId><version>0.18.0</version></dependency><dependency><groupId>com.microsoft.ml.lightgbm</groupId><artifactId>lightgbmlib</artifactId><version>2.2.350</version></dependency>

相关jar包地址:
mmlspark:https://repo1.maven.org/maven2/com/microsoft/ml/spark/mmlspark_2.11/
lightgbmlib:https://repo1.maven.org/maven2/com/microsoft/ml/lightgbm/lightgbmlib/

SparkML -- LightGBM On Spark相关推荐

  1. [机器学习] LightGBM on Spark (MMLSpark) 使用完全手册

    一 Spark上训练模型优势与劣势 (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用一般的Hadoop分布式计算框 ...

  2. 解读微软开源MMLSpark:统一的大规模机器学习生态系统

    AI前线导读:目前,有很多深度学习框架支持与Spark集成,如Tensorflow on Spark等.然而,微软开源的MMLSpark不仅集成了机器学习框架(CNTK深度学习计算框架.LightGB ...

  3. lightGBM专题2:基于pyspark在spark平台下lightgbm训练详解

    数据集 这里以数据集flight_weather.csv为例,文件下载地址:flight_weather.csv,将flight_weather.csv上传到hdfs,这里上传到目录/home/,必须 ...

  4. Spark Machine Learning(SparkML):机器学习(部分二)

    目录 6.分类和回归 6.1分类(Classification) 逻辑回归(LR) 决策树分类器(DTC) 随机森林分类器(RFC) 梯度提升树分类器(GBTC) 多层感知器分类器(MLPC) 线性支 ...

  5. 全面对比,深度解析 Ignite 与 Spark

    经常有人拿 Ignite 和 Spark 进行比较,然后搞不清两者的区别和联系.Ignite 和 Spark,如果笼统归类,都可以归于内存计算平台,然而两者功能上虽然有交集,并且 Ignite 也会对 ...

  6. 开源|LightGBM:三天内收获GitHub 1000+ 星

    原创 2017-01-05 LightGBM 微软研究院AI头条 [导读]不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天 ...

  7. 集成spark_全面对比,深度解析 Ignite 与 Spark

    经常有人拿 Ignite 和 Spark 进行比较,然后搞不清两者的区别和联系.Ignite 和 Spark,如果笼统归类,都可以归于内存计算平台,然而两者功能上虽然有交集,并且 Ignite 也会对 ...

  8. Ignite与Spark内存计算平台对比分析

    为什么80%的码农都做不了架构师?>>>    经常有人拿Ignite和Spark进行比较,然后搞不清两者的区别和联系.Ignite和Spark,如果笼统归类,都会归类于内存计算平台 ...

  9. python - 机器学习lightgbm相关实践

    相关文章: R+python︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读 python︱sklearn一些小技巧的记录(训练集划分/pipellin ...

最新文章

  1. 七、106页第40题(类的继承)
  2. stm32中断优先级快速入门
  3. java 生成.sh文件,Java 生成Bat或SH文件,调用Sqlldr安插数据到Oracle
  4. springmvc+jpa实现分页的两种方式
  5. BitMap-BitSet(JDK1.8)基本使用入门
  6. TortoiseGit的安装使用
  7. java基础—对象转型
  8. 马云曾卖鲜花,柳传志卖冰箱!摆摊吧,程序员!
  9. java本地储存set_没有数据库的情况下,JAVA如何在本地保存信息
  10. Java图书管理系统(代码及详解)
  11. 顺序栈的实验报告c语言,顺序栈的基本操作(C语言)
  12. Nginx源码编译安装
  13. 中国物联网、物联网卡进入蓬勃发展阶段
  14. Linux系统CentOS 7中安装配置JDK
  15. matlab求广义逆及线性方程组的解
  16. “AI四小龙”神话破灭?依图终止IPO,云从大裁员,旷视巨亏不止
  17. 查看手机 ip 地址的方法
  18. pojo与entity
  19. 在Ubuntu 16.04上安装和配置VNC
  20. 随机产生10个整数;设计一个算法找其中的最大的元素和最小的元素,并统计元素之间的比较次数

热门文章

  1. 期望、方差、标准差、协方差、正太分布、分布
  2. 创作者基金 11 月亮点
  3. Python实现地图四色原理的遗传算法(GA)着色实现
  4. 猿创征文|聊一聊我在字节跳动做项目质量改进的经验
  5. termux 安装 kali
  6. 解决报错npm ERR request to https://registry.cnpmjs.org/wangeditor failed, reason: Hostname/
  7. java.sql.SQLException: Access denied for user ''@'localhost' (using password: YES)出现原因及解决方法
  8. Matlab数值分析编程:牛顿下山法解方程
  9. 源码资本宣布完成人民币四期38亿新基金募集
  10. 刀片服务器改台式电脑_详解刀片服务器如何走向融合