现在,人工智能正在为越来越多的计算功能提供支持,今天,俄罗斯搜索巨头Yandex宣布,将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据稀疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候,CatBoost也能根据事务型数据或历史数据进行操作。

今天,CatBoost以两种方式进行了亮相。

首先,Yandex宣布,将在自有服务中使用这款新的框架替换原来的机器学习算法MatrixNet。MatrixNet一直被应用在公司的很多业务上,比如排名、天气预报、出租车和推荐业务。现在,业务正在逐步从MatrixNet切换到CatBoost上来,并将延续几个月。

其次,Yandex将免费提供CatBoost库,任何希望在自己的程序中使用梯度提升技术的人员都可以在Apache许可证下使用这个库。 Yandex机器智能研究主管Misha Bilenko在接受采访时表示:“CatBoost是Yandex多年研究的巅峰之作。我们自己一直在使用大量的开源机器学习工具,所以是时候向社会作出回馈了。” 他提到,Google在2015年开源的Tensorflow以及Linux的建立与发展是本次开源CatBoost的原动力。

Bilenko补充说到,暂时还没有计划将CatBoost商业化,或以任何专利的形式将其闭源。 “这和竞争对手无关,”他说,“我们很高兴有竞争对手使用它”

长期以来,随着Yandex的不断发展,它一直在寻求提升俄语世界之外的国际地位。本次开源举动不仅仅是Yandex对开源社区的承诺,而且也展示了Yandex希望成为大型科技公司与开发者社区发展中心的决心。

就像Google持续地扩展和更新Tensorflow一样,今天的CatBoost版本是其第一个版本,以后将持续更新迭代。目前,这个库主要有三个特点:

“减少过度拟合”:这可以帮助你在训练计划中取得更好的成果。它基于一种构建模型的专有算法,这种算法与标准的梯度提升方案不同。

“类别特征支持”:这将改善你的训练结果,同时允许你使用非数字因素,“而不必预先处理数据,或花费时间和精力将其转化为数字。”

“API​​接口支持”:可以通过命令行或者基于Python或R的API接口来使用CatBoost,包括公式分析和训练可视化工具。

虽然目前有大量的库可以利用梯度提升或其他解决方案来训练机器学习系统,但Bilenko认为,CatBoost相较其他大型公司使用的框架(如Yandex)的最大优点是测试精准度高。

“有很多机器学习库的代码质量比较差,需要做大量的调优工作,”他说,“而CatBoost只需少量调试,就可以实现良好的性能。这是一个关键性的区别。”

附CatBoost开源代码地址: https://catboost.yandex/

文章原标题《Yandex open sources CatBoost, a gradient boosting machine learning library》,作者:Ingrid Lunden,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost相关推荐

  1. 五眼联盟入侵俄罗斯搜索引擎Yandex,美国不予置评

    五眼联盟,是英美协定下逐渐的情报分享机构,成员有美国.英国.新西兰.澳大利亚和加拿大,可见这几个国家无一例外都是以英语为母语的国家,可见其专门为英语国家提供情报共享. 网传,在冷战时期,五眼联盟推出了 ...

  2. 抢人饭碗了!推荐一款全自动的机器学习建模神器PyCaret

    Datawhale干货 编译:张峰,Datawhale成员 寄语:PyCaret,是一款 Python中的开源低代码(low-code)机器学习库,支持在「低代码」环境中训练和部署有监督以及无监督的机 ...

  3. 解读微软开源MMLSpark:统一的大规模机器学习生态系统

    AI前线导读:目前,有很多深度学习框架支持与Spark集成,如Tensorflow on Spark等.然而,微软开源的MMLSpark不仅集成了机器学习框架(CNTK深度学习计算框架.LightGB ...

  4. Firefox 下拉搜索菜单移除俄罗斯搜索引擎 Yandex 和 Mail.ru

    作者 | 张洁 在 2022 年 3 月 14 日,Mozilla 公司推出了新版本的 Firefox 浏览器,这次的版本为 98.0.1 版本.这次更新有一个很明显的变化,那就是俄罗斯搜索引擎 Ya ...

  5. 如何看待yandex开源clickhouse这个列式文档数据库?

    如何看待yandex开源clickhouse这个列式文档数据库? 大数据云计算 water 5天前 24℃ 0评论 欧阳辰<Druid实时大数据分析>作者,"互联居"作 ...

  6. 文本深度表示模型Word2Vec 简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简

    文本深度表示模型Word2Vec 简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 ...

  7. 开源 , KoobooJson一款高性能且轻量的JSON框架

    在C#领域,有很多成熟的开源JSON框架,其中最著名且使用最多的是 Newtonsoft.Json ,然而因为版本迭代,其代码要兼容从net2.0到现在的最新的net框架,并且要支持.net平台下的其 ...

  8. 别熬夜加班了,Facebook 开源了一款代码推荐神器!| 程序员硬核评测

    近日,科技巨头 Facebook 开源了一款代码到代码的搜索和推荐神器--Aroma,开发者基于此可以轻松找到常见的编码模式而无需手动浏览多个代码片段. 作者 | Celeste Barnaby.Sa ...

  9. python与excel-再见Excel!我开源了一款与Python深度集成的神器级IDE

    再见Excel!我开源了一款与Python深度集成的神器级IDE 这是一款与 Python 深度集成.基于 Web 开发.无需在各个工具之间切换.适用大部分职业工作场景的开源电子表格应用程序.对它的评 ...

最新文章

  1. 百度UEditor开发案例(JSP)
  2. 用js改变embed标签的src值
  3. java的final修饰_java final 修饰符详解
  4. 《测试驱动开发》学习笔记
  5. 只有程序员才懂这些黑色幽默!
  6. mysql导出逗号_Mysql导出逗号分隔的csv文件
  7. 【Flink】flink Operator State 的使用及Redistribute listState UnionListState
  8. 【ElasticSearch】Es 源码之 NodeClient 源码解读
  9. Java 实现线程的两种方式
  10. Windows XP SP3安装后瘦身法
  11. android集成华为push 6003错误,以及华为低版本crash问题
  12. 2018 年 8 月面试路:6 天 21 家公司
  13. 什么是UID、UED、UXD、IXD、UCD、IAD,看这篇就足够了
  14. 实习每日总结_20161212
  15. maka做出好设计_MAKA下载-MAKA做出好设计最新版v4.15.1下载
  16. 带你揭秘华为5G为何地表最强
  17. 【收藏】前端开发必备:前端开发不得不收藏的网站,提高200%开发效率!
  18. 小米平板5pro修改全比例、90帧率和1080p画质
  19. 我的DB2数据库之旅
  20. 苏缇雅专注女士内衣 欲做中国的“维多利亚的秘密”

热门文章

  1. java正则表达式 文件后缀名_正则表达式 判断文件名后缀是否为 csv xls xlsx
  2. Xcode下载安装问题
  3. Java循环案例-求PI值
  4. js怎么实现对html代码加密解密,javascript脚本加密解密及HTML转JS
  5. echarts词云图形状_用Wordcloud生成指定形状的词云图
  6. HTML+CSS+JavaScript复习笔记持更(八)——CSS3常用属性之列表
  7. Qt学习(九):QT中使用线程
  8. 一套Windows上C/C++的编码转换函数
  9. php根据单词截取英文语句,php按单词截取字符串的方法
  10. Java基础day6