微软亚洲研究院开源分布式机器学习工具包

为了满足研究人员和开发者日益增长的各种需求,微软亚洲研究院于日前将分布式机器学习工具包(DMTK)通过Github开源。DMTK由一个服务于分布式机器学习的框架和一组分布式机器学习算法构成,是一个将机器学习算法应用在大数据上的强大工具包。

无论是学术界的研究人员还是工业界的开发者,DMTK可以帮助他们在超大规模数据上灵活稳定地训练大规模机器学习模型。当前版本的工具包包含以下几个部分:

1. DMTK分布式机器学习框架:它由参数服务器和客户端软件开发包(SDK)两部分构成。参数服务器在原有基础上从性能和功能上都得到了进一步提升——支持存储混合数据结构模型、接受并聚合工作节点服务器的数据模型更新、控制模型同步逻辑等。客户端软件开发包(SDK)支持维护节点模型缓存(与全局模型服务器同步)、节点模型训练和模型通讯的流水线控制、以及片状调度大模型训练等。

2. LightLDA:LightLDA是一种全新的用于训练主题模型,计算复杂度与主题数目无关的高效算法。在其分布式实现中,我们做了大量的系统优化使得LightLDA能够在一个普通计算机集群上处理超大规模的数据和模型。例如,在一个由8台计算机组成的集群上,我们可以在具有2千亿训练样本(token)的数据集上训练具有1百万词汇表和1百万个话题(topic)的LDA模型(约1万亿个参数),这种规模的实验以往要在数千台计算机的集群上才能运行。

3. 分布式词向量:词向量技术近来被普遍地应用于计算词汇的语义表示,它可以用作很多自然语言处理任务的词特征。我们为两种计算词向量的算法提供了高效的分步式实现:一种是标准的word2vec算法,另一种是可以对多义词计算多个词向量的新算法。

此外,DMTK提供了丰富且易用的API接口,能够有效降低分布式机器学习的门槛。机器学习的研发人员只需要专注于数据、模型和模型训练等机器学习的核心逻辑部分。

DMTK还将在未来的版本中提供更多的功能和算法。我们希望开源分布式机器学习工具包可以促进学术界和工业界在大规模机器学习方面的创新。更多信息,请访问http://www.dmtk.io/。

微软亚洲研究院开源分布式机器学习工具包相关推荐

  1. 微软亚洲研究院开源图数据库GraphView

    好消息!微软亚洲研究院开源图数据库GraphView 发表于8小时前| 885次阅读| 来源CSDN| 0 条评论| 作者张勇 微软亚洲研究院GraphView width="22" ...

  2. 中国AI半壁江山:微软亚洲研究院20年20大创业公司

    转自:量子位 (公众号 ID: QbitAI)授权转载,转载请联系出处. △ 当年.图片来自@MSFTResearch 微软亚洲研究院(MSRA)20周岁了. 这20年里,发表论文5000多篇,和30 ...

  3. 微软亚洲研究院机器学习组的首席研究员刘铁岩谈AI

    作者:微软亚洲研究院 链接:https://www.zhihu.com/question/46563853/answer/153380355 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权, ...

  4. 今晚8点直播 | 微软亚洲研究院副院长刘铁岩:机器学习技术前沿与未来展望

    人工智能正受到越来越多的关注,而这波人工智能浪潮背后的最大推手就是"机器学习".机器学习从业者在当下需要掌握哪些前沿技术?展望未来,又会有哪些技术趋势值得期待? AI科技大本营联合 ...

  5. 北京内推 | 微软亚洲研究院机器学习组招聘AI for Health实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 微软亚洲研究院 微软亚洲研究院机器学习组致力于从算法.应用和理论层面推进人 ...

  6. 北京内推 | 微软亚洲研究院机器学习组招聘研究型实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 微软亚洲研究院 微软亚洲研究院机器学习组从理论.算法.应用等不同层面推动机 ...

  7. 北京内推 | 微软亚洲研究院机器学习组招聘强化学习方向研究型实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 微软亚洲研究院 微软亚洲研究院机器学习组从理论.算法.应用等不同层面推动机 ...

  8. 周四直播 | 微软亚洲研究院副院长刘铁岩:机器学习技术前沿与未来展望

    人工智能备受关注.取得革命性进步背后的最大推手是"机器学习".机器学习从业者在当下需要掌握哪些前沿技术?展望未来,又会有哪些技术趋势值得期待? AI科技大本营联合华章科技特别邀请到 ...

  9. 北京内推 | 微软亚洲研究院机器学习组招聘AI for Science研究实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 微软亚洲研究院 微软亚洲研究院机器学习组从理论.算法.应用等不同层面推动机 ...

最新文章

  1. GIS中的坐标系定义与转换
  2. 【转】【RDS教程】专业DBA速成 - CPU优化篇
  3. 2016.01.19 UITextField
  4. Myeclipse8.5配置本地tomcat
  5. 科大星云诗社动态20210820
  6. XCTF WEB weak_auth
  7. 关于空值null的排序问题 mysql 和oracle
  8. 数据说话,88000条数据绘制北京市地图
  9. 学妹问我,并发问题的根源到底是什么?
  10. Solr.NET快速入门(七)【覆盖默认映射器,NHibernate集成】
  11. Android开发 Facebook取得key-hashes
  12. Java实现归并排序(转)
  13. HBASE table导出到文件的方法
  14. c#json对象转数组_如何将Json数组转换为C#中的对象列表
  15. 什么样的程序员适合去创业公司
  16. 2018-8-10-win10-uwp-读取保存WriteableBitmap-、BitmapImage
  17. Flutter listview下拉刷新 上拉加载更多 功能实现
  18. 二进制部署kubernetes 1.25.5(二)
  19. 类似蒲公英的APP打包发布平台
  20. 股市资深大牛用Python写了个股票价格实时MacOS应用程序!实时监控!

热门文章

  1. 怎么git 自己建的服务器_如何搭建自己的git服务器
  2. java 10新_【Java基础】Java10 新特性
  3. leetcode算法题--斐波那契数列
  4. OVS openflow(二十四)
  5. 揭开webRTC媒体服务器的神秘面纱——WebRTC媒体服务器开源项目介绍
  6. Shell中的${ }、#、##、%、%%使用范例
  7. wap问答系统工作总结
  8. 对页面制定区域进行打印,以及打印不显示页脚URL的方法
  9. AC日记——斗地主(dfs)
  10. MongoDB记录操作日志的Base类实现