来源:全球人工智能

概要:在过去的这些年,为了构建基础设施,数据社区专注于聚集和收集数据,并使用数据来改进决策。

为了成为一个机器学习公司,你需要工具和流程去克服数据、工程和模型方面的挑战。

在过去的这些年,为了构建基础设施,数据社区专注于聚集和收集数据,并使用数据来改进决策。我们现在可以看到,对先进的分析和机器学习的兴趣在许多行业的垂直方领域上激增。

在这篇文章中,我分享了我去年9月在纽约Strata Data 公司发布的一篇演讲中的幻灯片和笔记,为大家提供一些对增强公司机器学习能力的建议。这些信息来自于在许多不同的问题领域中,应用机器学习的前沿的实践者、研究人员和企业家的对话。

与其他技术或方法一样,一个成功的机器学习项目从确定正确的用例开始。例如,机器学习推荐和减少客户流失的应用有很多,但对于应用程序来说,一个有用的分类有如下几点:

1.提高决策的应用程序

2.改进商业运营的应用程序

3.产生收入的应用程序

4.可以帮助预测或防止欺诈或风险的应用程序

为了成为一个“机器学习公司”,当你开始构建模型时,首先你要熟悉你将要面对的关键障碍是什么。如果你咨询主要的从业者,通常会有三件事:

1.数据:现在大多数应用都依赖于监督学习,所以一切都从质量良好的标记(训练)数据集开始。

2.工程:你如何使用一个原型并生产它?在部署到生产环境之后,如何监视模型?

3.模型:虽然现代的机器学习库使你更容易将模型与你的数据匹配,但仍然存在一些挑战

在这篇文章的剩余部分,我将讲解如何面对这些挑战。

在构建用于训练机器学习模型的标记数据集时,使用已访问的数据非常重要。随着新的数据源不断地出现在网络上,对大多数公司来说,数据集成是一项正在进行的工作——你目前对数据基础设施的投资甚至可以让你获得足够的数据来启动。你还可以使用公开的(开放的)数据或你可以从第三方提供商购买的数据来丰富现有的数据集。

好消息是机器学习社区意识到训练数据是一个主要的瓶颈。所以研究人员一直致力于那些让你从较少的训练数据(弱监督)开始或者允许你将一个问题中得到的知识用于另一个环境(转移学习)的研究。

随着数据越来越重要,有一些初创公司和公司在探索数据交换。数据交换使组织可以在保护隐私和机密的同时共享一些数据。同时,也有一些类似的研究,致力于开发安全的机器学习算法。在消费者金融领域存在应用欺诈检测,例如,如果隐私和安全能够得到保证,那么在机密数据上共享学习可能是有价值的。

今年早些时候,我们观察到,公司开始在构建机器学习模型和监控他们的行为方面创造了一个新的角色。但是机器学习工程师的新角色真的是必要的吗?

对于越来越多的公司来说,答案是:是的,这样的专家很需要。如果你创建了一个你需要知道的关于生产和监控模型的清单,那么你将得到一组广泛的工具和技术。

机器学习的研究正在飞速发展。公平地说,大多数公司都无法跟上研究人员发布的所有新技术和新工具。想象以下的实验:在接下来的五年里,进展会停滞不前(非常不可能,自我幽默一下)。我认为,有足够的工具可以让公司在很长一段时间里保持忙碌。

深度学习,一种已经成功应用于计算机视觉和语言问题的技术。大多数公司仍处于将深度学习应用于熟悉的数据类型(文本、时间序列、结构化数据)或使用它来替换现有模型(包括它们当前推荐系统)的早期阶段。我希望在接下来的几年里能看到许多有趣的,涉及到深层神经网络(DNN)的案例研究,。

随着关于深度学习的所有激动人心的一面,我们有时会忘记有很多有趣的,不依赖于神经网络的新数据应用。

随着模型被推向先进设备,我对最近在协作学习方面的工作感到兴奋。展望人工智能,在线学习和持续学习的工具将是必不可少的。

数据社区开始认识到,除了优化定量或业务指标之外,还需要更多的模型。模型是否强大到能抵御对抗性攻击?在某些应用程序模型中必须是可解释和可理解的。

公平:你了解你的训练数据的分布情况吗?如果你不了解,请注意过去的忽视可能会导致未来的忽视。

透明度:随着机器学习变得越来越流行,用户对那些被最优化的计量机构的了解和发言权越来越感兴趣。

尽管近年来这一领域取得了很大进展,但研究人员和理论家们仍不清楚这一点。我们仍然处在一个“试错”的时代。深度学习可能减少了对人工特征工程的需求,但是仍然有很多决策倾向于建立一个DNN(包括网络架构和许多超参数的选择)。

我们可以把模型构建看作是探索机器学习算法的空间。企业需要能够以一种有原则和高效的方式进行探索。这意味着维护可重复的管道,从实验中节省元数据,协作工具,并利用最近的研究成果。

那么,公司在做什么来让这种探索成为可能呢?大多数机器学习都需要标记(训练)数据,因此任何平台都从输入数据存储系统的强大数据管道开始,数据科学家和机器学习工程师可以访问这个数据存储系统。对于所有公司来说,数据集成是一项重要的、持续的练习。

公司还允许数据科学家共享特征和生成这些特征的数据管道。让你了解特性的相对重要性:让公司告诉你他们使用的是什么算法通常会容易得多;而要让他们描述什么对他们的模型是最重要的,则困难得多。

领先的公司让他们的数据科学家使用几个机器学习库。强迫你的数据科学家使用一两个“开发中的”库是很疯狂的。他们需要能够进行实验,这可能意味着让他们使用各种各样的库。

有些公司为生产机器学习模型提供工具,并在部署后监控它们。公司还在使用开源技术构建自己的部署和监控工具。如果你正在寻找一个用于模型部署和监控的开源工具,Clipper是加州大学伯克利分校的崛起实验室的一个新项目,它现在可以让你轻松地部署使用几个流行的机器学习库编写的模型。更重要的是,Clipper团队很快就添加了模型监控。(几家公司将在2018年3月的Strata Data San Jose,描述他们如何实现模型部署和监控)。

要成为一个“机器学习公司”,你需要工具和流程来克服数据、工程和模型方面的挑战。公司刚刚开始在他们的产品中使用和部署机器学习。工具仍在不断完善,最佳实践才刚刚开始出现。

AI时代,企业如何利用机器学习技术驱动业务发展?相关推荐

  1. 美国银行将 AI 应用于企业应收账款处理;联合国或将利用机器学习技术帮助救灾工作...

    8 月 24 日消息,据外媒报道,美国银行(Bank of America)与 Fintech 创业公司 High Radius达成合作,将人工智能应用于企业应收账款处理.该应用程序专为大型.复杂的公 ...

  2. 基础、数据、开发、部署,AI 时代企业的全方位升级

    当"AI+"的趋势无可回避,企业领导者们需要比过往更认真地思考,如何适应全新的AI时代和其所代表的未来发展趋势. 头图来源 | 视觉中国 当AI成为基础设施 眼下,已经没有企业的领 ...

  3. 走进AI时代的文档识别技术 之文档重建

    导读:作者系腾讯QQ研发中心--CV应用研究组的totoralin.本文主要介绍基于深度学习的文档重建框架,通过文档校正.版面分析.字体识别和阅读排序将纸质文档智能转成可编辑的电子文档.相比较传统的O ...

  4. 数字时代,企业如何利用链路营销驱动增长

     关注ITValue,看企业级最新鲜.最价值报道! 2000年,麦肯锡咨询公司在<麦肯锡季刊>中提出了"数字品牌化(Digital Branding)"的概念,在互联网 ...

  5. 走进AI时代的文档识别技术 之表格图像识别

    导读:作者系腾讯QQ研发中心--CV应用研究组的yonke.本文主要介绍基于深度神经网络的表格图像识别解决方案. 1.前言 1.1背景 大多数人日常办公处理的文件,无非就是表格和文档,其中表格的重要性 ...

  6. AI时代,中国技术创新如何弯道超车?

    2019 年 5 月 26 日 - 27 日,杭州国际博览中心,由工信部人才交流中心指导,CSDN 和数字经济人才发展中心主办的 CTA 核心技术及应用峰会圆满落下帷幕.本次大会聚焦机器学习.知识图谱 ...

  7. AI 时代,中国技术创新如何弯道超车?

    2019 年 5 月 26 日 - 27 日,杭州国际博览中心,由工信部人才交流中心指导,CSDN 和数字经济人才发展中心主办的 CTA 核心技术及应用峰会圆满落下帷幕.本次大会聚焦机器学习.知识图谱 ...

  8. 人工智能和机器学习技术推动企业发展

    IT主管们已经开始收获人工智能和机器学习技术所带来的回报.最近的一项调查显示,随着经济遭遇重创,有一半的主管正在考虑加大投资能够带来收益的人工智能和机器学习技术. 到目前为止,我们大多数人都知道,在当 ...

  9. IBM: 告别1.0迎接2.0,企业咨询进入技术驱动新时代

    这是一个充满不确定性的时代.技术的日新月异,使得我们不得不推翻之前已经建立的各种成熟的商业模式.运营和管理体系等,而去不断探索.试错.修正,从而在不确定的大环境中找寻更确定的自己. 刚刚结束的由IBM ...

最新文章

  1. spring boot hello world 搭建
  2. 如何在ASP.Net 中把图片存入数据库
  3. not optimal php,php环境配置 配置
  4. 使用 MYSQLBINLOG 来恢复数据
  5. django连接redis(文章看着不错)
  6. 计算机网络安全基础知识笔记
  7. Spring思维导图,让Spring不再难懂(cache篇)
  8. mybatis审查要点
  9. 前端 | 每天一个 LeetCode
  10. java冒泡排序_冒泡排序法丨java、python冒泡排序实现代码
  11. 问题1、图像分割预测时原始图片大小与预测图片大小不一致
  12. centos7.3根目录空间扩展
  13. 【计算视觉】理解图像中基本概念:色调、色相、饱和度、对比度、亮度
  14. Python中的关键字的用法
  15. MPLAB 安装 mmc 报错需要安装web相关插件
  16. 游戏的汇总,在github和码云上找的,主要是安卓游戏,还有垃圾分类游戏
  17. 错误处理 宏 c语言,C语言零基础教程之预处理和宏定义篇
  18. 错误: 找不到或无法加载主类 com.xxxx.xxx.Application
  19. 标签打印软件如何批量打印茶叶标签
  20. python 读取excel表格某列数据

热门文章

  1. 独家 | 教你用Scrapy建立你自己的数据集(附视频)
  2. 最强通道注意力来啦!金字塔分割注意力模块,即插即用,效果显著,已开源!...
  3. 青出于蓝而胜于蓝,这是一款脱胎于 Jupyter Notebook 的新型编程环境
  4. 数字经济时代,算力到底有多重要?
  5. 互联网普适性职业生涯?
  6. 中汽创智科技首席人工智能官丁华杰:AI赋能自动驾驶的几点思考
  7. 一些NLP的面试问题
  8. 顶会「扩招」,一地鸡毛:ICLR2020近半数审稿人未发过相关论文
  9. 谈一谈安防行业人工智能发展情况
  10. 「AI初识境」什么是深度学习成功的开始?参数初始化