https://www.toutiao.com/a6638521684594786819/

希望使AI有别于其他公司的方法就是使用差异化的数据集,自己构建数据集是一个差异化方法之一。

随着机器学习 - 或人工智能 - 商业化的进行。 竞相同时定义和实现机器学习的公司惊讶地发现,实施用于使机器智能化的数据集或问题的算法很容易。 从谷歌TensorFlow的开源机器学习框架到微软的Azure机器学习和亚马逊的SageMaker,有一系列强大的即插即用解决方案可以轻松实现繁重的程序化提升。

然而,没有变得商品化的是数据。 相反,数据正在成为机器学习竞赛中的关键区分因素,这是因为适合的数据集并不常见。

实用数据:有价值和稀有

数据正在成为一种差异化因素,因为许多公司没有他们需要的数据。 虽然公司已经使用普遍接受的会计原则以系统的方式衡量了自己数十年,但这种衡量方法长期以来一直专注于物质和金融资产 - 事物和金钱。 2013年,诺贝尔奖甚至被授予资本资产定价,从而加强了这些公认的优先事项。

但今天最有价值的公司在软件和网络上进行交易,而不仅仅是实物和资本资产。 在过去40年中,资产重点已完全翻转,从1975年有形资产占83%的市场到2015年无形资产的84%。今天的企业巨头不再制造咖啡壶和销售洗衣机,而是提供应用并联系人们。 这种转变造成了我们衡量和实际推动价值之间的巨大不匹配。

结果是有用的数据很少见。市场和账面价值之间的差距越来越大。由于这种差距,公司正在竞相将机器学习应用于重要的业务决策,甚至取代他们的一些昂贵的顾问,只是意识到他们所需的数据甚至还不存在。实质上,把想象中的新AI系统将新技术应用于相同的旧业务。

就像人一样,机器学习系统在只有在人们训练他后,才能变得聪明。为了获得智能,机器需要比人类更多的数据 - 尽管如此,他们确实能够更快地读取数据。因此,虽然随着公司引进机器学习并启动人工智能计划,会出现明显的军备竞赛,但也存在针对新数据和不同数据的幕后恐慌。

例如,在金融领域,替代数据超出了传统的证券交易委员会报告和影响投资决策的投资者报告。其他数据,例如社交媒体情绪或授予的专利数量,对于以上两个报告也是至关重要。首先,传统数据侧重于传统资产,而在无形资产时代则不够广泛。其次,没有理由使用机器学习来研究市场上其他人正在分析的相同数据集。每个感兴趣的人都已经尝试将行业趋势,利润率,增长率,利息和税前收益,资产周转率和资产回报率联系起来 - 以及1000多个其他常见报告的股东回报变量。

寻找其他人拥有的相同材料组之间的联系并不能帮助公司获胜。相反,想要使用人工智能作为差异化因素的公司必须找到新数据集之间的关系 - 他们可能必须创建自己的数据集来衡量无形资产

仔细考虑:你想知道什么?

数据创建比简单地聚合销售点或客户信息并将其转储到数据库中更复杂:大多数组织错误地认为,权宜之计涉及收集每一块可能的数据,并精心梳理所有数据,希望找到一丝洞察力 - 预测或分类他们关心的东西的难以捉摸的特征。

虽然机器学习偶尔会让我们惊讶,但没人能搞清楚它的细节,以及让它保持结果的一,但这并不意味着不靠谱。这意味着我们必须明智地应用它。这说起来容易做起难:例如,在我们对替代数据市场的研究中,我们发现超过一半的新数据提供商仍然专注于衡量实物和金融资产。

许多公司省略的步骤是创建一个关于重要事项的假设。机器学习真正擅长的地方在于洞察人类所拥有的洞察力 - 一种基于经验法则,广泛认知或理解不足的关系 - 以及开发更快,更好理解,更具可扩展性(且不易出错)的方法来应用洞察力。

为了以这种方式使用机器学习,您不会在任何相关字段中为每个已知数据点提供系统。你给它提供了一套精心策划的知识,希望它可以学习,也许可以在边缘扩展人们已有的知识。

富有洞察力的机器学习来自不同的数据

以下三点是对所有希望创建有影响力和有价值的机器学习系统公司的建议:

1、差异化数据是AI成功的关键。您不希望在和竞争对手相同的数据集上进行训练。在内部查看并确定您的组织唯一了解和理解的内容,并使用这些见解创建独特的数据集。机器学习应用程序确实需要大量数据点,但这并不意味着模型必须考虑广泛的功能。将您的数据工作集中在您的公司已经与众不同的地方。

2、有意义的数据优于综合数据。您可能拥有关于某个主题的丰富详细数据,这些数据并不是非常有用。如果您的公司不会使用该信息来帮助临时决策,那么从机器学习的角度来看,这些数据可能不会有价值。专业的机器学习架构师会问你关于哪些领域真正重要的棘手问题,以及这些领域如何对你所获得的见解的应用产生影响。如果这些问题很难回答,那么你就没有考虑产生实际价值所需的想法了。

3、你知道的应该是起点。最好地利用机器学习的公司首先要了解对于他们做出重要决策最重要的事情。这将指导他们了解要收集哪些数据,以及使用哪些技术。一个容易开始的地方是扩展和发展您的团队已有的知识,这可以为组织创造更多价值。

很明显,软件已经吞噬了世界(软件企业家Marc Andreessen创造的一句话)。 但它仍然很饿! 软件需要稳定的新数据和新技术相结合,以继续增加价值。

您不希望被洞察力,机器和数据集的这种转变所遗忘。 从内部开始,以确定您可以生成的独特视角和有价值的数据集。 通过这些步骤,您将发现相关的创新思路,以保持您的组织的竞争力。

机器学习竞赛实际上是一场数据竞赛相关推荐

  1. 《数据竞赛白皮书·下篇》发布,开源办好一场数据竞赛的实践方法论

    两周前,我们发布了<数据竞赛白皮书·上篇·1000场竞赛的深度分析>,通过28000字的研究分析.54个高品质图表,讲透了数据竞赛行业发展,带领大家看懂了竞赛高热度背后的逻辑. 上篇发布后 ...

  2. 机器学习竞争其实是一场数据上的竞争

    来源:网络大数据 摘要:人工智能的三大发展要素已经是老生常谈了.算法.算力和数据对机器学习的重要性和声望不亚于"谦哥"的喝酒.烫头和抽烟. 那些热衷竞争实施机器学习的公司现在惊讶地 ...

  3. 数据竞赛:第四届工业大数据竞赛-虚拟测量

    原文首发于我的公众号 背景 注塑成型作为做常见的一种塑料制品加工工艺,它所加工的产品在生活中随处可见,例如电子产品.汽车配件.玩具以及其他众多消费品.由于成型系统较为复杂并且对环境较为敏感,注塑成型加 ...

  4. 《数据竞赛白皮书》发布:竞赛核心价值及促进人才数字化转型

    近年来,"数据竞赛"已经成为大数据与人工智能领域的热门话题.据不完全统计,2014年开始,全球赛事超1000场,仅中国的竞赛场次年均增长达108.8%,累计超120万人次参加,奖金 ...

  5. 赛后总结:第四届工业大数据竞赛注塑成型

    赛后总结:第四届工业大数据竞赛注塑成型 原文首发于我的公众号 前言 以第四届工业大数据竞赛虚拟量测任务为例,介绍大家的思路.自己代码乱写,导致不知道最后要复现的是哪个,加上工作上各种人员优化,就没有进 ...

  6. 【数据竞赛】Kaggle竞赛宝典国内外竞赛方案汇总

    本文汇总了kaggle竞赛宝典将近50个竞赛的Top方案&思路&代码.关注"kaggle竞赛宝典"并在后台输入"竞赛宝典",还将获得5个kagg ...

  7. 阿里巴巴大数据竞赛(2014年3月10日到11月)

    大赛简介 阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴大数据科研平台--"天池"上开展的,基于天猫海量真实用户的访问数据的推荐算法大赛. 本次比赛的目的是让广大的高校同学在大数 ...

  8. 从理论到实践,Top选手带你进入数据竞赛的大门

    做技术怎么快速提升?能够拿公司实际生产运营中的项目提升自己的能力固然是好,但如果接触不到优质的项目,又该怎么办呢? 项目不够,比赛来凑的说法相信大家都不陌生.有的人会说:道理我都懂,但我仍然打不好比赛 ...

  9. 大学生研究生必备的数据竞赛平台

    数据竞赛平台 国内外常见的数据竞赛平台: 国外竞赛平台: Kaggle DrivenData Colalab CrowdAI Kelvins Signate analyticsvidhya 国内竞赛平 ...

最新文章

  1. 奇妙的算法之LCS妙解
  2. 几种USB控制器类型:OHCI,UHCI,EHCI,XHCI
  3. django验证码模块使用
  4. php使用mkdir创建多级目录入门例子
  5. 我的SAP Hybris学习笔记
  6. 在PAT上提交Java代码
  7. 如何与Ansible共同托管GitHub和GitLab
  8. BZOJ3997 TJOI2015组合数学(动态规划)
  9. 基于python下django框架 实现旅游景区景点售票系统详细设计
  10. 可能是世界上最快、最先进的密码恢复程序!
  11. 《冰河世纪》特效指导罗皓做客【ftrack聊天室】
  12. 小菜成长记---【proxy 代理模式 ---西门庆干潘金莲——王婆做代理】
  13. 华为手机SD卡升级指导
  14. Invalid bound statement (not found): com.exam.mapper.UserMapper.findbyid
  15. pandas取出特定行列数据
  16. 手机html流星雨代码,流星雨(示例代码)
  17. nodejs express搭建服务器(爬虫知乎精华帖,个人学习用)六 在express中建立路由
  18. Coda 2.7.7 强大的Web编辑器
  19. 以300亿美元收购塞纳,甲骨文为何这么迫切?
  20. 有一点点自恋和臭屁的嫌疑

热门文章

  1. 读这部IT小说时,我有一种看英雄大片的莫名感动
  2. 韦世东:计划 35 岁「退休」的资深爬虫工程师
  3. 用Java实现单向链表
  4. 数据变异性的度量 - 极差、IQR、方差和标准偏差
  5. SIMILAR:现实场景中基于子模块信息度量的主动学习
  6. 11个问题助你彻底搞懂工业互联网
  7. IEEE最新薪资报告 | 手机开发者年入153万,机器学习并非最高(附链接)
  8. 我潜入清华神秘实验室,用脑机接口写了两句诗
  9. LeetCode: 344. Reverse String
  10. 吃惊!江苏抽查发现,144篇硕士学位论文不合格,部分单位将被约谈