适合的读者:

正在思考或者想引入大数据/AI的中小企业的【管理者】或者【大数据部Leader】。当然,其他人也可能能够在这篇文章得到一些收益。

包含的主题:

  1. 价值落地之前,大数据/AI 建设需要跨越的三座大山
  2. 实现价值落地:赋能与创新;实现方式:All in AI。 Why and How.
  3. 分析整个大数据行业发展的三个阶段,以及现在处于什么阶段。(验证了我三年前的一篇文章)

额外的话:

这篇文章不会像之前那样是一个万字长文,更多的是自己在做大数据/AI的一个心得体会,希望能够对正在尝试的人们有些许帮助。

大数据/AI建设的三座大山

数据团队要发挥价值,需要跨越三座大山:

  1. 团队(现在数据/AI 人才本来就比较紧缺,而且已有的基本被 BAT 以及滴滴、美团、小米、海康等等互联网公司垄断),很多部门连团队构建都磕磕盼盼,勉强能前行。
  2. 数据平台 ,虽然发展了这么多年,有个真正能提效的数据平台,让数据顺畅的流转其实是非常困难的。大部分部门仅仅走到这一步。
  3. AI 平台 ,目前仅仅到框架级别,这是远远不够的。

数据团队在走完这三步之前都是烧钱的,属于成本部门,价值产生的很少。之后才能进入 AI 落地阶段,持续产生超过自身成本的价值。

所以自建大数据和 AI 团队,在我看来,对一般中小型公司的业务(包括商业)而言,短期内性价比是非常低的,带来的收益也是有限的,除非该公司就是大数据和 AI 驱动的或者行业属性比较特殊的,这个另当别论。

AI 落地,厚积薄发

大数据部门的常见能力如下:

  1. 报表统计
  2. 算力/存储输出
  3. 推荐/搜索/精准营销等传统产品形态

通常,大数据部门会花费很大的力气构建数据平台,而这个数据平台除了能让研发,算法,分析师等角色爽一些,从宏观角度很大的节省部门人力成本,提高效率以外,似乎对公司/其他业务部门并无一个直接的输出。这也是很多大数据部门领导非常焦虑的地方。

事实上,真正能帮助业务提高效能,提供创新产品的必然是 AI,AI 是一种模式的输出。其价值点,第一个是可以给业务每个环节赋能,比如反垃圾可以减少审核同学的工作量,智能邀请可以减轻运营同学的工作压力;第二个是创新产品,高一点的有比较常见有无人驾驶,智能语音产品,医疗诊断等,低一点的,则可能是某个具体的功能模块对外输出,比如知识图谱。

从上面我们可以看到,数据部门的最大价值,最终会通过AI来进行落地,并且还会给部门/公司提供了极为丰富的想象空间。所以我们需要提出一个“All In AI”的战略。值得注意的是,这个战略是建立在翻越了前面三座大山的前提下。

我们再来总结下:

AI 落地核心体现在哪里呢?其实就是用AI进行赋能和创新,赋谁的能?赋公司内外的能。创什么新?创技术红利的新。所以 AI 落地本质是技术红利+行业所释放出来的增量红利。

赋能的基本手段就是提供“API 服务集市”,这些 API 相较于传统 API 的区别是由 AI 加持。通过 API 服务集市可以充分发挥业务的主观能动性,让他们去发现和组织多个 API 完成一项以前可能不能完成的任务。这样能够让 AI 服务于业务每一个环节。当然,这些 API 依然需要我们去更加深入理解和抽象业务的诉求才能产生。

创新的基本手段则是使用当前较为前沿的技术,比如聊天机器人,比如语音等等,基于这些,我们能够做一些创新产品,而这种产品,可能是业务团队原先比较难以完成的。

那么最核心的问题来了,单单是“API 服务集市”就是一个庞大的工程。我们应该如何才能实现这个“All In AI”的战略,继而实现我们的赋能和创新?

对于这件事情,我们要仔细研究一个核心的东西: 资源。

资源我们又分为:

  1. 平台资源,如果你还在刀耕火种阶段做开发,做算法,那么咱也别谈什么 All in AI 了。
  2. 人力资源,一场大型战争,核心还是在于看能动员的人力资源,但面对海量需求,你是否有足够的人力去应付?
  3. 组织资源,合理的组织是能够极大的释放生产力的。

经过这么多年的发展,平台已经很成熟了。我们知道,AI 平台是基于数据平台的之上的,其结构是一个金字塔形状的。所以第一步你需要有一个良好的数据平台,其次你还需要有一个 AI 平台,让单一算法落地变得容易。

人力资源的问题是个大问题,算法团队再大,也就是大数据部门一个子部门/组。如何在保持现有成本的情况下,扩大人力呢? AI 平台对单一算法(后面我会解释什么是单一算法)问题是非常友好的,可能一个普通的工程师(甚至运营、分析师)都可以完成的。这样,部门所有的人都具备了成为 AI 人力的潜能。我们通过一定的培训和锻炼,可以使得研发,分析等都具备成为 AI 人才的潜力。需要的时候,我们提纯下即可。

回过头来看看,什么是单一算法。所谓单一算法就是具体的某个算法问题,比如对于帖子的情感分类,就是一个标准的文本分类问题。通常一个足够细化的问题,我们可以很容易将其转化为一个分类,回归,排序,规则类算法问题。现阶段,按我的了解,AI 平台通常只能做到针对单一算法的自助化。那么为了让组织更加合理高效,重构数据部门团队就很有必要了。

算法部门需要切分成三个子团队,一个是偏研究性质的,一个是偏业务性质的,还有一个则是 AI 平台和工具团队。业务性质的团队常常需要用到研究性质团队的副产品以及基于 AI 平台和工具团队的产品之上进行工作,同时向他们反馈自己的诉求和问题。

业务算法团队,通常也需要分成两个层级, 一个是解决方案设计者,该角色是将一个实际的业务问题分拆成 N 个算法和工程问题(关于这个角色,还可以参考我早期的一个专题机器学习团队思考)。一个是算法实施者,该角色只是针对单一算法问题的,可以在 AI 平台上很快的解决对应问题的。

研究性质的团队,可以分成三个部分,一个是读 Paper,试图将学术论文转化为工业实践的,一个是算法基础构建,维护比如知识图谱这种非常底层的系统,一个是创新产品,他的目标是利用现有的算法,是否能抽象出新产品。

通过如上方法,有了很好的平台能力,很好的人员基础,加上合理的组织,All In AI 或许变得可能。

大数据三重门,现在是第几重

我三年前写过一篇文章大数据三重门,把大数据/AI 的发展分成了三个阶段:

大数据第一重

这是大数据的第一阶段,也是大数据当前所处的阶段。这个阶段的表象是:

  • 大数据部门在大部分公司遍地开花
  • 大家一拥而上

这一阶段的必然结果是:

  • 大家发现耗费了大量人力物力
  • 终究是收效有限

虽然大部分企业的消耗了大量的资金,却没有带来应有的价值,但带来的一个副产品是

  • 企业花的钱给工业界和学术界
  • 积累了大量的大数据人才

这些人才会在第二重阶段时产生巨大的价值。

为什么我会做出上面的结论?我先说个例子吧,光是搭建一个像样子的数据平台,就需要 5-6 个熟练的大数据工程师折腾大半年,还不包括真正基于之上的多维分析,机器学习(预测)等产品,而这些产品的难度也是很大的,需要大量的人力,关键是还不一定能做好。要达到高效的计算,以及系统的稳定,机器的数量也有不少要求,因为大部分大数据组件都是分布式的。

与此同时,很多人已经意识到了大数据的实施难度,一些专门服务于大数据产业的公司也开始慢慢诞生成长,这些公司覆盖了从大数据组件开发,到大数据平台构建,再到基于大数据平台的上层解决方案,并且在各个行业慢慢伸出了自己的触角。

譬如:当前比较火热的互联网金融,其实就是依托于大数据,做各种原先金融行业很看重的信征,欺诈检测,自动放贷等。这些基于大数据而带来的技术变革大大提高了金融行业的效率,为资金更快的流转提供了基础,从而对所有行业都会产生深远影响。

然而这些公司在当前阶段还没有形成主流,各个公司依然是偏向于选择自建数据平台。

大数据第二重

进入到第二重时,会有明显的四个特征:

  1. 在大量的中小企业碰壁之后,他们意识到,自己做大数据并不是最明智的选择,转而寻方案解决提供商。
  2. 大量的大数据服务公司开始已经做好原始积累。在技术和行业经验上得到充分的发展,并且在行业形成较好的口碑,其行业触角也已经覆盖大部分产业
  3. 大公司发现毕竟自己的主业不是去做大数据,而是基于大数据的结果更好的帮助自己已有的产品或者导向做好新的产品。这个时候大公司本身也开始慢慢寻求一些第三方大数据公司的支持。
  4. 更好的数据法规支持,保证行业内的数据隐私,安全等(很重要)

此时,整个大数据行业开始慢慢恢复到理性成熟阶段,大家各司其职。BAT 依然会以自己的主业为主,大数据虽然是一个产生变革的技术,然而终究是为了产品服务的,应该让拥有大数据基因的公司去做更好些。这也是人类分工体系下必然产生的。

这个时候由于有了第一重阶段的人才积累,很多人会出来创业,大数据创业会成为潮流,并且枝繁叶茂,渐渐覆盖各个行业的各个领域。随着时间推移,一些公司在各自的领域深耕,渐渐形成一些领域内的重量级解决方案公司,而不管是中小型企业,还是大企业,慢慢都会将大数据业务慢慢转移到更专业的大数据公司。

此阶段,可能私有部署依然是主流。

大数据第三重

到第三重的时候,也会有几个特点:

  1. 大数据企业也会形成三极,类似现在的 BAT,拥有了产业里的哥斯拉
  2. 云计算的发展已经到了
    • 中小型公司,绝大多数都已经在云端
    • 大型公司,已经完全普及混合云架构

这个时候,大数据领域的几家巨头公司,慢慢将自己的业务场景抽象和覆盖的差不多,慢慢成为了大数据云服务公司。

此时可能会产生如下的几个有意思的情况:

  1. 这几家大数据公司会在几家主流云平台搭建各自的大数据平台,方便企业的数据接入
  2. 大部分企业内部可能只有分析师,不再有数据平台架构师,算法工程师等。具体情形和现在使用公有云相似,一些做基础运维的岗位慢慢都被淘汰。
  3. 对应的大数据公司,产生的效益应该要远远好于用户自己搞,因为他们积累的大量的行业共通经验。应该可以节约了大量的企业和社会成本。

显然,经过这三年,已经大致到第二阶段了,很多公司发现“大家发现耗费了大量人力物力,终究是收效有限 ”,所以会开始自建和使用第三方服务相结合的方式。

总结

前面说了那么多,我们再来总结下:

  1. 要想让 AI 落地,至少要搞定团队,数据平台,AI 平台三件事。
  2. AI 落地的基本战略是“All In AI”,赋能和创新。基本形态是提供 AI 加持的 API 服务集市,以及基于前沿技术的构建的产品如聊天机器人,图像识别。
  3. 为了实现“All In AI”需要对各种资源进行有效利用(平台、人力、组织)。
  4. 大数据/AI 正处于第二阶段,有效利用外部力量对某些公司也是一个不错的选择。

本文首发于GitChat,未经授权不得转载,转载需与GitChat联系。

阅读全文: http://gitbook.cn/gitchat/activity/5b42c2432e407d42240eeff5

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App , GitChat 专享技术内容哦。

企业引入大数据/AI 的难点,落地方式以及行业阶段相关推荐

  1. 实时计算框架 Flink 新方向:打造「大数据+AI」 未来更多可能

    2019-12-20 17:57 导语:如何将大数据与 AI 结合...... 自 Flink 开源以来,越来越多的开发者加入了 Flink 社区.仅仅 2019 年,Flink 在 GitHub 上 ...

  2. 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践

    导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...

  3. 从大数据+AI 谈谈概念与场景

    前端时间跟朋友吐槽,吹牛逼,我说我生不逢时啊. 2005年,在百度做数据分析,商业数据,搜索数据,社交产品数据,联盟数据,客户端数据,各种数据反正都拿来搞每天处理几亿条日志吧,自己写代码,搞几台服务器 ...

  4. 北京内推 | 中国电信总部大数据AI中心招聘计算机视觉算法实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 中国电信 中国电信总部云网运营部大数据AI中心(中国电信集团有限公司数字智 ...

  5. 这场大数据+AI Meetup,一次性安排了大数据当下热门话题

    近年来,随着工业界多年的努力以及新兴技术的不断涌现,数据规模庞大的问题已逐步得到解决,而数据处理的时效性.数据价值的挖掘正成为企业及开发者面临的新的巨大挑战.也因此,大数据计算引擎.AI.数据仓库.数 ...

  6. 重磅,企业实施大数据的路径

    企业实施大数据主要有四个方面的内容: 第一,企业要建立数据文化,企业作决策应该用数据来说话. 第二,企业要建立数据的战略. 第三,企业在数据战略之下组织数据管理团队的能力. 第四,企业实施大数据的技术 ...

  7. 华为云快成长直播间大数据AI专场,加速经济物联网智能化提升

    万物智联的经济物联网环境,传统经济场景单一化.管理不集中.用户画像不精准等问题,促进了经济智能化提升,企业也需要更稳定.更安全的大数据平台作为经济提升的产品驱动力. 9月8日,华为云快成长直播间大数据 ...

  8. 企业应用大数据的三重境界:数据·分析·成果

    近几年大数据变得越发重要,已成为企业发展不可缺少的要素,同时直接影响甚至改变着我们的生活.当前,处理数量庞大.增长迅猛.种类繁多的数据成为众多企业面临的挑战.Teradata天睿公司作为全球领先的分析 ...

  9. 美云智数另辟蹊径,SaaS企业和大数据应用发展新趋势

    背景:2017年3月3日,美云智数产品发布会在深圳希尔顿酒店隆重召开,此次发布会以"美云启航 智数未来"为主题,吸引了企业代表.行业专家.媒体等500余人到场参加.会上推出了美云智 ...

最新文章

  1. 第1章 故障处理方法
  2. 理清fineuploader无刷新上传的一些事
  3. Android开发之自动登录功能的实现
  4. DIV与SPAN之间有什么区别
  5. 管理系统中计算机应用第四章重点,管理系统中计算机应用课堂笔记第四章(4)...
  6. Go的RESTful
  7. 100的阶乘c语言代码,求10000的阶乘(c语言代码实现)
  8. linux没有jre文件夹,linux上配置jdk时,java命令提示没有此文件或文件夹的解决方法...
  9. node webkit(nw.js) 设置自动更新
  10. 小毛thinking:why c# sucks and python rocks
  11. Ditto —— windows 剪贴板增强小工具(复制粘贴多条记录)
  12. 图像局部特征(四)--FAST-ER角点检测子
  13. POJ P1185 炮兵阵地 【状压dp】
  14. MySQL多字节字符集造成主从数据不一致问题
  15. java分布式_学习分布式无从入手?阿里Java架构师分享分布式架构必读书籍
  16. PL330 DMAC笔记(4) -- 安全,使用约束和限制,编程限制
  17. 使用串口调试助手发送16进制数
  18. springboot游泳池管理系统
  19. [转]最速下降曲线:重力场中两点之间曲线更快
  20. 前端学习之路---CSS

热门文章

  1. 2018信用服务业市场:天眼查、企查查、启信宝、企查猫处第一梯队
  2. 什么是发布非约定商品?发布非约定商品的处罚是什么?
  3. Google JavaScript Style Guide
  4. 计算从1970年到当前时间所经历过的秒数
  5. 新出生的机器狗,打滚1小时后自己掌握走路,吴恩达开山大弟子最新成果
  6. 学习python 第二十六天
  7. python模拟蚂蚁森林能量产生过程代码_用Python实现定时自动化收取蚂蚁森林能量,再也不用担心忘记收取了...
  8. 用户使用手册与测试报告
  9. 软件定制开发解决方案
  10. LNMP架构和论坛搭建以及一键部署