导读:大数据时代方兴未艾,人工智能时代又呼啸而至。在人工智能时代,将数据的价值发挥出来的要素有资金、数据、平台、技术、人员等。数据科学家是人员要素中最为重要的部分,是需要企业非常重视的。

之前的文章《》中,我们提出过一个问题:如何成为一名合格的数据科学家?本文将继续围绕这个问题展开探讨,主要内容包括数据科学家自身发展的方向、组织结构,以及如何体现出价值。

作者:彭鸿涛 张宗耀 聂磊
来源:大数据DT(ID:bigdatadt)

01 数据科学家的工作模式与组织结构

数据科学家需要与业务专家一起工作才能发挥最大价值。实际工作中两种角色如何配合,取决于是采用业务驱动的模式还是数据驱动的模式。

1. 数据驱动还是业务驱动

业务驱动的特点是业务人员主导数据分析需求的提出、结果的应用,在业务中应用数据洞察;而数据驱动的特点是更看重主动应用数据分析手段,从数据洞察发起业务、改善业务,当然在业务执行时也需要广泛应用数据洞察。在较新的业务领域采用数据驱动比较适合,已有复杂业务则采用业务驱动较好。

然而从自身能力的发展、数据驱动逐渐成为主要的工作模式的情况来看,数据科学家需要思考如何将数据驱动的模式做得更好,并且愿意承担更多责任。所以,除了算法、用法等基本技能,还需要考虑如何改善业务。

下图所示的职责占比只是示意,其实最核心的是由哪种角色来主导,在工作中也未见得业务专家不能主导数据驱动的模式。从业务结果的角度来看,所谓业务驱动和数据驱动只是到达一个既定目标时不同的工作方式而已。在实际的业务中也不会分工非常明确,即不会限定业务人员只能做什么或数据科学家只能做什么,只有相互无缝协作才是最佳的工作模式。

▲业务专家与数据科学家的两种配合方式

2. 数据科学家团队的组织结构

数据科学家团队的组织结构关系到数据应用的效率、管理的效率、个人的发展等诸多方面,企业在设置这个组织结构时需要认真考虑。每个企业的实际情况不同,可以采用不同的方法。数据科学家的组织结构一般分两种,即分散式结构集中式结构

分散式结构是数据科学家属于确定的业务部门,这样的组织结构的好处是其可以紧密地与业务人员合作,将业务问题转换为高效的数据分析任务。

但是其也有不足,一方面数据分析的知识积累是在个人身上,而不是在团队,另外一方面就是因为角色的限制使得业务部门内的数据科学家没有上升空间。业务部门内的数据科学家若要在职业道路上继续前进,要么离开,要么担任其他角色。一旦发生数据科学家的人事变化,这对团队稳定、知识积累等都是不利的。

集中式的数据科学家组织结构就是跨业务条线而成立独立的专门做数据分析的结构。这样的组织结构的好处就是团队相对稳定,给成员提供了不断成长的空间,也避免了知识积累的流失。

但是其也有不足,由于数据科学家脱离业务部门而独立存在,导致团队成员对业务的理解不够深入,模型的产出可能效率低下。业务部门也可能只将其看作支持部门,而不会在实际业务中有太多引入。

企业在构架数据科学家组织架构时,也可采用混合的结构。即使是集中式的组织结构,其汇报的层级也可能不同。没有所谓明确的业界标准的说法,因地制宜的做法才是最实际的。

02 数据科学家的工作方法要点

数据科学家的核心任务之一是通过数据分析手段将数据洞察应用在实际业务中,并能产生有效的结果。数据科学家在实际工作中需要注意以下要点,以确保上述目标的达成。

1. 开始工作以前确保具备成功要件

在开始一件工作前,最好先明确一下业务场景、数据可获得性、数据质量等重要信息。在很多情况下,会出现因数据不支持无法进行细致分析、模型结果很好但是落地应用时没有对应的资源支持、数据分析只是探索没有对应的使用场景等问题。这些因素会严重影响数据分析的价值。

笔者作为顾问给多个客户实施数据分析项目时,就遇到过上述的问题。从客户的角度来讲,其关心的是业务问题的解决,并不会过多细致地考虑实施过程的细节。只有努力地尝试去做,才能发现有些问题会严重阻碍数据分析的进行,这也会影响数据分析的最终效果。

2. 同时输出两种价值

假设要通过数据分析手段改善某业务问题,如构建预测模型筛选高价值、高响应率的客户,即使是在目标非常明确的情况下,数据科学家也要在做的过程中保证两种输出结果。

(1)重要发现

数据分析过程中势必要进行数据提取、数据处理、数据探查等一系列基础工作。在这些基础工作的过程中,往往会隐藏着有巨大业务价值的信息。比如,笔者的团队在给某金融机构构建高端客户的相关模型时发现一些信息,如“大部分客户只持有一类理财产品且在半年内没有交易活动”,这些信息对于后期的营销策略制定至关重要。

所以,数据科学家在实际工作中需保持“业务敏感性”,对于数据背后的业务故事保持好奇心,同时将一些重要的数据发现协同模型结果一并输出,这可以大大提高分析主题的价值。

(2)模型结果

给定分析主题,目标模型结果就可以基本确定,如寻找高价值客户就是模型输出一个名单,风险预警就是给出风险评分以及原因。这是模型输出的最基本形式。

在实际的模型实施应用中,业务人员会经常以挑剔的眼光来看待模型,并且基于模型结果总是有不同的疑惑需要数据科学家来解答。典型的疑惑如“聚类分析模型确实将客户分了几个类别,但是我还是不知道该如何营销这些客户”“社交网络分析模型给出了潜在的高价值客户名单,但这些信息不足以让营销人员开展营销”。

出现这种情况时,一种简单的做法就是和业务人员深入讨论,梳理出他们的关注点,然后将对应的指标从数据库中提取出来,作为模型输入的补充一并交给业务人员。

从本质上来讲,出现业务人员疑惑的原因是“业务人员期待模型输出决策而不是名单”以及团队缺乏将模型输出转换为营销决策的能力。数据科学家也需要具备将模型结果转换为业务决策的能力。

3. 充满想象力地开展工作

算法能做到什么是数学范畴的知识,数据科学家的核心工作就是将业务需求转换为一系列的数据分析实践过程。若将各个算法看作一个个组件,那么用一个算法来解决问题还是用多个算法的组合来解决问题,需要数据科学家的想象力和不断尝试。

笔者的团队曾给某客户构建模型时,其需求是“根据客户持有产品的现状推荐产品,达到交叉销售的目的”。这是一个非常不具体的需求,能做的范围很大,能用的算法工具也很多。

最后我们采用的是构建“客户聚类与产品聚类的交叉分布以及迁移矩阵,并据此来展开不同目的营销”,若向上销售则可推荐同类产品,交叉销售则可推荐不同类的产品。这种做法之前没有实施过,但是结果证明其非常有效,仅在一次营销应用中就带来数十亿的营业额。

4. 按照敏捷的方式来构建模型

数据挖掘过程也可以看作一个项目过程,从项目管理的角度当然可以按照敏捷的方式来进行。数据科学家需要积极主动地汇报分析思路、预期结果、进度等重要信息。时刻与业务人员以及管理人员保持沟通,对需求变化保持开放,将对模型的实际应用会有巨大的帮助。

一般情况下,让一个对数据和业务都不了解的人来构建模型,往往需要数月的时间;但让一个熟悉数据、业务、算法工具的人来建模,则可能只需几天就可以完成。不论哪种程度的人员来建模,都可以按照敏捷的方式来管理建模过程。

笔者与建模方法论CRISP-DM的提出者之一Julian Clinton一起工作过4年时间,在长期的项目实践中我们一直坚持该方法论所倡导的核心要点:紧贴业务、不断探索、以结果为导向、模型在应用后仍需不断调优等。事实证明,这些原则非常有效。CRISP-DM方法论的实施与实施过程中按照敏捷的方式来管理是相辅相成、相得益彰的。

5. 以业务的成果来衡量自己的工作

模型的效果到底如何?数据科学家不应该基于测试集上优异的模型性能指标而洋洋自得,这没有任何意义,顶多代表建模的技巧高超。

模型最终带来的收益是由模型输出、匹配模型输出的业务决策、业务决策实施过程中的资源配置、应用场景的价值大小等综合因素共同决定的。缺少任何一环都会使得模型的价值直线下降。

数据科学家需要积极主动地推进这些环节的相关工作,积极收集模型部署后的监测数据,在“建模—业务决策匹配—业务决策实施—效果监控—模型或决策改进—再部署—再监测”的闭环中积极发挥作用。最终得出的业务结果数据,才是数据科学家真正成就感的源泉。

关于作者:彭鸿涛,德勤企业咨询总监兼首席数据科学家,德勤全球AI团队核心成员,德勤数字化转型、智慧营销、智慧风控、客户体验等核心咨询服务方案的资深顾问。

张宗耀,上海全应科技有限公司资深数据科学家,前华为企业智能部门资深数据科学家,前IBM SPSS 算法组件团队资深算法工程师。

聂磊,陕西万禾数字科技有限公司CTO,前IBM SPSS 资深数据科学家,前IBM Watson Analytics数据分析引擎技术主管及架构师。

本文摘编自《增强型分析:AI驱动的数据分析、业务决策与案例实践》,经出版方授权发布。

延伸阅读《增强型分析》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:增强型分析是数据科学的未来,本书讲解了如何通过前沿的大数据技术和AI技术实现智能的数据分析和业务决策,即增强型分析。本书的三位作者是来自德勤、前华为和前IBM的资深数据科学家,在大数据和AI领域至少都有10年以上的工作经验,他们将各自多年来在“构建数据挖掘模型,解决实际业务问题”方面积累的经验全部总结在了这本书中。

长按二维码或点击阅读原文
发现更多好书

有话要说?
Q: 这些工作要点,你都掌握了吗?
欢迎留言与大家分享
猜你想看?
更多精彩?
在公众号对话框输入以下关键词
查看更多优质内容!
PPT | 报告 | 读书 | 书单 | 干货 
大数据 | 揭秘 | Python | 可视化
AI | 人工智能 | 5G | 中台
机器学习 | 深度学习 | 神经网络
合伙人 1024 | 段子 | 数学

据统计,99%的大咖都完成了这个神操作
?
觉得不错,请把这篇文章分享给你的朋友
转载 / 投稿请联系:baiyu@hzbook.com
更多精彩,请在后台点击“历史文章”查看

点击阅读原文,了解更多

如何成为一名合格的数据科学家?这5个要点一定要掌握相关推荐

  1. 如何成为一名合格的数据科学家(IT专家网)

    [推荐原因]数据科学集合了计算机.数学.统计等领域的知识技能并应用于某个特定行业领域的业务分析,随着互联网时代的飞速发展,必将出现许多新的理论与方法.看看别人是怎么定义数据科学及数据科学家的.我比较赞 ...

  2. 线性判别用于提取词向量_资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平...

    原标题:资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平 选自Analyticsvidhya 作者:Shivam Bansal 机器之心编译 参与:黄小天.李亚洲.Smith 近日,ana ...

  3. 大数据业务学习笔记_学习业务成为一名出色的数据科学家

    大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...

  4. 一名合格的数据分析师,需要满足哪些条件

    数据分析师已经成为数据时代的大熊猫,为什么这么稀缺,主要还是物以稀为贵,想要成一名合格的数据分析师,成长周期实在是太长了,一名标准的数据分析,需要满足以下5个条件: 1.懂业务,熟悉行业知识,公司业务 ...

  5. 如何成为一名卓越的数据科学家?

    "如何成为一名卓越的数据科学家?"是我们讨论的主题. 所谓卓越,不是那些纸上谈兵.喜欢"3V"."4D"."大时代"的理 ...

  6. 一名合格的数据分析师需要掌握的技能包括哪些?

    此文为CDA数据分析师原创作品,转载需授权 随着时代的发展,我们渐渐从IT时代走向了DT时代,人数据分析的重要性也日益凸显,越来越多的人开始留意"数据分析师"这个职业,不少人也开始 ...

  7. 一名合格的数据分析师,自己的职业生涯应该如何规划?

    对于数据分析,有一句话说的非常好:spss/sql之类的软件.决策树.时间序列之类的方法,这些仅仅就都是个工具而已,最重要的是对业务的把握.没有正确的业务理解,再牛的理论,再牛的工具,都是白搭.做一名 ...

  8. 数据更改后推送_合格的数据科学家,这些Github知识必须了解

    全文共2270字,预计学习时长5分钟 图片来源:Unsplash/HackCapital摄 版本控制经验已逐渐成为所有数据科学家的必要能力.版本控制可以帮助数据科学家更好地做团队工作.促进项目协作.共 ...

  9. 成为一名真正的数据科学家有多困难

    Data Science and Machine Learning are hard sports to play. It's difficult enough to motivate yoursel ...

最新文章

  1. 曙光服务器bios设置_浪潮服务器PM8060阵列卡,如何做热备盘?操作相对有点复杂...
  2. java 返回double数组_java-如何使用Collectors.averagingDouble计算双精度数组的均值?
  3. DOCTYPE是什么鬼?文档模式又是什么鬼?
  4. java 追加写入hdfs_java操作之HDFS-创建-删除目录-读写文件-追加写文件
  5. matlab九节点网络仿真问题,三机九节点电力系统仿真matlab.docx
  6. VTK:PolyData之ConnectivityFilter_SpecifiedRegion
  7. qt 不显示 mysql 数据表中的内容_qt 数据库操作总结
  8. 军事方面的软件系统与瀑布模型
  9. android单元测试作用,Android单元测试源码解读
  10. 解决jz2440不能ping同主机问题
  11. InstallShield 2011新功能试用(7)- 新增加的InstallShield Prerequisites
  12. mysql条件触发器实例_mysql触发器实例一则
  13. ipad mini2 12.5.4成功降级 10.3.3
  14. 免费学python的手机软件_可以免费学习编程算法app
  15. VScode连接Anaconda
  16. 十、Linux开发板控制LED灯设备
  17. 向App Store提交二进制文件时报错ERROR ITMS-90096
  18. 二维邮局选址问题-带权中位数
  19. HTML+CSS实现百度网盘首页
  20. Java并发的一些总结(面试须知)

热门文章

  1. 计算机板报设计简单,计算机板报制作
  2. matlab出错及解决办法,Linux下使用Matlab符号函数出错的解决办法
  3. mac pip安装mysql_Mac pip安装mysql-python失败
  4. node 获取表单数据 为空_像声明类型一样写表单——基础功能
  5. linux 脚本 if判断 o,shell脚本常用脚本:if判断
  6. python中不包不包括_Unittest-断言列表中的一组项包含在(或不包含在)另一个lis中...
  7. linux搭建测试环境常见问题,在Linux环境下搭建CCID测试环境
  8. Simplex 单纯形算法的python实现
  9. 最小生成树Kruskal算法+并查集检查连通
  10. 操作系统之进程管理:16、管程