在“国富论”中,亚当·斯密通过一项钢针工厂流水线的生动例子说明了劳动分工是生产力的主要来源这一观点:“第一个人拔出钢丝,第二个人拉直钢丝,第三个人切割钢丝,第四个人削尖针头,第五个人打磨钢针。”

通过功能专业化,每位工人都变得非常娴熟于其所专一的任务,从而提高了效率。人均产出增加了,工厂生产钢针的效率也变得极高。按职能划分的这种分工即使在当代社会劳动观念中也根深蒂固——我们能够迅速按照彼此专长来组织团队,数据科学领域也不例外。

一项端到端算法业务需要许多职能,因此公司通常会组建涵盖各领域专家的团队:科研人员、数据工程师,机器学习工程师,因果推理科学家等等。

专家的工作由产品经理协调,而职能之间以类似钢针工厂的方式进行交接:“一个人负责数据来源,另一人负责搭建模型,第三个人实施模型,第四个人评估模型”等等。

我们并不应该为了提高所谓生产力而优化我们的数据科学团队。除非是在当你明确知道你正在做什么并且为了寻求提高效率,毕竟流水线的目标是执行。

在亚当斯密的例子中,我们很明确地知道我们想要什么,人们想到的任何产品和服务都给出了相应的要求,这些要求完整地描绘了产品及行为服务的方方面面。只有这样,员工才能有效的执行他们相应的职责。

但数据科学的目标不是执行,恰恰相反,数据科学的目标是学习并发展更先进的新业务能力。

比如设计出无法被预先设计的算法产品和服务,类似于推荐系统,客户参与引导,风格偏好分类,尺寸匹配,时装设计系统,物流优化,季节性趋势检测等。这些产品都比较新奇且具有不确定性。

没有现成的蓝图可供遵循。系数,模型,模型类型,超参数...你需要的所有这些组成部分都必须通过实验,反复试错以及不断迭代来学习。

对于钢针工厂而言,学习与设计是在制造开始之前就被完成的。而对于数据科学而言,你可以随用随学,并不非得在应用之前就全部学会一切。

在钢针工厂这种学习在前的模式中,我们既不期望也不需要工人在产品的任何方面即兴发挥;我们只需要工人们更高效地进行生产。按功能分部门是有意义的,因为任务专业化可以提高流程效率和生产一致性(也即最终产品高度标准化)。

但是,当产品仍在不断发展,并且目标是学习时,这样的分工专业化至少会在以下几个方面阻挡我们实现目标。

协调成本增加

协调成本分担在沟通、讨论、证明和取舍工作时的时间里。这些成本与所涉及的人数呈超线性关系。当数据科学家按职能分组,每次更改以及每次交接等都会使协调成本很高。

例如,统计建模专家每次想要尝试新功能都必须与准备数据集的数据工程师协调。同样,每个训练过的新模型都意味着建模者需要有人协调部署。

等待时间增加

比协调成本更加讨厌的是每项工作之间等待的时间。比如举行会议、讨论、设计评审所需的时间,等待时间通常以数天或数周甚至数月来衡量!

专家们的时间表很难协调,因为每个专家都必须配有数个项目。一个小时的讨论变化的会议可能需要数周才能排上日程表。而且,一旦对变化做出调整,实际工作本身也需要在多个其他项目争夺专家时间的情况下进行安排。

内容缩小

分工可以通过奖励人们留在他们的“本专业”来人为地限制学习。例如,被委任保持在其职能范围内的研究科学家需要把精力集中在试验不同类型的算法上。如:回归、神经网络、随机森林等等。

虽然良好的算法选择可以带来改进,但是,通过集成新数据源等其他活动,通常可以获得更多收益。同样,科学家可能会开发一种能挖掘出数据携带的所有信息的模型。然而,其较大的机会可能却在于改变目标函数或松弛某些约束条件。

当科学家的工作职能受限时他们很难看到或做到这一点。研究科学家专注于优化算法,因此他们不太可能追求其他任何东西。

当数据科学团队像钢针工厂一样运行时,某些症状就会出现。等待数据管道更改”和“等待机器学习资源”是常见的阻碍工作的状态。数据科学团队过度专业化可能会让团队成员错失更多学习的机会。

解决这个问题的办法就是摆脱各司其职的工厂模式。

为了促进学习和迭代,数据科学家们应有更全面的角色,广泛的职责与专业技术实质上并不冲突。

组织构架需要促使数据科学家们不断学习。这意味着招聘“全栈数据科学家” ,也就是“通才”,从概念到建模,从实施到测试。

当组织方式不同时,这样的激励措施能更好地将学习与效率保持一致。例如,假设你有一个需要实现三个业务功能的三人小组。在各司其职的工作模式下,三位员工致力于每项技能,且没有其他人可以完成他们的工作。而在全栈的工作模式中,每个通用数据科学家都致力于其业务方向,这样就增加了规模,也有助于学习能力的提高。

由于等待环节的人数减少,协调成本直线下降。通用数据科学家在各职能之间流动,扩展数据管道以处理更多的数据,尝试在模型中添加新功能,将新版本部署到生产环境进行因果测试,并在新想法出现时能够立即重复以上步骤。因此,迭代周期会下降。

我们的全才专家可能不像任何一个职能部门的专家那样娴熟。但我们并不寻求实现某一种卓越的职能或小幅度的优化。相反,我们寻求学习和发现具有阶梯式变化影响的全新业务能力。

凭借整体解决方案的完整背景,通用数据专家可以看到单一领域专家无法看到的机会。去尝试更多的创新, 尽管失败,但失败成本较低,有利于快速迭代和激励学习。

值得注意的是,赋予全栈数据科学家的这种自主性和技能的多样性在很大程度上取决于一个假设的可靠数据平台。

构建良好的数据平台能将数据科学家从应用容器、分布式处理、自动故障转移和其他高级计算机科学概念的复杂性中抽离出来。

除此之外,强大的数据平台还可以为实验基础架构提供无缝衔接、自动化监控和警报、自动扩展的功能,并实现调试输出和算法结果的可视化。这些组件由数据平台工程师设计和构建,但很明显,数据科学家和数据平台团队之间没有任何交接。

全栈数据科学模型依赖于优秀的人才,他们不是独角兽,它们既可以被发现也可以被制造出来。这种人才的需求很大,因此,强大的公司价值观, 有竞争力的薪酬以及有趣的工作才是吸引此类人才的关键。

正因如此, 通用人才自身在工作中所展现的自主性、掌控力和目的性也是提高他们对工作满意度的关键因素,因为他们不依赖别人取得成功,并且可以掌握端到端的业务能力,并且可以有目的性的完成自己的项目以获得成就感。

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!

转载于:https://blog.51cto.com/14217196/2372934

为何数据科学团队需要通才而非专才相关推荐

  1. 加米谷大数据行业报告:为何数据科学团队需要通才而非专才

    加米谷大数据的工作团队在实践中发现在处理大数据工作时和工业化以来的分工模式还是有区别的 通过功能专业化,每位工人都变得非常娴熟于其所专一的任务,从而提高了效率.人均产出增加了,工厂生产钢针的效率也变得 ...

  2. 如何打造数据科学团队,你想知道的都在这里

    数据产品利用数据科学和工程技术来提升产品表现,通常会带来更准确的搜索结果.更好的建议和自动决策. 数据监测需要整个公司的一致努力,要确定每款产品需要收集何种数据,同时还要建立起收集及维护这些数据的基础 ...

  3. “数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人...

    来源:大数据文摘 本文约5750字,建议阅读6分钟. 本文为清华大学大数据研究中心联合大数据文摘发起的年度白皮书<顶级数据团队建设全景报告>系列专访的第二篇内容.<报告>囊括专 ...

  4. 起底滴滴数据科学团队:面对超复杂线下场景,要数据驱动,但拒绝“唯数据论”...

    来源:大数据文摘 本文约4300字,建议阅读9分钟. 本文为清华大学大数据研究中心联合大数据文摘发起的年度白皮书<顶级数据团队建设全景报告>系列专访的第一篇内容. <报告>囊括 ...

  5. Airbnb数据科学团队进化论:如何由内而外实现数据驱动

    虽然团队组织结构的演化允许数据科学家团队繁荣兴旺,但是公司的成功源于"精准定位"于两件事:发自肺腑地关爱员工,积极主动的数据驱动决策.不论是开发可持续利用的开源工具还是奋力改进数据 ...

  6. Google首席决策师告诉你,AI和数据科学团队需要哪10种角色

    导读:组建一个出色的数据团队都需要哪些角色?Google 的首席决策工程师 Cassie Kozyrkov 在这一问题上有自己独到的见解.在她看来,一个好的 AI 和数据科学团队需要 10 种不同的角 ...

  7. 细数数据科学团队中的十大关键角色

    作者 Cassie Kozyrkov 编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权 应用数据科学是一项高度跨学科的团队工作,需要用多样性的角度看问题.事实上,比起专业知识和经验,观点 ...

  8. Google首席决策师告诉你AI和数据科学团队需要哪10种角色?

    作者 | Cassie Kozyrkov 译者 | linstancy.王天宇 编辑 | Jane.琥珀 出品 | AI 科技大本营 [导读]组建一个出色的数据团队都需要哪些角色?Google 的首席 ...

  9. “数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人

    大数据文摘出品 作者:魏子敏.夏雅薇.牛婉杨 定下"顶级数据科学团队"这个研究话题时,我们第一时间想到了领英(LinkedIn). 2008年,正是在这家公司,DJ Patil建立 ...

最新文章

  1. node.js实现国标GB28181流媒体点播(即实时预览)服务解决方案
  2. linux怎么重命名多个文件,在Linux中如何一次重命名多个文件详解
  3. 数据仓库dw层_数据仓库分层之辩
  4. Native Client 资料
  5. 在WebPart中上传图片到SharePoint图片库,读取Exif信息到图片的自定义属性
  6. zk框架_ZK Web框架思想
  7. matlab meshgrid函数_从零开始的matlab学习笔记——(28)立体图切面与三视图
  8. 有一个3x4的矩阵,输出最大值,且输出对应的行和列;
  9. PowerDesigner如何设计表之间的关联
  10. Vuejs --01 起步
  11. 皮克定理和任意多边形的面积公式
  12. 少儿编程强势成2019创业热风口  未来谁才能突围占领C位?
  13. Android中的PendingIntent 原理
  14. bash shell实现并发多进程操作
  15. 关系与关系模式的区别——易懂
  16. 2021年 第十二届蓝桥杯第二期校内模拟赛题解(Java版)
  17. 单片机自动售货机c语言,单片机自动售货机源代码
  18. PIE-Label样本标绘软件
  19. tfidf+java+权重,使用scikit-learn tfidf计算词语权重
  20. Jekens Source Code Management None 源码管理没有Git

热门文章

  1. verilog 按键控制LED的亮灭状态
  2. 【Unity】Mac安装Unity后启动黑屏
  3. 毕业设计:PFW个人防火墙的实现及源代码
  4. 1221 打印字母菱形图案
  5. Rennen dein Hund davon das den.
  6. 双卡双待的手机会有两个IMEI号
  7. web前端期末大作业——基于html+css+javascript学生宿舍管理系统网站
  8. RStudio安装package时出现错误
  9. 如何在线免费进行PDF压缩呢?
  10. 去除文本中重复的数据行