作者简介Introduction

杨滔,桃树科技(TaoData)创始人,专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士,悉尼科技大学博士后。曾任阿里巴巴集团数据科学家,建立淘宝网数据科学团队,首创聚划算爆款模型。曾任F团首席科学家,建立F团数据化运营体系。

往期回顾

如何成为一名卓越的数据科学家——开篇七剑

如何成为一名卓越的数据科学家 ——七剑之一:问题定义

在数据科学七剑中,我将“问题定义”放在第一剑,这是非常重要却往往最容易被忽略的一剑。兴致所致,今天再继续砍一砍“问题定义”。

数据科学离不开人机协作,而在这个协作中“问题定义”这一剑尤其依赖于数据科学家的主观判断力,是人最需要深度参与的数据科学环节。

问题定义这个环节如此重要,而现实中卓越的数据科学家却如此稀缺。我们不禁思考,数据科学家的能力是否可以被大规模复制?

在多年的数据科学研究与商业应用中,我一直没有停止过对这个问题的锤问。

今天,我可以这样回答:数据科学家的智慧是具备复制性的。当问题定义的能力被复制,加上高度自动化的数据科学流程,每个人都可以成为数据科学家

然而,让数据科学家问题定义的能力被大规模复制,并非易事。


数据科学服务体系

数据科学家问题定义能力的批量复制和大规模传播,需要一个完整的数据科学服务体系。这个数据科学服务体系的核心,就是让客户理解数据科学的过程——帮助客户理解数据的价值点,并将数据创造价值的技术原理翻译为通俗业务语言的过程

在理想世界中,数据科学家常常希望建立一个超级智能机器,让数据科学整个流程完全自动化。然而,数据创造价值的流程是冗长的,有一些环节可以依赖算法实现自动化,而有一些环节则需要服务体系将其过程逐渐简化。逐渐两字在这里是关键。

对于客户,首先关心的不是数据科学或者人工智能,或者说至始至终他们都不关心,他们只关心数据到底能用在什么场景产生什么作用

数据科学家的首要职责,是帮助客户在具体的应用点中创造价值。其次,数据科学家需要帮助客户理解多个应用点背后的通用性,建立一个行业内通用的数据科学引擎。意在帮助客户实现自主数据科学服务,让一个一个的客户既可以理解也懂得运用数据科学引擎去创造实际价值。

当行业通用的数据科学引擎让客户成为了数据科学家,由点及面,数据科学机器人就一定会在这个特定行业内普及。

在这个过程中尤其值得注意的是,首先,数据科学家需要自己定义问题,并让数据科学团队为企业解决问题;然后,通过业务经验的积累及企业的反馈,数据科学家再建立行业通用的数据科学引擎,让客户自己定义问题——即将数据科学家的能力传递给非技术团队。这二者的顺序不能颠倒,不然适得其反。

一个数据科学家服务企业容易,而数据科学服务体系的建立,则需要将行业中的数据科学应用场景进行分解,构建一个完整的培训体系。这正是体现一个数据科学家技能高低的分水岭。


行业应用

AI技术的第一个突破口,不是风头最劲的互联行业,也不是高科技行业,而是传统行业。

传统行业业务相对稳定,存在明确的业务目标和应用场景。相对稳定的数据最适合机器学习技术来提高效率。相比而言,互联网公司都在寻找流量,业务天天变,业务一变数据模型也就失效了,AI技术产生价值的难度较大且ROI(投入产出比)很低。

在传统行业中,有许多问题是可以用数据去解决的。当传统行业业务效率被大数据大幅度提升,传统行业未必惧怕互联网企业。

互联网本身也是传统行业提升自己运营效率的工具,但正因为流量来源的垄断,所以互联网技术并没有真正提升传统行业的效率。而内嵌在传统行业内部的数据科学引擎,将是传统行业提升效率的一大利器。

这世上最痛苦的事之一,就是看着自己亲手做起来的事业每况愈下,许多传统行业的老板总有这种说不出的痛……传统行业业务+人工智能技术”将是挑战互联网的复仇者联盟

传统行业技术服务商的核心准则往往是“定制化”。只有依赖定制化,才可以获得传统行业的渠道资源,于是渠道资源一贯反向控制技术。正因为如此,传统企业服务的技术提供商往往都缺少真正意义上的产品,陷入无法规模化发展的困境。

而AI技术,正是让拥有渠道的服务商大幅度提升服务ROI的手段。

听起来很美的事情,往往更不容易。AI几经潮起潮落,大数据概念被炒的热火朝天,但是数据科学的落地应用成功案例,却倍显高冷单薄。

AI技术让企业服务产品规模化复制的核心正是数据科学家问题定义的能力。而人工智能技术在应用上的发力,需要经过一个很多“人工”,而且不怎么“智能”的过程。(这一问题的详细讨论,可参见桃树公众号(桃树科技)原创文章——“人工智能的应用:如何打破“有多少人工,才有多少智能”的魔咒”

这个过程需要从一个一个点上入手,需要帮助企业从一个一个具体的应用场景中建立数据科学体系,帮助企业寻找一个又一个数据创造价值的突破口。这个问题定义的能力的普及和服务体系的建立,才是大数据落地的第一站。

无论前方多么光明,万里征途从来都是一步一个脚印走出来的。


让人人都成为数据科学家

“让人人都可以是数据科学家”,是我创业的初衷。我坚信这将是数据科学的未来。

在行业应用的过程中,卓越的数据科学家首先将问题定义能力传递给更多数据科学家,进而通过他们让客户逐渐理解大数据如何应用。当客户充分理解了数据科学原理,客户中的基层人员也就具备了定义数据科学问题的能力。数据科学知识配合高度自动化的数据科学工具,人人都可以成为数据科学家。

从这个角度来说,卓越的数据科学家,应该是让数据科学家技能平民化的导师,同时还是通用大数据产品的构架师

企业最终会出现一道大数据生产线,数据是这个生产线的材料,而生产线上的使用者正是企业内完成了数据科学培训的业务人员。


数据侠

当企业拥有大数据平台,当人人都成为数据科学家之后,那些卓越的数据极客是否就应该退场了呢?

他们,注定不甘寂寞。

卓越的数据科学家让所有人都成为数据科学家,而他们自己则会再一次转身,寻找新的问题,寻找大数据让世界变得更加不同的创新解决方案

数据科学家改变世界的方式不仅是编写代码,而是寻找新的数据解决问题的痛点。在探索的过程中,他们往往会持续关注新的数据源,并在已有的数据源中不断尝试提高数据的利用率。

对数据更好的利用,是一个数据科学应用不断循环上升的过程,我将之称为数据科学七剑的第二剑——数据准备

敬请期待……

文章来源:杭州桃树科技有限公司(TaoData)

如何成为一名卓越的数据科学家——第一剑之再谈问题定义相关推荐

  1. 如何成为一名卓越的数据科学家?

    "如何成为一名卓越的数据科学家?"是我们讨论的主题. 所谓卓越,不是那些纸上谈兵.喜欢"3V"."4D"."大时代"的理 ...

  2. 大数据业务学习笔记_学习业务成为一名出色的数据科学家

    大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...

  3. 如何成为一名合格的数据科学家?这5个要点一定要掌握

    导读:大数据时代方兴未艾,人工智能时代又呼啸而至.在人工智能时代,将数据的价值发挥出来的要素有资金.数据.平台.技术.人员等.数据科学家是人员要素中最为重要的部分,是需要企业非常重视的. 之前的文章& ...

  4. 成为一名真正的数据科学家有多困难

    Data Science and Machine Learning are hard sports to play. It's difficult enough to motivate yoursel ...

  5. 一名优秀的数据科学家,需要具备哪些基本能力?

    要成为一位数据科学家需要具备多方面的人才,虽然目前人才缺乏,但学习数学.统计等专业的人才未来可以培养成为数据科学家. 随着大数据技术的发展,数据挖掘方面的人才变得日益抢手.而<哈佛商业评论> ...

  6. 如何成为一名合格的数据科学家(IT专家网)

    [推荐原因]数据科学集合了计算机.数学.统计等领域的知识技能并应用于某个特定行业领域的业务分析,随着互联网时代的飞速发展,必将出现许多新的理论与方法.看看别人是怎么定义数据科学及数据科学家的.我比较赞 ...

  7. 为什么Kaggle不会让你成为一名出色的数据科学家?

    作者 | Pranay Dave CDA 数据分析师原创作品,转载需授权 毫无疑问,Kaggle是非常适合学习数据科学的平台.许多数据科学家在Kaggle上投入了大量时间. 但同时,你不应该只依靠Ka ...

  8. 如何成为一名「卓越」的数据科学家?

    今天与大家分享一位友人的文章,希望能解决一些数据新人心中的困惑,以便将数据科学的概念形成一个框架,为进一步深入研究打下基础.   编辑于 2017-03-11 @杨滔 ,曾任阿里巴巴集团高级数据挖掘专 ...

  9. 【安全】一名安全数据科学家的日常生活

    云栖号资讯:[点击查看更多行业资讯] 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 导读:目前网络安全领域的工作岗位远远多于合格的人选,所以好消息是网络安全还是一个适合涉足的领域.坏 ...

  10. 数据分析师的基本素养——论如何成为一名数据科学家 Part 1

    https://yq.aliyun.com/articles/69441?spm=5176.100239.bloglist.39.xWRlR1 第二部分 https://yq.aliyun.com/a ...

最新文章

  1. 手把手教你怎么在linux安装c++编译器
  2. 公式免费转 LaTex 代码,截图、转换一气呵成,每月 1000 次全免费
  3. 微信小程序获取不到unionid还有小程序无法解析JSON字符串的问题
  4. hilb--生成Hilbert(希尔伯特)矩阵
  5. 天气预测频繁2项集_986天气| 今年冬天比往年更冷?官方回应来了
  6. 1.3编程基础之算术表达式与顺序执行 11 计算浮点数相除的余数
  7. 设为首页和加入收藏js
  8. numpy数组随机抽取
  9. 两台局域网内的阿里云服务器传文件
  10. 优化百度ueditor编辑器,增加秀米插件、手机端预览等功能,与egg-ueditor完美结合
  11. matlab 合并fig文件,Matlab合并多个.fig文件
  12. 为什么项目经理比程序员工资高?
  13. 商品详情页系统架构-笔记12 - 商品详情页整体架构组成+前端介绍
  14. 盘点那些年BAT字节跳动等互联网公司的程序员、工程师一夜暴富的都市传说
  15. 为什么Windows系统磁盘盘已使用空间大小与磁盘中总文件大小不符?
  16. 《西游记》中话“修行”【转】
  17. UVALive 4126 Password Suspects(AC自动机+dp)
  18. mysql两个日期相减,得到相差的天数
  19. 安装apk报错“解析包时出现问题”
  20. Anaconda 安装错误的解决办法

热门文章

  1. 36 岁清华 IT 男,死前对妈妈说:我好累
  2. GitHub又出新功能了,网友:这也太爽了吧。。。
  3. 66岁比尔盖茨突然宣布离婚!27年前与下属恋爱修成正果,现在“无法共同成长”,分割8000亿财产...
  4. 蚂蚁金服二面,竟然被问到事务的基本原理?
  5. Spring Cloud 2020年路线图发布
  6. 程序员带实习生事后却遭遇白眼狼,吐槽:真TM心累
  7. 送书!60 本签名书!
  8. python使用opencv库_python库(OpenCV的简单使用)
  9. Xcode工作区间xxxx.xcworkspace不包含xxxx.xcodeproj
  10. 让FineUI数据绑定支持dynamic对象