原文:http://vision.cloudera.com/24195/。

译文:

每天我都能看到大数据怎样改变我们生活的文章。数据科学家们正在生物医药领域找寻新的方法治愈癌症。帮助银行与欺诈做斗争,警察打击与毒品有关的犯罪,以及明星球员间的斗争。

看上去我须要的是一个象Hadoop的分析平台和一大堆数据,然后可操作的见解就会扑过来,对吗?嗯,不全然是。尽管Hadoop把困难的事情变easy了、把不可能的事情变得可能,可是我们仍然得弄清楚我们要寻找什么,一旦我们知道了答案还必须理解那意味着什么。

体积、速度和大数据的多样性让聚焦于某一点变得困难,而我们的洞察力由于无法忽略细节而变得更困难。

寻找有意义的模式并把它们转换成可操作的见解,须要大量的计算机、先进的软件。专家们使用这些工具告诉我们这些信息的意义。

这就是数据的科学。

数据科学的定义

与其它科学家一样,数据科学家先提出如果,然后做实验,并依据结果断定如果是否成立。

但在大数据领域,过程并没有这么简单。

首先。要在一大堆数据集中积累足够支持如果的数据。

第二,数据科学很多其它的是分析而不是实验,这意味着数据在第一步已经整理完成。控制实验是不可能的。

相反,数据科学家必须通过细致的建模。以逆向project的实验方法。

第三,数据科学家证明一个假说并从数据中发现实用的模式后,真正的工作才開始。

挑战在于把这样的模式变成一种数据产品。能够用于分析新数据或运行正在进行的预測分析。

一个有抱负的数据专家必须具备极高要求并具有多种技能:统计。编程。机器学习和多种技术(如Hadoop。R,可视化工具)。

此外。最好的数据专家不尽同样。他们通过各自领域内的(如生命科学,行为学,气象学)应用软件技巧、讲故事、好奇心、机制、持久性和心理素养等,为他们所服务的公司创造价值。数据专家的要求如此之高,这就是为什么麦肯锡全球研究院、哈佛商业评论和Gartner集团断定在未来几年的同类项目人才缺口达几十万的原因。

造成数据专家供应失衡的更复杂的原因在于无法对通过专业验证对数据专家的能力进行评估。少数大学开设了高级分析和数据科学专业,它要求数据人员花费大量的时间和资源以获得完整的学术背景。但这不足以验证他们具备数据分析领域的能力和经验。

如今尚无国际性的数据科学研究所。负责招聘的经理们大多数都没有数据科学经验。而一份简历或面试根本证明不了什么。

这个人才缺口和人才不能被验证的对立问题仅仅会变得更加严重。由于小企业也開始积累大数据并寻找该领域的人才。

解决方式的一部分是由实际的数据专家建立了一个正式的数据科学课程。

Cloudera提供了一个极好的为期三天的数据科学课程,教授基础知识。并训练学员在数据科学明星Jeff Hammerbacher 和 Josh Wills的视角下建立自己的推荐系统。

该解决方式的还有一个组成部分是公共数据科学比赛,通过竞赛让參与者积累经验并在现实的环境中证明自己的能力。

塑造行业的挑战

对一份起薪30万美元/年的工作而言,接受多少教育和实践才够呢?一个正式的行业认证将是最有价值的。它能给企业一个已知的尺度来衡量从业人员。

在Cloudera,我们借鉴我们的行业领导地位和现实世界的经验,通过早期的语料库来填补这一空白。我们最近推出了一个由两部分组成的Cloudera认证专家:数据专家(Cloudera Certified Professional: Data Scientist CCP:DS)的程序。它由数据科学要点考试和每年2次的数据科学挑战组成,从而帮助候选人证明他们的能力以及帮助雇主识别精英、发现高水平的数据专家。顺利通过认证的參与者将会是世界上最称职(和很性感)的数据专家。

除了认证,CCP:DS还包括了一个60道数据科学题库(帮助參与者自我评估)和一个免费的数据科学挑战套装。

该套装提供一个实时数据集、教程和具体的解释手冊,解释手冊的作用是为了得到真实世界数据问题的正确结果。须要集中在分类、集群和网络分析的协调过滤。

眼下的数学挑战今天開始(注:2014年3月31日),直到6月30日。它由Cloudra的数据科学总监SeanOwen设计,挑战要求应试者通过一个巨大的匿名医疗数据库找出医疗保险索赔可能产生的错误和异常。成功的參与者应该建立一个科学数据模型回答一系列问题,包含:

l 哪些医疗程序的成本有最高的相对方差?

l 平均索赔金额最高的哪三个供应商的程序数量最多?

l 从数量和程序类型来看,哪三个供应商和地区是与别人最不一样的?

l 审查1万名可能出现错误或异常的病人,描写叙述这些病人的特征。

转载于:https://www.cnblogs.com/yxwkf/p/5279238.html

Cloudra公司CCP:DS——认证数据专家相关推荐

  1. 上海浦发银行总行信息科技部大数据专家陈春宝:大数据与机器学习重塑零售银行业务...

    人工智能.区块链.容器技术等新兴技术的快速演进和发展,正在不断地推进企业数字化变革.8月10日,由上海市经济和信息化委员会.上海市国有资产监督管理委员会指导,上海市国有资产信息中心.上海市计算机用户协 ...

  2. 成为数据专家,你只差一个Quick Insights的距离

    成为数据专家,你只差一个Quick Insights的距离 微软亚洲研究院 2015年12月22日   身处如今的大数据时代,你真的知道如何处理数据和分析数据吗?或许那些被你忽视的数据背后就暗藏着重要 ...

  3. We Are Cisco|25年后,为什么我仍是思科认证互联网专家

    今天小编为大家带来Phillip Remaker (CCIE #1034)的博文分享 我们能做什么 嗯,从哪里说起呢? 从头说起吧,那是25年前. 1992年我加入思科技术援助中心(TAC).那时还没 ...

  4. CCF受理“大数据专家委员会”2019年委员与通讯委员申请

    中国计算机学会(CCF)于2012年10月由李国杰院士牵头成立大数据专家委员会(CCF Task Force on Big Data,以下简称:大数据专委会).区别于专业委员会,大数据专委会是CCF成 ...

  5. 大数据专家手把手教你打造实时数据湖

    数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长.数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,这使得通用计算引擎(如Spark.Flink).交互式分析系 ...

  6. 黄东旭当选 CCF 数据库专业委员会、开源发展委员会、大数据专家委员会执行委员

    近日,CCF 数据库专业委员会.大数据专家委员会分别公布了执行委员最新名单,PingCAP 联合创始人兼 CTO 黄东旭成功当选数据库专业委员会.大数据专家委员会执行委员.此外,CCF 开源发展委员会 ...

  7. 马哥教育大数据专家:深入解读大数据的就业前景

    现在大数据越来越火热,很多人早早听说了大数据的名声,但对于大数据工程师这个职业的具体内容了解的还是不够.今天马哥教育(magedu.com)大数据专家为大家带来一份关于大数据工程师的详细分析,值得收藏 ...

  8. cad图纸导入ai尺寸变了_AI公司导入欧洲个人数据变得更加困难

    cad图纸导入ai尺寸变了 In a judgment issued last week, the European Court of Justice invalidated the EU-U.S. ...

  9. 我的VMware认证设计专家(VCDX)之路-经历篇

    作者:范军 (Frank Fan) 新浪微博:frankfan7 此文是我的VMware认证设计专家(VCDX)之路的续篇. 引子 是什么让我决定挑战VCDX? 借机会拽一把. 请问你为什么登山?因为 ...

最新文章

  1. Python学习之路7-函数
  2. Android 导出traces.txt 遇到的坑
  3. One order event display tool
  4. windows 下 MyEclipse 逆向工程生成hiberate 对应配置文件以及 javaBean。
  5. IDEA 在头注解上添加用户名称和时间
  6. 简单理解L0、L1与L2范数
  7. 在线字符串长度计算,字符串统计工具
  8. Linux find 命令概览
  9. java web filter 入口_springboot 通过@WebFilter(urlPatterns )配置Filter过滤路径
  10. win10连接计算机,win10怎么连接局域网打印机
  11. 基于面积对比法的图形匹配
  12. 1980年的图灵奖获得者-C. Antony R. Hoare
  13. MDP 与 贝尔曼方程
  14. 全文翻译:Deep Learning for Image Super-resolution: A Survey
  15. Linux搭建FTP服务使用案例
  16. VM 将宿主机文件夹 映射至 虚拟机以及vm tools【共享文件夹、复制粘贴、拖动上传下载】
  17. C语言中的指针应用,函数指针,指针函数,结构体中定义函数指针。
  18. 手把手教你,5min中,实现OBS存储桶,搭建个人网盘(秒杀百度网盘VIP)
  19. 计算机桌面内存,电脑内存怎么清理
  20. 标准解读系列之六:车联网网络安全标准进展

热门文章

  1. 通过DOS 将FAT32转为NTFS,NTFS转FAT32
  2. 网站内页关键词与描述设置方法
  3. 从APP角度看复杂表格的交互绘制
  4. 【学习笔记】win10报0xc0000221错误无法开机
  5. 爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别
  6. java:大数处理之超级计算器
  7. 搜狗浏览器收藏夹目录设置
  8. 手机卡机不见的文件怎么恢复
  9. 都有哪些好用的设备维护管理软件?这5款值得一试
  10. Tampermonkey插件安装出现“无法从该网站添加应用、扩展程序和用户脚本”问题解决