最近被问到了一个问题:Data Science是干什么的?

尽管一直在说Data Science,但是还真的没有深入的、认真的研究过它的起源。

Data Science,数据科学,一般的解释是:

数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”

简单来讲:数据科学是一门将数据变得有用的学科。

看看IBM的描述:https://www.ibm.com/analytics/data-science

What is data science, and why does it matter?

Data science is the process of using algorithms, methods, and systems to extract knowledge and insights from structured and unstructured data. It uses analytics and machine learning to help users make predictions, enhance optimization, and improve operations and decision making.

Today’s data science teams are expected to answer many questions. Business demands better prediction and optimization based on real-time insights backed by tools for ModelOps and cloud data science.

The data science lifecycle starts with gathering data from relevant sources, cleaning it and putting it in formats that machines can understand. In the next phase, statistical methods and other algorithms are used to find patterns and trends. Then models are programmed and built to predict and forecast; finally, results are interpreted.

Advances in AI, machine learning and automation have raised the standards of data science tools for business. The result is the formation of data science teams — expert data scientists, citizen data scientists, programmers, engineers and business analysts — that extend across business units.

The opportunity here is massive. The automation of tedious data science tasks such as data preparation, and the empowerment of analysts without coding experience (00:21) to build models, keeps business agile and innovative. Automating the data science lifecycle frees expert data scientists to address the more interesting and innovative aspects of the field. Human intelligence — combined with data science technology and automation — helps a business extract greater value from data.

什么是数据科学,为什么它重要?

数据科学是使用算法、方法和系统从结构化和非结构化数据中提取知识和见解的过程。它使用分析和机器学习来帮助用户进行预测,增强优化,并改进操作和决策。

今天的数据科学团队预计将回答许多问题。业务需要更好的基于实时洞察的预测和优化,这些洞察得到了ModelOps和云数据科学工具的支持。

数据科学的生命周期始于从相关来源收集数据、清理数据并将其转换为机器可以理解的格式。在下一阶段,统计方法和其他算法被用来寻找模式和趋势。然后编程并建立模型进行预测和预测,最后对结果进行解释。

人工智能、机器学习和自动化的进步提高了商业数据科学工具的标准。其结果是数据科学团队的形成——专家数据科学家、公民数据科学家、程序员、工程师和业务分析师——扩展到业务部门。

这里的机会是巨大的。繁琐的数据科学任务(如数据准备)的自动化,以及在没有编码经验的情况下(00:21)赋予分析师构建模型的能力,保持了业务的敏捷性和创新性。数据科学生命周期的自动化使专家数据科学家能够处理该领域更有趣和创新的方面。人类智能与数据科学技术和自动化相结合,帮助企业从数据中获取更大的价值。

在 University of Minnesota 的课程页面上可以看到: https://datascience.umn.edu/

The University of Minnesota offers both undergraduate and graduate programs in data science. The links at the top of the page provide information for prospective and currently enrolled students.

The amount of data being generated is increasing at a rapid rate with more than 90% of the data in the world being created in just the last few years. This trend is universal and covers every aspect of today’s social, economic, scientific, engineering, civic, and artistic activities. This data holds valuable information that can be used to improve all these activities by either solving existing problems better or leading to new discoveries, new technologies, and new services. Due to its ability to power innovations, our world today considers data to be the new oil.

Data science majors possess an extensive set of analytical, computational, and software engineering skills along with strong verbal, written, and visual communication skills in order to realize the value hidden in this vast amount of data, and effectively communicating their findings and solutions.

At the heart of the data scientist is a passion to improve things by leveraging the patterns and information that is often hidden in large amounts of data. Data scientists often start by conceiving a new data-driven solution to an existing problem or an entirely new data-driven service. They proceed to identify the data sources or create new data collection systems in order to obtain the required relevant data. This often involves working with cloud-based “Big Data” infrastructures, designing data collection processes, developing data access APIs, and creating sophisticated data cleaning, extraction, and selection algorithms and processes. Then they use their analytical and programming expertise to explore the space of possible solutions in order to select the appropriate data analysis approaches, implement them on large-scale cloud-based data analysis computing systems, and design robust ways to assess their validity and performance. This often requires close collaboration and ongoing communication with domain-experts, the end-users of their solutions, and managers.

明尼苏达大学提供数据科学的本科和研究生课程。页面顶部的链接为未来和当前注册的学生提供信息。

正在生成的数据量正以快速的速度增长,在过去几年中,世界上90%以上的数据都是在生成的。这一趋势是普遍的,涵盖了当今社会、经济、科学、工程、公民和艺术活动的方方面面。这些数据包含有价值的信息,可以用来改进所有这些活动,或者更好地解决现有的问题,或者导致新的发现、新的技术和新的服务。由于其推动创新的能力,我们今天的世界认为数据是新的石油。

数据科学专业拥有广泛的分析、计算和软件工程技能,以及强大的口头、书面和视觉沟通技能,以实现隐藏在海量数据中的价值,并有效地传达他们的发现和解决方案。

数据科学家的核心是通过利用通常隐藏在大量数据中的模式和信息来改进事物。数据科学家通常从构思一个新的数据驱动解决方案或一个全新的数据驱动服务开始。他们继续确定数据源或创建新的数据收集系统,以获得所需的相关数据。这通常涉及到使用基于云的“大数据”基础设施、设计数据收集流程、开发数据访问api,以及创建复杂的数据清理、提取和选择算法和流程。然后,他们利用自己的分析和编程专业知识来探索可能的解决方案空间,以便选择合适的数据分析方法,在大规模基于云的数据分析计算系统上实现这些方法,并设计健壮的方法来评估其有效性和性能。这通常需要与领域专家、解决方案的最终用户和管理者进行密切协作和持续沟通。

数据科学的主要工作?

分为四部分:归纳问题、准备探索数据、模型训练检验调整、报告和产品。

1. 归纳问题

客户给公司的任务,或者头头给分析师的任务,不是一个具体的任务(用 xx 模型来做 xx 数据),而是一个具体的商业问题。比如,上个季度为什么盈利下降了。这就是一个归纳问题的环节,需要有专业知识帮助我们找到方向。

2. 准备探索数据

归纳问题结束之后,会产生很多假设,这就需要寻找数据验证假设。

寻找数据一般是竭尽所能,比如收入不好与市场推广有关,就会去寻找广告商的数据。

寻找数据以后,要检查数据质量,是否有异动、缺失等等。数据质量能够决定模型的准确率所以花在“清洗整理”数据上的时间要占到总时间的 60% 甚至更多,有时候也需要跟客户进行交流。

检查完质量以后,做一些探索性分析

3. 模型训练检验调整

先确定模型基本类型(回归、聚类等),选取比较合适的模型进行搭建,用 test 对模型进行检验。检验的同时再去寻找模型最优的参数配置,对模型进行预测,如果预测结果很好的话,建模过程就结束了。

4. 报告和产品

在咨询公司中,模型做完以后,会和客户进行交流,看是否符合实际。在科技公司中,模型往往会发展成一个产品。放在公司平台上测试,或者发布到网上。


Data Scientist

简单的说,Data Scientist 需要具备的能力:

(1)业务领域的知识

Data Scientist 是不能脱离业务领域的,需要具备所研究问题的业务领域的知识。

(2)程序开发和大数据分析处理的能力

一般来说,数据科学专业大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。

(2)数学、统计、数据挖掘的能力

除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言和环境,如:R 和 Python等都是非常流行的。

(3)数据可视化能力

信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。

与 Data Science 相关的职位可能有很多种不同的叫法,不同公司根据不同的背景,有以下叫法:

Data Scientist:科技公司中用的比较多,很多要求 PhD 的学历。

Data Analyst:金融业用的比较多。

Risk Manager / Risk Management:金融公司里用的比较多。

Business Analyst:与 Data Analyst 类似,但更加注重商业,技术方面的要求相对较低。

Data Engineer:一般是科技公司采用这个职位,偏向 CS 专业,需要负责数据存储、实时处理的工作,对系统、programming 的要求更多。

Statistician:如 Google。偏向统计,要求较为深入地理解概率统计。

Statistic Scientist:如亚马逊。

Research Scientist:与 Data Analyst 相关。


发展过程

这里:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 给出了 Drew Conway 画的一幅维恩图,来说明 Data Science:

这里指出了数据科学需要具备的能力:黑科技能、数学和统计的知识、其它实际性的业务知识。

我们再看看麦肯锡是怎么说的。

在2011年的时候,麦肯锡发表了《Big Data: the next frontier for innovation, competition, and productivity》提出了现在很多的公司已经开始往分析才能(analytical talent)中获得竞争优势。虽然这不是第一篇提出这个概念的公司,但是是第一次提出,数据分析能力也有助于商业公司去发现潜在的机会,而不仅仅只对技术公司有效。接着麦肯锡认为到了2018年,美国大约会有190,000的项目缺少“深度分析能力(Deep Analytical Talent)”,而这些深度分析能力,是由大数据(big data)驱动的。至此,麦肯锡将”商业分析”进一步形容为”深度分析能力”。

点击链接:https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/big-data-the-next-frontier-for-innovation

接着DJ Patil和Jeff Hammerbacher在其写的《Building Data Science Teams》,将麦肯锡的“深度分析能力”称为了“数据科学家(data scientists)”。他们在文中提到:

商业分析师(business analyst)看起来太局限了,数据分析师(data anlyst)是他们的竞争者,但是我们还是觉得这个称呼太局限了。....我们认为最好的称呼应该是”数据科学家(data scientist)”,因为这些人需要同时使用数据(data)和科学(science)去创造一些新的东西。

紧接着,DJ Patil加了一些关键特点用于去寻找一个数据科学家(data scientist):

  1. 专业技术(Technical expertise): 最好的数据科学家需要有关于某些科学学科的深度专业知识(deep expertise)。
  2. 好奇心(Curiosity): 一个优秀的数据科学家需要有挖掘潜在关系,解决问题和证明假说的强烈好奇心和渴望。
  3. 讲故事的能力(Storytelling): 能用数据讲一个生动的故事的能力,它能使交流更加有效。
  4. 聪明(Cleverness): 能够创造性地解决问题的能力。

随后,数据科学家这个概念才开始被广为流传。

点击链接:http://radar.oreilly.com/2011/09/building-data-science-teams.html

Data Scientist 需要的能力

查看链接:https://oralytics.com/2012/06/13/data-science-is-multidisciplinary/

事实是,一个数据科学家的技能集会大得多。俗话说“万事通,一事无成”。当你成为一名数据科学家时,你需要有点像这样,但也许更好的说法是“万事通,万事通”。

我把下面的图表放在一起,其中包括了大多数技能和一些更基本的技能。正是这种技能的外环才是成为数据科学家的基础。图表内部的技能是大多数人在其中一个或多个方面都有一定经验的技能。其他的技能可以随着时间的推移而发展和学习,这都取决于你是什么样的人。

Data Science其实是多领域的结合,Data Scientist 需要多种领域的综合知识和能力。

再来看一张图:

来源于:https://www.linkedin.com/pulse/20140625043146-111366377-data-science-bridging-the-business-it-gap

随着每一次迭代,数据科学家开始越来越像独角兽,而不像“深度分析人才”。

具有讽刺意味的是,数据科学家们不断扩大的期望是他们自身成功的产物。向管理人员提供建议、深入了解技术问题、进行沟通的能力(插入无止境的列表)表明,企业领导人将数据科学家视为一座桥梁,最终能够以更持久、更高效的方式将IT和业务联系起来。

不幸的是,许多专注于技术的专业人士认为,开发业务技能的义务是一项微不足道的、不必要的任务。不过,这不一定!

本质上,这是解决业务问题的基本框架。虽然它不会让你成为战略专家,但它将有助于推进对话,使你的目标与业务保持一致。

总结一下:

Data Science 涉及多个领域,而一名 Data Scientist 也需要多方面的技能,并不是简单的了解和掌握:统计学知识、数据知识、数据挖掘知识或者机器学习知识就够了。

参考文章中的内容:

These might look something like this:

Core Skills

Basic CS, Software Development, Tools
 Data Engineering (Distributed Computing, etc.)
 Scientific Training, Mathematics, Modeling, Theory
 Focus Areas

 Machine Learning
 Business Analytics
 Graph Mining / Network Intelligence
 Text Mining / Information Retrieval
 Data Visualization
 etc.
 Domain Expertise

Finance
 Consumer Internet
 Oil & Gas
 Bioinformatics
 Physics
 Advertising
 etc.


数据挖掘 VS. 机器学习 VS. 人工智能

数据挖掘 (data mining): 有目的地从现有大数据中提取数据的模式(pattern)和模型(model)

数据挖掘是从现有的信息(existing information)中提取数据的模式(pattern)和模型(model),即精选出最重要的信息,以用于未来机器学习和AI的数据使用。

其核心目的是找到数据变量之间的关系。其发展出来的主要原因是大数据的发展,用传统的数据分析的方式已经无能处理那么多大量的看似不相关的数据的处理,因此需要数据挖掘技术去提取各种数据和变量之间的相互关系,从而精炼数据。

数据挖掘本质上像是机器学习和人工智能的基础,他的主要目的是从各种各样的数据来源中,提取出超集(superset)的信息,然后将这些信息合并让你发现你从来没有想到过的模式和内在关系。这就意味着,数据挖掘不是一种用来证明假说的方法,而是用来构建各种各样的假说的方法。数据挖掘不能告诉你这些问题的答案,他只能告诉你,A和B可能存在相关关系,但是它无法告诉你A和B存在什么相关关系。

当然,数据挖掘会使用大量机器学习的算法,但是其特定的环境和目的和机器学习不太一样。

机器学习(machine learning): 自动地从过往的经验中学习新的知识。

机器学习其实是人工智能很重要的一部分,因为目前,在实践过程中,大多数的人工智能处理的任务,其实是用机器学习的方式完成的。机器学习可以用程序和算法自动地学习,只要被设计好了,这个程序可以进行自我优化。同时,机器学习需要一定数量的 训练数据集(training data set),用于构建来自过往经验的“知识” 。

机器学习目前在实践中最重要的功能便是 预测 结果。比如机器学习已经学习结束了,现在有一个新的数据集x,需要预测其分类,机器学习算法会根据这个新数据与学习后的“知识”相匹配(实际上,知识指的是学习后的数学模型),然后将这个数据集x分类某类C去。再比较常见的机器学习,比如amazon的推荐系统。

人工智能(AI): 一个广泛的概念,本质是用数据和模型去为现有的问题(existing problems)提供解决方法(solutions).

人工智能是一个与机器学习和数据挖掘相对不同的概念,人工智能的目的是为了去创造有智力的电脑(不知道怎么翻译好,可以假设其为机器人)。在实践中,我们希望这个电脑可以 像有智力的人一样处理一个任务。因此,理论上人工智能几乎包括了所有和机器能做的内容,当然也包括了数据挖掘和机器学习的内容,同时还会有监视(monitor)和控制进程(process control)的内容。

Data Science 到底是什么?相关推荐

  1. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  2. 我们分析了全美Top Business Analyst 和 Data Science专业,最后给你总结了这几点

    身边很多朋友提过或者是想要走进大数据这个行业 每个人的Background不一样,能力,擅长的领域都不一样 小编有一句发自肺腑的话要说给大家听: 不是热门的,薪水高的,所谓好找工作的专业就值得去学: ...

  3. 软件性能工程(3)-Data science for mobile OS system optimization

    做些铺垫 当今嵌入式设备OS系统优化面临的挑战难题有: 造成发热,卡顿,待机时间差的主要瓶颈是什么? 当设置内核,JVM,资源管理功能的参数时,到底该怎么设置才合理? 如何全面的评估某个算法的优化效果 ...

  4. Data Science Challenge / Competition

    文章目录 Kaggle DrivenData CodaLab - Home Challenge Data crowdAI EvalAI Numerai SIGNATE Unearthed Google ...

  5. python选课系统_【精选】在Monash读Data Science,人人都拥有这样一份选课指南。

    点击上方"蓝字",关注最适合你的学习咨询 前言 1.课程难度因人而异,课程作业也可能每学期变动,所以大家结合个人实际情况参考借鉴. 2.本指南系列只描述了比较最主流的课,冷门课程资 ...

  6. Python Data Science的多版本多环境管理工具Anaconda

    简介 python开发中存在2个版本: python2和python3,这2个版本有细微的不同,在OS上安装2个版本并很好地管理各自的依赖包,并不是一个很好的事情. 再者,在团队开发中,每个开发者的环 ...

  7. tableau for循环_Tableau for Data Science and Data Visualization-速成课程

    tableau for循环 Tableau is software that can help you see and understand your data. It is used for dat ...

  8. STATS 4014 Advanced Data Science

    STATS 4014 Advanced Data Science Assignment 3 Jono Tuke Semester 1 2019 CHECKLIST : Have you shown a ...

  9. Tableau数据分析:NC Retail Order Data(英)Data Science Program Lab#1(GTI)

    Tableau数据分析:NC Retail Order Data(英) NCSU 2021 Summer Online Data Science Author:©Sylvan Ding

最新文章

  1. 某资深互联网人分析:支付宝面临巨大困难,被微信争夺市场,年轻用户流失严重...
  2. 常用的异常检测算法有哪些?
  3. 数组反向遍历ios_iOS开发实用技巧—Objective-C中的各种遍历(迭代)方式
  4. Dx11DemoBase 基类(二) 初始化 DirectX11 的 4个基本步骤
  5. 计算机蠕虫是一个程序或程序系列,它采取截取口令并试图在系统中,计算机蠕虫病毒是一个程序或程序系列,它采取截取口令并试图在系统中做非法动作的方式直接攻击计算机。...
  6. linux重启memcache_Linux下的Memcache安装方法
  7. Java VisualVM远程监控JVM
  8. [面试] 算法(八)—— 树
  9. @Autowired @Qualifier
  10. ArcGIS Pro 性能诊断
  11. 分布式之Zookeeper使用
  12. mysql的安装包,可直接下载5.6.43
  13. 2020软考论文想要拿高分,要避开这些坑!
  14. 计算机主板外部接口功能,笔记本电脑主板接口功能分享
  15. 设置及清除Excel打开密码的两种方法
  16. 【python爬虫】求人不如求己,自己动手写一个CSDN博客备份小工具?
  17. luogu P3527 [POI2011]MET-Meteors
  18. 使用 certbot 申请泛域名证书和自动续签
  19. 基于js实现页面图片消除
  20. Opencv Surf特征实现图像无缝拼接生成全景图像(三)

热门文章

  1. 2021-11-02
  2. 如何让手机 1 秒打开健康码,任何机型!
  3. 路由器端口映射以及远程连接
  4. mysql中日期相减_Excel日期和时间运算
  5. 蒙特卡洛方法 (Monte Carlo Method)(5)
  6. 封装PC端使用海康插件播放摄像头直播流(基于VUE)
  7. 调试stvd遇到的问题
  8. 2020第五届上海第二工业大学新生程序设计竞赛(Java题解)
  9. GUI:简易计算器设计
  10. Android开发(四):在标题栏右上角实现菜单(三个点)