目录

前言

一、数据科学的学科地位

二、统计学

2.1 统计学与数据科学

2.2 数据科学中常用的统计学知识

2.3 数据科学视角下的统计学

三、机器学习

3.1 机器学习与数据科学

3.2 数据科学中常用的机器学习知识

3.3 数据科学视角下的机器学习

四、数据可视化

五、总结



前言

数据科学不是以一个特定理论(如统计学、机器学习和数据可视化)为基础发展起来的,而是包括数学与统计学、特定学科领域理论在内相互融合后形成的新兴学科。本文将对数据科学的理论基础(统计学、机器学习、数据可视化、某一领域实务知识与经验)作一个简要介绍。


一、数据科学的学科地位

从学科定位看,数据科学处于数学与统计知识黑客精神技能和领域实务知识三大区域的重叠之处,如图2所示。图2是Drew Conway首次提出数据科学韦恩图。图3是后来Jerry Overton提出的另一个版本。

"数据与统计知识"是数据科学的主要理论基础之一,但数据科学与(传统)数学和统计学是有区别的。其主要区别如下:

  • 数据学科中的“数据”  != “数值”  and “数据” != “数值”
  • 数据科学中的“计算” != “加、减、乘、除等数学运算”,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型
  • 数据科学的问题 != “单一学科”的问题,还涉及到多个学科的研究范畴,它强调的是跨学科视角
  • 数据学科 != 纯理论研究 and 数据学科 != 领域实务知识,它关注和强调的是二者的结合。

“黑客精神与技能”是数据科学家的主要精神追求和技能要求 --- 大胆创新、喜欢挑战、追求完美和不断改进。

Tips : 此处涉及到黑客道德准则,感兴趣的朋友可以查阅史蒂夫 · 利维的代表作《黑客---计算机革命的英雄》。

“领域实务知识”是对数据科学家的特殊要求 --- 不仅需要掌握数学与统计知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的实务知识与经验。


二、统计学

2.1 统计学与数据科学

数据科学的理论、方法、技术和工具往往来源于统计学。统计学是数据科学的主要理论基础之一。

2.2 数据科学中常用的统计学知识

行为目的与思维方式看,数据统计方法可以分为两大类---描述统计和推断统计。

其中参数估计与假设检验的主要区别如下:

方法论角度看,基于统计的数据分析方法又可分为两个不同层次---基本分析法和元分析方法,如下图所示:

2.3 数据科学视角下的统计学

1.不是随机样本,而是全体数据

2.不是精确性,而是混杂性

3.不是因果关系,而是相关关系


三、机器学习

3.1 机器学习与数据科学

机器学习为数据科学中充分发挥计算机的自动数据处理能力,拓展人的数据处理能力以及实现人机协同数据处理提供了重要手段。

基本思路:以现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。

3.2 数据科学中常用的机器学习知识

1)基于实例学习

基本思路:事先将训练样本存储下来,然后每当遇到一个新增查询实例时,学习系统分析此新增实例与以前存储的实例之间的关系,并据此把一个目标函数赋给一个新增实例。

常用方法:K近邻方法、局部加权回归法、基于案例的推理。

2)概念学习

本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。

具体方法:Find-S算法、候选消除算法等。

3)决策树学习

本质:一种逼近离散值目标函数的过程。它代表的是一种分类过程。

其中:

根节点:代表分类的开始

叶节点:代表一个实例的结束

中间节点:代表相应实例的某一属性

节点之间的边:代表某一个属性的属性值

从根节点到叶节点的每条路径:代表一个具体的实例,同一个路径上的所有所有属性之间是“逻辑与”关系。

核心算法:ID3算法

(4)人工神经网络学习
        人工神经元是人工神经网络的最基本的组成部分。

根据连接方式的不同,通常把人工神经网络分为无反馈的向前神经网络和相互连接型网络(反馈网络)。在人工神经网络中,实现人工神经元的方法有很多种,如感知器、线性单元和Sigmoid单元等。

特征学习方法:深度学习

(5)贝叶斯学习
        定义:它是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法。

常用方法:朴素贝叶斯分类器

(6)遗传算法
        本质:主要研究“从候选假设空间中搜索出最佳假设”。此处,“最佳假设”指“适应度”指标为最优的假设。

遗传算法借鉴的生物进化的三个基本原则:适者生存、两性繁衍及突变,分别对应遗传算法的三个基本算子:选择、交叉和突变。

遗传算法:GA算法

(7)分析学习
        特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。因此,这些假设能使机器学习系统比单独依靠数据进行泛化有更高的精度。

(8)增强学习
        本质:主要研究的是如何协助自治Agent(机器人)的学习活动,进而达到选择最优动作的目的。

基本思路:当Agent在其环境中做出某个动作时,施教者会提供奖赏或惩罚信息,以表示结果状态的正确与否。

根据学习任务的不同,机器学习算法分为:有监督学习、无监督学习和半监督学习。


3.3 数据科学视角下的机器学习

机器学习领域所面临的主要挑战有:

  • 过拟合
  • 维度灾难
  • 特征工程
  • 算法的可扩展性
  • 模型集成

四、数据可视化

数据可视化在数据科学中的地位:

(1)视觉是人类获得信息的最主要的途径。

  • 视觉感知是人类大脑的最主要的功能之一。
  • 眼睛是感知信息能力最强的人体器官之一。

(2)相对于统计分析,数据可视化的主要优势为:

  • 数据可视化处理可以洞察统计分析无法发现的结构和细节。
  • 数据可视化处理结果的解读对用户知识水平的要求较低。

(3)可视化能够帮助人们提高理解与处理数据的效率。

五、总结

通过完成本章的学习,我对数据科学有了一定的了解,对统计学、机器学习、数据可视化有了一定的认识,后面还将花时间进行更加深入的学习。

数据科学理论基础知识汇总---《数据科学理论与实践(第二版)》第二章相关推荐

  1. 【2016年第6期】基于大数据的移动互联网主动运维理论和实践进展

    杨慰民 中国移动通信集团福建有限公司,福建 福州 350003 ‍‍摘要:‍对于非话音的移动互联网业务,即使网络指标是完好的,仍然存在用户感知不佳的现象.基于大数据技术研究用户感知和网络性能指标的关系 ...

  2. 数据如何变成知识(2):数据湖和数据沼泽

    转发自IBM社区:https://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-2/index.h ...

  3. EXCEL数据报表完成财务表格汇总数据查询

    excel财务报表条件匹配,数据汇总 项目要求 主要运用的excel公式 具体实现时的思路 按条件汇总思路 解决困难项标签汇总,用标签汇总其他数据 遇到的操作失误 项目要求 接手一个excel项目,为 ...

  4. 时间序列预测方法汇总:从理论到实践(附Kaggle经典比赛方案)

    ©作者 | Light 学校 | 中国科学院大学 研究方向 | 机器学习 时间序列是我最喜欢研究的一种问题,这里我列一下时间序列最常用的方法,包括理论和实践两部分.理论部分大多是各路神仙原创的高赞解读 ...

  5. 对一千万条数据进行排序---编程珠玑第二版 第一章

    本书第一章提出了一个看似简单的问题,有最多1000万条不同的整型数据存在于硬盘的文件中,如何在1M内存的情况下对其进行尽可能快的排序. 每个数字用4byte,1M即可存储250 000个数据,显然,只 ...

  6. 阿里云服务器入门教程汇总,从理论到实践

    这是一篇纯干货分享帖,不谈个人经验,只搬运牛人的技术"经验". ECS是阿里云很重要的一款云服务产品,大多数人的云端之旅也是从ECS开始,以下知识将从浅入深,从图文到视频,再到最佳 ...

  7. 大数据常见面试问题汇总

    目录 第1章 核心技术 1.1 Linux&Shell 1.1.1 Linux常用高级命令 1.1.2 Shell常用工具及写过的脚本 1.1.3 Shell中单引号和双引号区别 1.2 Ha ...

  8. 数据如何变成知识(3):提取暗数据

    转发自IBM社区:https://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-3/index.h ...

  9. 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!

    作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...

最新文章

  1. Qt5: SpringAnimation
  2. Python中单下划线开头的特性
  3. python编程django项目中ModuleNotFoundError: No module named ‘django.core.urlresolvers‘解决方法
  4. node.js发送邮件
  5. sklearn自学指南(part4)--使用手册的目录
  6. java 指定打印机打印_java 指定打印机 进行打印
  7. STP生成树的选举详细步骤、四个案列详解(附图,建议电脑观看)
  8. android中上拉下滑布局,3年以上勿进!最简单的Android自定义ListView下拉刷新与上拉加载,代码直接拿去用~...
  9. pin码计算器网页版_快对作业APP下载手机版电脑版官方正式上线
  10. 智能优化算法:闪电连接过程算法 - 附代码
  11. linux下默认分区system的id,Linux学习笔记之系统中的分区和文件系统
  12. 计算机房加湿机,数据中心加湿系统计算及方法探讨【新规范加湿方式对比及计算分析】...
  13. axios的简单封装处理
  14. 携手做大做强中国集成电路产业链
  15. oracle10g没有行列转换函数的替代方法(转)
  16. Python数据分析与机器学习47-维基百科词条EDA
  17. PDF文件怎么合并?分享一个简单的方法
  18. SAP中通过格式调整解决导出EXCEL表字段显示不全问题
  19. 数据结构——单向链表
  20. 编程规范(阿里巴巴)

热门文章

  1. 自动售餐机深受顾客欢迎全过程只需2分钟
  2. 【机器学习系列】之SVM核函数和SMO算法
  3. matlab之常微分方程(ODE)求解
  4. 我们做互联网的产品的时候,面对不同的细分市场
  5. 测试系统软件状态,如何测试软件状态
  6. 安卓模拟器Bluestacks《给力助手》测试版,抢先体验
  7. 用友NCV6.1 NC数据库持久化学习
  8. wp主题php修改,修改WordPress主题
  9. JSP中九大内置对象与四大作用域
  10. oracle 10grac搭建,搭建ORACLE 10g RAC过程中出现 OUI-25031 的解决办法