数据科学理论基础知识汇总---《数据科学理论与实践(第二版)》第二章
目录
前言
一、数据科学的学科地位
二、统计学
2.1 统计学与数据科学
2.2 数据科学中常用的统计学知识
2.3 数据科学视角下的统计学
三、机器学习
3.1 机器学习与数据科学
3.2 数据科学中常用的机器学习知识
3.3 数据科学视角下的机器学习
四、数据可视化
五、总结
前言
数据科学不是以一个特定理论(如统计学、机器学习和数据可视化)为基础发展起来的,而是包括数学与统计学、特定学科领域理论在内相互融合后形成的新兴学科。本文将对数据科学的理论基础(统计学、机器学习、数据可视化、某一领域实务知识与经验)作一个简要介绍。
一、数据科学的学科地位
从学科定位看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大区域的重叠之处,如图2所示。图2是Drew Conway首次提出数据科学韦恩图。图3是后来Jerry Overton提出的另一个版本。
"数据与统计知识"是数据科学的主要理论基础之一,但数据科学与(传统)数学和统计学是有区别的。其主要区别如下:
- 数据学科中的“数据” != “数值” and “数据” != “数值”
- 数据科学中的“计算” != “加、减、乘、除等数学运算”,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型
- 数据科学的问题 != “单一学科”的问题,还涉及到多个学科的研究范畴,它强调的是跨学科视角
- 数据学科 != 纯理论研究 and 数据学科 != 领域实务知识,它关注和强调的是二者的结合。
“黑客精神与技能”是数据科学家的主要精神追求和技能要求 --- 大胆创新、喜欢挑战、追求完美和不断改进。
Tips : 此处涉及到黑客道德准则,感兴趣的朋友可以查阅史蒂夫 · 利维的代表作《黑客---计算机革命的英雄》。
“领域实务知识”是对数据科学家的特殊要求 --- 不仅需要掌握数学与统计知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的实务知识与经验。
二、统计学
2.1 统计学与数据科学
数据科学的理论、方法、技术和工具往往来源于统计学。统计学是数据科学的主要理论基础之一。
2.2 数据科学中常用的统计学知识
从行为目的与思维方式看,数据统计方法可以分为两大类---描述统计和推断统计。
其中参数估计与假设检验的主要区别如下:
从方法论角度看,基于统计的数据分析方法又可分为两个不同层次---基本分析法和元分析方法,如下图所示:
2.3 数据科学视角下的统计学
1.不是随机样本,而是全体数据
2.不是精确性,而是混杂性
3.不是因果关系,而是相关关系
三、机器学习
3.1 机器学习与数据科学
机器学习为数据科学中充分发挥计算机的自动数据处理能力,拓展人的数据处理能力以及实现人机协同数据处理提供了重要手段。
基本思路:以现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。
3.2 数据科学中常用的机器学习知识
1)基于实例学习
基本思路:事先将训练样本存储下来,然后每当遇到一个新增查询实例时,学习系统分析此新增实例与以前存储的实例之间的关系,并据此把一个目标函数赋给一个新增实例。
常用方法:K近邻方法、局部加权回归法、基于案例的推理。
2)概念学习
本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。
具体方法:Find-S算法、候选消除算法等。
3)决策树学习
本质:一种逼近离散值目标函数的过程。它代表的是一种分类过程。
其中:
根节点:代表分类的开始
叶节点:代表一个实例的结束
中间节点:代表相应实例的某一属性
节点之间的边:代表某一个属性的属性值
从根节点到叶节点的每条路径:代表一个具体的实例,同一个路径上的所有所有属性之间是“逻辑与”关系。
核心算法:ID3算法
(4)人工神经网络学习
人工神经元是人工神经网络的最基本的组成部分。根据连接方式的不同,通常把人工神经网络分为无反馈的向前神经网络和相互连接型网络(反馈网络)。在人工神经网络中,实现人工神经元的方法有很多种,如感知器、线性单元和Sigmoid单元等。
特征学习方法:深度学习
(5)贝叶斯学习
定义:它是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法。常用方法:朴素贝叶斯分类器
(6)遗传算法
本质:主要研究“从候选假设空间中搜索出最佳假设”。此处,“最佳假设”指“适应度”指标为最优的假设。遗传算法借鉴的生物进化的三个基本原则:适者生存、两性繁衍及突变,分别对应遗传算法的三个基本算子:选择、交叉和突变。
遗传算法:GA算法
(7)分析学习
特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。因此,这些假设能使机器学习系统比单独依靠数据进行泛化有更高的精度。
(8)增强学习
本质:主要研究的是如何协助自治Agent(机器人)的学习活动,进而达到选择最优动作的目的。基本思路:当Agent在其环境中做出某个动作时,施教者会提供奖赏或惩罚信息,以表示结果状态的正确与否。
根据学习任务的不同,机器学习算法分为:有监督学习、无监督学习和半监督学习。
3.3 数据科学视角下的机器学习
机器学习领域所面临的主要挑战有:
- 过拟合
- 维度灾难
- 特征工程
- 算法的可扩展性
- 模型集成
四、数据可视化
数据可视化在数据科学中的地位:
(1)视觉是人类获得信息的最主要的途径。
- 视觉感知是人类大脑的最主要的功能之一。
- 眼睛是感知信息能力最强的人体器官之一。
(2)相对于统计分析,数据可视化的主要优势为:
- 数据可视化处理可以洞察统计分析无法发现的结构和细节。
- 数据可视化处理结果的解读对用户知识水平的要求较低。
(3)可视化能够帮助人们提高理解与处理数据的效率。
五、总结
通过完成本章的学习,我对数据科学有了一定的了解,对统计学、机器学习、数据可视化有了一定的认识,后面还将花时间进行更加深入的学习。
数据科学理论基础知识汇总---《数据科学理论与实践(第二版)》第二章相关推荐
- 【2016年第6期】基于大数据的移动互联网主动运维理论和实践进展
杨慰民 中国移动通信集团福建有限公司,福建 福州 350003 摘要:对于非话音的移动互联网业务,即使网络指标是完好的,仍然存在用户感知不佳的现象.基于大数据技术研究用户感知和网络性能指标的关系 ...
- 数据如何变成知识(2):数据湖和数据沼泽
转发自IBM社区:https://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-2/index.h ...
- EXCEL数据报表完成财务表格汇总数据查询
excel财务报表条件匹配,数据汇总 项目要求 主要运用的excel公式 具体实现时的思路 按条件汇总思路 解决困难项标签汇总,用标签汇总其他数据 遇到的操作失误 项目要求 接手一个excel项目,为 ...
- 时间序列预测方法汇总:从理论到实践(附Kaggle经典比赛方案)
©作者 | Light 学校 | 中国科学院大学 研究方向 | 机器学习 时间序列是我最喜欢研究的一种问题,这里我列一下时间序列最常用的方法,包括理论和实践两部分.理论部分大多是各路神仙原创的高赞解读 ...
- 对一千万条数据进行排序---编程珠玑第二版 第一章
本书第一章提出了一个看似简单的问题,有最多1000万条不同的整型数据存在于硬盘的文件中,如何在1M内存的情况下对其进行尽可能快的排序. 每个数字用4byte,1M即可存储250 000个数据,显然,只 ...
- 阿里云服务器入门教程汇总,从理论到实践
这是一篇纯干货分享帖,不谈个人经验,只搬运牛人的技术"经验". ECS是阿里云很重要的一款云服务产品,大多数人的云端之旅也是从ECS开始,以下知识将从浅入深,从图文到视频,再到最佳 ...
- 大数据常见面试问题汇总
目录 第1章 核心技术 1.1 Linux&Shell 1.1.1 Linux常用高级命令 1.1.2 Shell常用工具及写过的脚本 1.1.3 Shell中单引号和双引号区别 1.2 Ha ...
- 数据如何变成知识(3):提取暗数据
转发自IBM社区:https://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-3/index.h ...
- 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!
作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...
最新文章
- Qt5: SpringAnimation
- Python中单下划线开头的特性
- python编程django项目中ModuleNotFoundError: No module named ‘django.core.urlresolvers‘解决方法
- node.js发送邮件
- sklearn自学指南(part4)--使用手册的目录
- java 指定打印机打印_java 指定打印机 进行打印
- STP生成树的选举详细步骤、四个案列详解(附图,建议电脑观看)
- android中上拉下滑布局,3年以上勿进!最简单的Android自定义ListView下拉刷新与上拉加载,代码直接拿去用~...
- pin码计算器网页版_快对作业APP下载手机版电脑版官方正式上线
- 智能优化算法:闪电连接过程算法 - 附代码
- linux下默认分区system的id,Linux学习笔记之系统中的分区和文件系统
- 计算机房加湿机,数据中心加湿系统计算及方法探讨【新规范加湿方式对比及计算分析】...
- axios的简单封装处理
- 携手做大做强中国集成电路产业链
- oracle10g没有行列转换函数的替代方法(转)
- Python数据分析与机器学习47-维基百科词条EDA
- PDF文件怎么合并?分享一个简单的方法
- SAP中通过格式调整解决导出EXCEL表字段显示不全问题
- 数据结构——单向链表
- 编程规范(阿里巴巴)