数据科学导论--2.理论基础
目录
2.1 数据科学的学科地位
2.2 统计学
1.统计学是数据科学的主要理论基础之一。
2.常用的统计学知识:
3.统计学与机器学习的区别与联系
4.数据科学视角下的统计学
2.3 机器学习
1.机器学习基本思路
2.机器学习三要素
3.KNN算法
4.概念学习
5.决策树学习
6.人工神经网络学习
7.贝叶斯学习
8.遗传算法
9.分析学习
10.增强学习
2.4 数据可视化
2.1 数据科学的学科地位
从学科地位看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处:
数据科学并不是以一个特定理论为基础发展起来的,而是包括数学与统计学、计算机科学与技术、数据工程与知识工程、特定学科领域的理论在内的多个理论相互融合后形成的新兴学科。
2.2 统计学
1.统计学是数据科学的主要理论基础之一。
2.常用的统计学知识:
i.从行为目的与思维方式看,统计方法可以分为两大类:描述统计和推断统计。
描述统计:
采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。
• 集中趋势分析:数值平均数、位置平均数等。
• 离中趋势分析:极差、分位差、平均差、方差、标准差、离散系数等。
• 相关分析:正相关、负相关、线性相关、线性无关等。
推断统计:
常用的推断方法有:参数估计和假设检验。
ii.从方法论角度看,基于统计的数据分析方法又可分为:基本分析法和元分析法。
基本分析法
• 用于对“低层数据(零次或一次数据)”进行统计分析的基本统计分析方法。
元分析法
• 用于对“高层数据(二次或三次数据)”,尤其是对基本分析法得出的结果进行进一步分析的方法。
• 常用的元分析法:加权平均法和优化方法
3.统计学与机器学习的区别与联系
1.从理论和方法角度看,统计学方法可以应用于机器学习,反之亦然。
2.统计学需要事先对处理对象的概率分布做出假定而机器学习不用。
3.二者之间存在着联系:
4.数据科学视角下的统计学
大数据思维在传统思维基础上的转换:
2.3 机器学习
1.机器学习基本思路
以现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。
2.机器学习三要素
•任务(T)
•性能指标(P)
•经验来源(E)
3.KNN算法
•主要解决训练样本集中的每个样本的分类标签已知的条件下,如何为一个新增数据给出对应的分类标签。
•关键在于“计算新增数据的特征与已有样本特征之间的相似度”。
4.概念学习
本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。(Find-S算法)
5.决策树学习
本质:一种逼近离散值目标函数的过程。(决策树代表一种分类过程。)
核心算法:ID3算法。
6.人工神经网络学习
人工神经元是人工神经网络的最基本的组成部分。
• 实现人工神经元的方法:感知器( Perceptron)、线性单元( Linear Unit)和 Sigmoid单元( Sigmoid Unit)等。
深度学习的关键在于计算观测数据的分层特征及其表示,其中高层特征或因子由底层得到。
7.贝叶斯学习
贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段学习的方法。
8.遗传算法
主要研究的问题:
从候选假设空间中搜索出最佳假设: “最佳假设”指“适应度( Fitness)”指标为最优的假设。
三个基本算子:
选择、交叉、突变。
9.分析学习
分析学习是相对于归纳学习的提法。特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。
10.增强学习
主要研究:如何协助自治 Agent的学习活动,进而达到选择最优动作的目的。
2.4 数据可视化
重要地位主要表现:
(1)视觉是人类获得信息的最主要途径。
(2)相对于统计分析,数据可视化的主要优势体现在两个方面:
• 数据可视化处理可以洞察统计分析无法发现的结构和细节。
• 数据可视化处理结果的解读对用户知识水平的要求较低。
(3)可视化能够帮助人们提高理解与处理数据的效率。
数据科学导论--2.理论基础相关推荐
- 山东大学软件学院2022-2023数据科学导论知识点整理【软工大数据课组】
每年考点变化较大,仅供参考 CSDN的排版能力有限,因此留pdf版本,祝大伙全部95+,呼呼 山东大学软件学院2022-2023数据科学导论知识点整理[软工大数据课组]-统计分析文档类资源-CSDN文 ...
- 数据科学导论 考试有感 2019 山东大学
数据科学导论 考试有感 2019 山东大学 数据科学导论 数据科学导论 平时分50分 有4个实验 两个人一组 爬虫.实体融合.twitter.MapReduce 3道题 简答:各种距离 设计:MapR ...
- 数据科学导论_数据科学导论,数据理解和准备
数据科学导论 Data science, machine learning, data mining, advanced analytics, or however you want to name ...
- python数据科学导论_数据科学导论:Python语言(原书第3版)
数据科学导论:Python语言(原书第3版) 作者:(意)阿尔贝托·博斯凯蒂;(意)卢卡·马萨罗 著 出版日期:2020年02月 文件大小:48.52M 支持设备: ¥50.00 适用客户端: 言商书 ...
- 数据科学导论python语言实现_数据科学导论:Python语言实现(原书第2版)
数据科学导论:Python语言实现(原书第2版) 作者:(意)阿尔贝托·博斯凯蒂(Alberto Boschetti);(意)卢卡·马萨罗(Luca Massaron) 著 出版日期:2018年01月 ...
- 山东大学数据科学导论笔记
数据科学导论这门课,怎么说呢.老师也不知道教了什么,学生也不知道学了什么,莫名其妙考试也不知道靠什么.这里整理了一点笔记,仅供考试前参考!!. ch1 引言 引言这一章,基本上不会出题,了解即可. 数 ...
- 读书笔记数据科学入门————数据科学导论
数据科学导论 数据的用处:在数据中寻找隐藏问题的答案 数据科学是什么:就是从数据中剥离出真理. 在实际生活中数据的重要性,例如Facebook上的家乡居住地信息,不仅可以帮助朋友找到你的位置,同时网站 ...
- 数据科学导论学习小结——其三
数据科学导论学习小结--其三 这是笔者大学二年级必修科目<数据科学基础>个人向笔记整理的第三部分,包含第六.第七两个章节.本笔记内容基于清华大学出版社<数据科学导论-探索数据的奥秘& ...
- 数据科学导论学习小结——其一
数据科学导论学习小结--其一 这是笔者大学二年级必修科目<数据科学基础>个人向笔记整理的第一部分,包含前三个章节.本笔记内容基于清华大学出版社<数据科学导论-探索数据的奥秘>的 ...
- 数据科学导论重点(一)
大数据导论 数据大小 KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB 1 ZB = 2^10 EB = 2^20 P ...
最新文章
- OpenAI NLP最新进展:通过无监督学习提升语言理解
- Javascript JQuery获取当前元素的兄弟元素/上一个/下一个元素(转)
- 判断一个数是否是2的倍数----------面试算法
- Linux 技术篇-查看cpu核心数,grep常用信息筛选语法使用演示
- android 获取apk中的素材图片
- 借助xxl-sso实现SSO
- python-day2
- [译]MediaSession MediaController – Android TV 应用开发教程九
- dpkg:处理 xxx (--configure)时出错解决办法(转载)
- TS高级类型内置工具类型
- 【Oracle经典】132个oracle热门精品资料——下载目录
- lua-获取当前时间
- 【SegMap: 3D Segment Mapping using Data-Driven Descriptors】
- Mathtype使用技巧
- Dell EMC Isilon命令行方式添加一个接口到pool
- 磁阻随机存储器(MRAM)市场现状研究分析与发展前景预测报告
- java fadein_原生JS实现 fadeIn / fadeOut 方法
- 芯片常见的三种封装形式
- 数字通信计算机仿真课程总结,最新燕山大学数字通信计算机仿真课程设计报告模板.docx...
- ABAC基于属性的访问控制