目录

2.1 数据科学的学科地位

2.2 统计学

1.统计学是数据科学的主要理论基础之一。

2.常用的统计学知识:

3.统计学与机器学习的区别与联系

4.数据科学视角下的统计学

2.3 机器学习

1.机器学习基本思路

2.机器学习三要素

3.KNN算法

4.概念学习

5.决策树学习

6.人工神经网络学习

7.贝叶斯学习

8.遗传算法

9.分析学习

10.增强学习

2.4 数据可视化


2.1 数据科学的学科地位

学科地位看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处:

数据科学并不是以一个特定理论为基础发展起来的,而是包括数学与统计学、计算机科学与技术、数据工程与知识工程、特定学科领域的理论在内的多个理论相互融合后形成的新兴学科

2.2 统计学

1.统计学是数据科学的主要理论基础之一。

2.常用的统计学知识:

i.行为目的与思维方式看,统计方法可以分为两大类:描述统计和推断统计。

描述统计:

采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。

集中趋势分析:数值平均数、位置平均数等。

离中趋势分析:极差、分位差、平均差、方差、标准差、离散系数等。

相关分析:正相关、负相关、线性相关、线性无关等。

推断统计:

常用的推断方法有:参数估计和假设检验。

 ii.从方法论角度看,基于统计的数据分析方法又可分为:基本分析法和元分析法

基本分析法

• 用于对“低层数据(零次或一次数据)”进行统计分析的基本统计分析方法。

元分析法

• 用于对“高层数据(二次或三次数据)”,尤其是对基本分析法得出的结果进行进一步分析的方法。

常用的元分析法:加权平均法和优化方法

3.统计学与机器学习的区别与联系

1.从理论和方法角度看,统计学方法可以应用于机器学习,反之亦然。

2.统计学需要事先对处理对象的概率分布做出假定而机器学习不用。

3.二者之间存在着联系:

4.数据科学视角下的统计学

大数据思维在传统思维基础上的转换:

2.3 机器学习

1.机器学习基本思路

现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。

2.机器学习三要素

•任务(T)

•性能指标(P)

•经验来源(E)

3.KNN算法

主要解决训练样本集中的每个样本的分类标签已知的条件下,如何为一个新增数据给出对应的分类标签。

关键在于“计算新增数据的特征与已有样本特征之间的相似度”。

4.概念学习

本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。(Find-S算法

5.决策树学习

本质:一种逼近离散值目标函数的过程。(决策树代表一种分类过程。)

核心算法:ID3算法。

6.人工神经网络学习

人工神经元是人工神经网络的最基本的组成部分。

•  实现人工神经元的方法:感知器( Perceptron)、线性单元( Linear Unit)和 Sigmoid单元( Sigmoid Unit)等。

深度学习的关键在于计算观测数据的分层特征及其表示,其中高层特征或因子由底层得到

7.贝叶斯学习

贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段学习的方法。

8.遗传算法

主要研究的问题:

从候选假设空间中搜索出最佳假设: “最佳假设”指“适应度( Fitness)”指标为最优的假设。

三个基本算子:

选择、交叉、突变。

9.分析学习

分析学习是相对于归纳学习的提法。特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。

10.增强学习

主要研究:如何协助自治 Agent的学习活动,进而达到选择最优动作的目的。

2.4 数据可视化

重要地位主要表现:

(1)视觉是人类获得信息的最主要途径。

(2)相对于统计分析,数据可视化的主要优势体现在两个方面:

• 数据可视化处理可以洞察统计分析无法发现的结构和细节。

• 数据可视化处理结果的解读对用户知识水平的要求较低。

(3)可视化能够帮助人们提高理解与处理数据的效率

数据科学导论--2.理论基础相关推荐

  1. 山东大学软件学院2022-2023数据科学导论知识点整理【软工大数据课组】

    每年考点变化较大,仅供参考 CSDN的排版能力有限,因此留pdf版本,祝大伙全部95+,呼呼 山东大学软件学院2022-2023数据科学导论知识点整理[软工大数据课组]-统计分析文档类资源-CSDN文 ...

  2. 数据科学导论 考试有感 2019 山东大学

    数据科学导论 考试有感 2019 山东大学 数据科学导论 数据科学导论 平时分50分 有4个实验 两个人一组 爬虫.实体融合.twitter.MapReduce 3道题 简答:各种距离 设计:MapR ...

  3. 数据科学导论_数据科学导论,数据理解和准备

    数据科学导论 Data science, machine learning, data mining, advanced analytics, or however you want to name ...

  4. python数据科学导论_数据科学导论:Python语言(原书第3版)

    数据科学导论:Python语言(原书第3版) 作者:(意)阿尔贝托·博斯凯蒂;(意)卢卡·马萨罗 著 出版日期:2020年02月 文件大小:48.52M 支持设备: ¥50.00 适用客户端: 言商书 ...

  5. 数据科学导论python语言实现_数据科学导论:Python语言实现(原书第2版)

    数据科学导论:Python语言实现(原书第2版) 作者:(意)阿尔贝托·博斯凯蒂(Alberto Boschetti);(意)卢卡·马萨罗(Luca Massaron) 著 出版日期:2018年01月 ...

  6. 山东大学数据科学导论笔记

    数据科学导论这门课,怎么说呢.老师也不知道教了什么,学生也不知道学了什么,莫名其妙考试也不知道靠什么.这里整理了一点笔记,仅供考试前参考!!. ch1 引言 引言这一章,基本上不会出题,了解即可. 数 ...

  7. 读书笔记数据科学入门————数据科学导论

    数据科学导论 数据的用处:在数据中寻找隐藏问题的答案 数据科学是什么:就是从数据中剥离出真理. 在实际生活中数据的重要性,例如Facebook上的家乡居住地信息,不仅可以帮助朋友找到你的位置,同时网站 ...

  8. 数据科学导论学习小结——其三

    数据科学导论学习小结--其三 这是笔者大学二年级必修科目<数据科学基础>个人向笔记整理的第三部分,包含第六.第七两个章节.本笔记内容基于清华大学出版社<数据科学导论-探索数据的奥秘& ...

  9. 数据科学导论学习小结——其一

    数据科学导论学习小结--其一 这是笔者大学二年级必修科目<数据科学基础>个人向笔记整理的第一部分,包含前三个章节.本笔记内容基于清华大学出版社<数据科学导论-探索数据的奥秘>的 ...

  10. 数据科学导论重点(一)

    大数据导论 数据大小 KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB 1 ZB = 2^10 EB = 2^20 P ...

最新文章

  1. OpenAI NLP最新进展:通过无监督学习提升语言理解
  2. Javascript JQuery获取当前元素的兄弟元素/上一个/下一个元素(转)
  3. 判断一个数是否是2的倍数----------面试算法
  4. Linux 技术篇-查看cpu核心数,grep常用信息筛选语法使用演示
  5. android 获取apk中的素材图片
  6. 借助xxl-sso实现SSO
  7. python-day2
  8. [译]MediaSession MediaController – Android TV 应用开发教程九
  9. dpkg:处理 xxx (--configure)时出错解决办法(转载)
  10. TS高级类型内置工具类型
  11. 【Oracle经典】132个oracle热门精品资料——下载目录
  12. lua-获取当前时间
  13. 【SegMap: 3D Segment Mapping using Data-Driven Descriptors】
  14. Mathtype使用技巧
  15. Dell EMC Isilon命令行方式添加一个接口到pool
  16. 磁阻随机存储器(MRAM)市场现状研究分析与发展前景预测报告
  17. java fadein_原生JS实现 fadeIn / fadeOut 方法
  18. 芯片常见的三种封装形式
  19. 数字通信计算机仿真课程总结,最新燕山大学数字通信计算机仿真课程设计报告模板.docx...
  20. ABAC基于属性的访问控制

热门文章

  1. MATLAB 2016a安装
  2. Java集合框架和重要接口、类
  3. 淘宝分类大全及其分组 (MySql, xls)文件,上下关系,拼写,层级,层级树,提示,2022年2月28日数据
  4. WIBU-KEY加密狗驱动软件使用说明
  5. python 中文官方手册
  6. 抖音c语言表白编码,抖音微信表白代码大全 微信表白代码总汇
  7. java 刘意 2018_2018刘意油画●水彩作品展
  8. JMeter脚本录制-快速上手篇
  9. 推荐系统实践---第一章:好的推荐系统
  10. 信息收集端口扫描工具masscan