数据挖掘课程第一章作业《认识数据挖掘与数据预处理》
文章目录
- 作业内容
- #1.什么是数据挖掘?
- 数据挖掘的定义
- 数据挖掘与数据分析的区别
- 2.数据挖掘的主要任务有哪些?
- 老师ppt中给出的内容
- 数据挖掘的应用场景
- 1.教育领域
- 2.风控领域
- 3.医疗领域
- 数据挖掘具体负责的任务
- 1.分类与回归
- 2.聚类
- 3.关联规则
- 4.时序模型
- 5.偏差检测
- 3.以下哪些不属于数据中心趋势描述?
- 4.计算表格中对象之间的相异性矩阵
- 归一化处理
- 欧几里得距离
- 曼哈顿距离
- 5.分析X与Y是否强相关
- 6.教育工作者收集了学生的一些信息,希望知道IQ或者EQ对学生的成绩影响最大
作业内容
在完成其中与数学关系比较紧密的几题(5 6题)感觉还是很生疏(太久没做数学题了)。
想搞人工智能 要加强数学的应用呐。。
#1.什么是数据挖掘?
第一节课结束后 对数据挖掘的定义还存有一丝疑惑 所以在CSDN总结了——《数据挖掘背景知识2——数据挖掘可以做到什么 带给我们什么?》这篇文章
其中一部分恰好吻合了作业内容——
数据挖掘的定义
数据挖掘(Data Mining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。
换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。
数据挖掘与数据分析的区别
数据分析和数据挖掘都是从数据库中发现知识,但却有所不同。
数据分析主要通过统计、计算、抽样等相关的方法,来获取基于数据库的数据表象的知识。
数据挖掘则主要通过机器学习或者是通过数学算法等相关的方法获取深层次的知识(比如属性之间的规律性,或者是预测)。
简单来说,数据分析是把数据变成信息的工具,而数据挖掘是把信息变成认知的工具,可以将数据分析得出的信息转化为有效的预测和决策。
2.数据挖掘的主要任务有哪些?
老师ppt中给出的内容
- 关联分析(关联规则挖掘)
- 聚类分析
- 分类/预测
- 孤立点(离群点)分析
另外进行一个简单的拓展 拓展部分内容同样出自《数据挖掘背景知识2——数据挖掘可以做到什么 带给我们什么?》这篇文章
数据挖掘的应用场景
1.教育领域
数据挖掘技术的应用已经渗入到教育教学的各个方面,如:
支持教育科学决策、实施个性化教育、对学生的学业成绩进行评估等。
数据挖掘的实际应用逐渐突破了传统的教学模式,改善了教学效果,促进了教学质量的提升。
2.风控领域
数据挖掘作为深层次的数据信息分析方法,能够对各种因素之间隐藏的内在联系进行全面分析。目前在风控领域可应用于:
信贷风险评估、交易欺诈识别、黑产防范及消费信贷四个方面。
通过风险预警,可以让风险管理者提前做好准备,从而为决策提供参考信息。
3.医疗领域
目前,医院已经积累了涵盖患者、费用、药物以及相关管理信息等数据资源,数量庞大且类型复杂。
数据挖掘技术则能够帮助医院从中提取出有价值的信息,满足医疗服务各个环节的需求。例如:
医疗成本的预测和控制、慢性疾病的预警、医疗信息质量管理等方面
数据挖掘 都起到了明显的正向作用。
数据挖掘具体负责的任务
这一部分主要参考了CSDN博主的文章
原文链接 数据挖掘的基本任务与要解决的问题(数据挖掘入门)
1.分类与回归
分类: 指将数据映射到预先定义好的群组或类。
回归: 用属性的历史数据预测未来趋势。
主要的分类与回归算法——
里面还是有很多熟悉的面孔呐!
等回头进行详细学习的时候 心里会大概有个数吧~
2.聚类
**聚类分析:**是在没有给定划分类的情况下,根据信息相似度进行信息聚类的一种方法,因此聚类又称为无指导的学习。
主要的聚类算法——
3.关联规则
**关联规则: ** 揭示数据之间的相互关系,而这种关系没有在数据中直接表示出来。
序列模式分析,将重点放在分析数据之间的前后因果关系,如买了电脑的顾客会在三个月内买杀毒软件。
主要的关联规则算法——
4.时序模型
时序模式:描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。
**时间序列分析:**用已有的数据序列预测未来。
主要的时间序列分析算法——
5.偏差检测
**偏差:**是对差异和极端特例的表述,如分类中的反常实例、聚类外的离群值、不满足规则的特例等。
**偏差检测:**用来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意的诈骗行为,还是正常的变化。如果是异常行为,则需提示采取预防措施,尽早防范。
偏差检验示意图——
大部分数据挖掘方法都将这些差异信息(例如这些离群点)视为噪声——进而丢弃这些离群点
但是!在一些应用中 罕见的数据可能比正常的数据更有用。
3.以下哪些不属于数据中心趋势描述?
——A 均值 B 众数 C 标准差 D 中位数
数据的统计描述——中心趋势度量有:
- 均值
- 种树
- 中位数
- 中列数
综上 C 标准差 不属于中心趋势描述
4.计算表格中对象之间的相异性矩阵
(用欧式距离和曼哈顿距离分别计算)
表格如下 注意首先应该进行归一化处理
对象ID | 身高 | 年龄 | 成绩 |
---|---|---|---|
1 | 175cm | 21 | 90 |
2 | 180cm | 22 | 80 |
3 | 165cm | 20 | 85 |
归一化处理
根据线性归一化的公式
f(x) = (x - min) / (max - min)
对象ID | 身高 | 年龄 | 成绩 |
---|---|---|---|
1 | 0.67 | 0.5 | 1 |
2 | 1 | 1 | 0 |
3 | 0 | 0 | 0.5 |
欧几里得距离
对象ID | 身高的欧式距离 | 年龄 | 成绩 |
---|---|---|---|
1 | 0 | 1.17 | 0.97 |
2 | 1.17 | 0 | 1.50 |
3 | 0.97 | 1.50 | 0 |
曼哈顿距离
对象ID | 身高的欧式距离 | 年龄 | 成绩 |
---|---|---|---|
1 | 0 | 1.83 | 1.67 |
2 | 1.83 | 0 | 2.50 |
3 | 1.67 | 2.50 | 0 |
5.分析X与Y是否强相关
假设两标称属性X 和Y 对应的每种可能的联合事件汇总如下图,请分析X与Y是否强相关。
X_1 | X_2 | |
---|---|---|
Y_1 | (1,1)20 | (2,1)10 |
Y_2 | (1,2)30 | (2,2)60 |
已知有公式
接下来进行卡方检验
X_1 | X_2 | SUM | |
---|---|---|---|
Y_1 | 20(12.5) | 10(17.5) | 30 |
Y_2 | 30(37.5) | 60(52.5) | 90 |
SUM | 50 | 70 | 120 |
e11 = 30 * 50 / 120 = 12.5
e12 = 50 * 90 /120 = 37.5
e21 = 70 * 30 /120 = 17.5
e22 = 70 * 90 /120 = 52.5
接下来计算
=(20-12.5)^2/12.5 + (10-17.5)^2/17.5 + (30-37.5)^2 /37.5 + (60-52.5)^2/52.5 = 10.286
因为自由度为1
查阅概率论书后表格 —— 0.01 < p < 0.1 ——拒绝
所以X Y两个属性是强相关
6.教育工作者收集了学生的一些信息,希望知道IQ或者EQ对学生的成绩影响最大
信息如下图 采用信息增益的方法进行判断,其中log(3) = 1.585
IQ (X1) | EQ (X2) | Grade (Y) |
---|---|---|
高 | 高 | A |
高 | 高 | A |
中 | 中 | B |
高 | 中 | B |
求出前两个值之后 计算信息增益 来判断影响大小
解:
P(IQ=高)=3/4
P(IQ=中)=1/4
H(IQ)==0.24
P(EQ=高)=1/2
P(EQ=中)=1/2
H(EQ)==0.3
H(Grade)=1
H(Grade|IQ)==0.69
H(Grade|EQ)==0
计算信息增益
IG(Grade|IQ)=1-0.69=0.31
IG(Grade|EQ)=1-0=1
因为IG(Grade|EQ)>IG(Grade|IQ) 所以 EQ对学生成绩的影响较大
数据挖掘课程第一章作业《认识数据挖掘与数据预处理》相关推荐
- 《数据挖掘》第一章作业答案
第1章 概述 作业1 作业2
- javascript进阶课程--第一章--函数
javascript进阶课程--第一章--函数 学习要点 了解内存管理 掌握全局函数的使用 知识点 基本类型和引用类型 基本类型值有:undefined,NUll,Boolean,Number和Str ...
- 自然语言和计算机语言二义性,二级C++精品课程第一章第一节计算机语言及其发展...
计算机是一个有用的工具,它能做许多事情,例如矩阵计算.方程求解.辅助设计等.要让计算机解决某一个问题之前,必须先把求解问题的步骤描述出来,这便称之为算法.下面是一个一元二次方程求根的算法实例: ◇ 计 ...
- 秋季 工程伦理 网络课程 第一章
工程伦理 网络课程第一章 第一章 第二章 第三章 第四章 第五章 第一章 第二章 链接: https://blog.csdn.net/qq_41694461/article/details/11135 ...
- Oracle数据库-第一章:select语句,数据查询操作
前言: 1.一个认知 认知什么是oracle? oracle:商业运用第一的关系型数据库 实质:关系型数据库 了解oracle数据库发展历史(文档) 2.二个概念 数据库:数据存储的仓库 关系型数据库 ...
- 【数据分析与数据挖掘】第一章:概述
本系列文章是本人学习数据分析与数据挖掘的学习笔记,参考了许多教材,如果错误欢迎评论区指出,谢谢! 目录 1.1 数据分析与数据挖掘 1.1.1 数据分析 1.1.2 数据挖掘 1.1.3 数据分析与数 ...
- 柿饼UI入门课程第一周作业
入门课程第一周 基础 如何看帮助文档 API帮助 控件帮助 设计器使用帮助及反馈 举个例子 附加 目标 架构 范进中举 相册 其他 基础 只需要按照视频里面就可以做到90%.但是,dotIndicat ...
- 中科大郑烇、杨坚《计算机网络》课程 第一章笔记
中科大郑烇.杨坚全套<计算机网络(自顶向下方法 第7版,James F.Kurose,Keith W.Ross)>课程 链接:https://pan.baidu.com/s/14dxVgx ...
- 软件质量保证与测试第一章作业
第一章单元作业 一.名称解释 IEEE 美国电气和电子工程师协会 软件范型 指软件系统组织与结构设计的工程技术.既可以指软件系统静态的组织与结构模型,也可以指动态的软件系统开发与构造构成模型. SQA ...
最新文章
- 矩阵拼接 cat padding_pytorch
- Mars说光场(4)— 光场显示
- 高内聚低耦合通俗理解_带你从入门到精通——「高内聚低耦合」
- OpenCv之图像二值化(笔记12)
- python切换虚拟环境和全局_为什么python虚拟环境启动后依然使用全局的python和pip...
- jmeter测试接口--form表单提交请求(解决请求传参为空的问题)
- python django框架 比php_django 第一感觉对比 php 各大框架
- php mac开启socket,mac上nginx以socket的方式连接php-fpm出现502错误?
- Redis学习笔记(四)—— redis的常用命令和五大数据类型的简单使用
- debezium报错处理系列七:The database history couldn‘t be recovered. Consider to increase the value for datab
- 微信摇一摇服务器实现,微信摇一摇事件通知
- zoc7中文乱码问题解决方法
- SQL数据库完美恢复 SQL数据库损坏修复
- 点云 3D 目标跟踪 - AB3DMOT(IROS 2020, ECCVW 2020)
- 【算法】并查集的运用
- *.axf: Error: L6218E: Undefined symbol xxx(xxx.o)问题解决与inline函数的声明
- 【设计模式】之外观(Facade)模式
- Head First Java学习笔记(17):包、jar存档文件和部署
- Latex排版论文常见问题
- 附近的人实现(Redis 3.2 以上版本和es 性能比较)