入坑-DM导论-第一章绪论笔记
//本学习笔记只是记录,并未有深入思考。
1.什么是数据挖掘?
数据挖掘是数据库中发现必不可少的一部分。
数据预处理主要包括(可能是最耗时的步骤):
1.融合来自多个数据源的数据
2.清洗数据以消除噪声和重复的观测值
3.选择与当前数据挖掘任务相关的记录和特征。
2.数据挖掘要解决的问题
1.可伸缩性:面对海量数据,算法必须是可伸缩的。例如:当药不能处理的数据放入内存的时候,需要非内存算法;使用抽样技术或者开发并行和分布算法也可提高伸缩性。
2.高维性:具有成百上千的属性的数据集也很常见,比如基因特征;并且由于维度的增加,算法计算复杂度将会迅速升高。
3.异种数据和复杂数据:即非传统的数据类型:如包含半结构化的文本和超链接的Web页面,
4.数据所有权与分布:数据在地理上分属于多个站点和机构,需要开发分布式数据挖掘技术,
5.非传统分析:传统的统计方法基于假设-检验模式,但目前的数据分析需要的假设量太大,那么需要自动地产生假设和评估。
图中给出了数据挖掘和其他学科的关系。
1.3数据挖掘任务
预测任务:根据其他属性的值,预测特定属性的值。
描述任务:导出数据中潜在能够描述关系的模式(相关、趋势、聚类、轨迹和异常),这通常是探查性的,需要进行验证和解释。
根据数据类型可以分为:
分类:对离散型数据
回归:对连续型数据
2.分析方式概括
预测任务:比如对鸢尾花进行分类。
关联分析:用于发现数据中强关联的特征;比如找出功能相关的基因组,发现购物者同时购买的商品等。
聚类分析:发现紧密相关的观测值组群,对顾客进行分组。
异常检测:识别特征显著不同于其他特征的观测值;检测欺诈软件、网络攻击等;
转载于:https://www.cnblogs.com/BlueBlueSea/p/9545381.html
入坑-DM导论-第一章绪论笔记相关推荐
- 【食品化学与营养】第一章 绪论 笔记
[食品化学与营养]第一章 绪论 笔记 1.1 食品化学的定义 食品化学的定义 什么是食品 什么是化学 什么是食品化学 食品化学的发展历史 食品化学的研究方法 1.2 食品化学的研究 食品化学 食品化学 ...
- 应用密码学第一章绪论笔记
应用密码学欢迎您的到来! 接下来分享的是应用密码学这门课的笔记重点 第一章 一,网络信息安全问题的根源 1.网络自身的安全缺陷:协议不安全和业务不安全. 2.网络的开放性:业务基于公开的协议,链接是基 ...
- 计算机科学导论 -- 第一章 绪论
一 本章内容 本章讲述了 图灵模型 冯.诺依曼模型 计算机组成部分 历史 社会问题和道德问题等 1.1 图灵模型 Alan Turing(阿兰-图灵)1937年首次提出通用计算设备的设想: 所有的计算 ...
- 【算法基础】数据结构导论第一章-绪论.pptx
上课的课件分享,适合教学用. 文末提供下载 本文参考百度文库的多篇文章. 如需下载ppt文件,请回复"sjjg1"
- 《机器人学导论--Join J.Craig》第一章 绪论
<机器人学导论–Join J.Craig>第一章 绪论 1.1 背景 1. 机器人取代人:人工成本原来越高,工业机器人的成本越来越低,且无需人工那些福利.待遇等,属于一本万利.随着工业机器 ...
- 数字图像识别笔记(第一章绪论)
title: 数字图像识别笔记(第一章绪论) categories: 数字图像识别 tags: 数字图像识别 date: 2020/9/29 23:59 mathjax: true toc: true ...
- 小吴的《机器学习 周志华》学习笔记 第一章 绪论
小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...
- 软件工程第一章绪论————(2019.12.27学习笔记)
第一章绪论 第一节软件工程概念的提出与发展 1. 软件危机 1968年,北大西洋公约组织(NATO)在联邦德国的国际学术会议创造软件危机(Software crisis)一词.用来描述因为软件生产率, ...
- 传感器检测技术及仪表笔记01第一章 绪论
第一章 绪论 1.1 检测技术及仪表的地位与作用 1.1.1 检测仪表的地位与作用 1.检测的定义 2.检测仪表的地位与作用 3.检测方法 1.2 传感器概述 1.2.1 传感器的基本概念 1.传感器 ...
最新文章
- 【文本分类】Attention Is All You Need
- [转]Windows CE 编程的十点忠告(by pdasky)
- 台湾国立大学郭彦甫Matlab教程笔记(11) advanced 2D plots 上
- 配置Exchange 2010邮箱和邮件大小限制
- C语言代码规范(八)使用const修饰值不允许改变的变量
- jenkins pipline 用法收集
- python解释器安装步骤_怎么安装python解释器
- 2021电子设计竞赛题目_艾孜尔江
- Vue后台管理系统模板推荐
- 软件开发中三员管理职责
- Redis-Lua脚本(集成SpringBoot工程)
- 颜色恒常性 传统算法(AWB)
- 排序算法(三)—— 插入法排序算法
- 以Edge浏览器为例演示清除浏览器的缓存
- 数据库的运算----选择,投影,连接
- Eclipse中将Tab键换成Space键
- Java web 课程设计——图书馆管理系统(SSM)
- GNU Radio 实数与复数信号分析
- Linux操作系统监控服务器CPU、内存、磁盘、网络和dstat
- 专业的图像处理软件-PhotoShop CS6提供下载
热门文章
- python中set函数是什么数据类型_阿博Python之路-详解Set数据类型
- 计算机应用板块还有行情吗,今日股市行情资金收评:计算机应用板块资金流出居前...
- 软件测试性能测试结果,软件性能测试结果分析工具的研究与设计
- Android程序等待1,android – Espresso如何等待一段时间(1小时)?
- html调出手机系统设置,手机怎么打开路由器设置界面?
- spring 事务笔记(四)
- linux can编程,linux CAN编程(二)----------- can_frame中can_id的数据组织形式及处理
- linux授权文件夹给用户_一项一项教你测等保2.0——Linux访问控制
- 三菱gxworks3安装失败_三菱电梯nexway故障表
- linux apache fcgi,编译安装apache2.2对应的mod_proxy_fcgi.so模块步骤,因为使用apache--phpfpm 需要这个...