//本学习笔记只是记录,并未有深入思考。

1.什么是数据挖掘?

数据挖掘是数据库中发现必不可少的一部分。

数据预处理主要包括(可能是最耗时的步骤):

1.融合来自多个数据源的数据

2.清洗数据以消除噪声和重复的观测值

3.选择与当前数据挖掘任务相关的记录和特征。

2.数据挖掘要解决的问题

1.可伸缩性:面对海量数据,算法必须是可伸缩的。例如:当药不能处理的数据放入内存的时候,需要非内存算法;使用抽样技术或者开发并行和分布算法也可提高伸缩性。

2.高维性:具有成百上千的属性的数据集也很常见,比如基因特征;并且由于维度的增加,算法计算复杂度将会迅速升高。

3.异种数据和复杂数据:即非传统的数据类型:如包含半结构化的文本和超链接的Web页面,

4.数据所有权与分布:数据在地理上分属于多个站点和机构,需要开发分布式数据挖掘技术,

5.非传统分析:传统的统计方法基于假设-检验模式,但目前的数据分析需要的假设量太大,那么需要自动地产生假设和评估。

图中给出了数据挖掘和其他学科的关系。

1.3数据挖掘任务

 预测任务:根据其他属性的值,预测特定属性的值。

描述任务:导出数据中潜在能够描述关系的模式(相关、趋势、聚类、轨迹和异常),这通常是探查性的,需要进行验证和解释。

根据数据类型可以分为:

分类:对离散型数据

回归:对连续型数据

2.分析方式概括

预测任务比如对鸢尾花进行分类。

关联分析:用于发现数据中强关联的特征;比如找出功能相关的基因组,发现购物者同时购买的商品等。

聚类分析:发现紧密相关的观测值组群,对顾客进行分组。

异常检测:识别特征显著不同于其他特征的观测值;检测欺诈软件、网络攻击等;

转载于:https://www.cnblogs.com/BlueBlueSea/p/9545381.html

入坑-DM导论-第一章绪论笔记相关推荐

  1. 【食品化学与营养】第一章 绪论 笔记

    [食品化学与营养]第一章 绪论 笔记 1.1 食品化学的定义 食品化学的定义 什么是食品 什么是化学 什么是食品化学 食品化学的发展历史 食品化学的研究方法 1.2 食品化学的研究 食品化学 食品化学 ...

  2. 应用密码学第一章绪论笔记

    应用密码学欢迎您的到来! 接下来分享的是应用密码学这门课的笔记重点 第一章 一,网络信息安全问题的根源 1.网络自身的安全缺陷:协议不安全和业务不安全. 2.网络的开放性:业务基于公开的协议,链接是基 ...

  3. 计算机科学导论 -- 第一章 绪论

    一 本章内容 本章讲述了 图灵模型 冯.诺依曼模型 计算机组成部分 历史 社会问题和道德问题等 1.1 图灵模型 Alan Turing(阿兰-图灵)1937年首次提出通用计算设备的设想: 所有的计算 ...

  4. 【算法基础】数据结构导论第一章-绪论.pptx

    上课的课件分享,适合教学用. 文末提供下载 本文参考百度文库的多篇文章. 如需下载ppt文件,请回复"sjjg1"

  5. 《机器人学导论--Join J.Craig》第一章 绪论

    <机器人学导论–Join J.Craig>第一章 绪论 1.1 背景 1. 机器人取代人:人工成本原来越高,工业机器人的成本越来越低,且无需人工那些福利.待遇等,属于一本万利.随着工业机器 ...

  6. 数字图像识别笔记(第一章绪论)

    title: 数字图像识别笔记(第一章绪论) categories: 数字图像识别 tags: 数字图像识别 date: 2020/9/29 23:59 mathjax: true toc: true ...

  7. 小吴的《机器学习 周志华》学习笔记 第一章 绪论

    小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...

  8. 软件工程第一章绪论————(2019.12.27学习笔记)

    第一章绪论 第一节软件工程概念的提出与发展 1. 软件危机 1968年,北大西洋公约组织(NATO)在联邦德国的国际学术会议创造软件危机(Software crisis)一词.用来描述因为软件生产率, ...

  9. 传感器检测技术及仪表笔记01第一章 绪论

    第一章 绪论 1.1 检测技术及仪表的地位与作用 1.1.1 检测仪表的地位与作用 1.检测的定义 2.检测仪表的地位与作用 3.检测方法 1.2 传感器概述 1.2.1 传感器的基本概念 1.传感器 ...

最新文章

  1. 【文本分类】Attention Is All You Need
  2. [转]Windows CE 编程的十点忠告(by pdasky)
  3. 台湾国立大学郭彦甫Matlab教程笔记(11) advanced 2D plots 上
  4. 配置Exchange 2010邮箱和邮件大小限制
  5. C语言代码规范(八)使用const修饰值不允许改变的变量
  6. jenkins pipline 用法收集
  7. python解释器安装步骤_怎么安装python解释器
  8. 2021电子设计竞赛题目_艾孜尔江
  9. Vue后台管理系统模板推荐
  10. 软件开发中三员管理职责
  11. Redis-Lua脚本(集成SpringBoot工程)
  12. 颜色恒常性 传统算法(AWB)
  13. 排序算法(三)—— 插入法排序算法
  14. 以Edge浏览器为例演示清除浏览器的缓存
  15. 数据库的运算----选择,投影,连接
  16. Eclipse中将Tab键换成Space键
  17. Java web 课程设计——图书馆管理系统(SSM)
  18. GNU Radio 实数与复数信号分析
  19. Linux操作系统监控服务器CPU、内存、磁盘、网络和dstat
  20. 专业的图像处理软件-PhotoShop CS6提供下载

热门文章

  1. python中set函数是什么数据类型_阿博Python之路-详解Set数据类型
  2. 计算机应用板块还有行情吗,今日股市行情资金收评:计算机应用板块资金流出居前...
  3. 软件测试性能测试结果,软件性能测试结果分析工具的研究与设计
  4. Android程序等待1,android – Espresso如何等待一段时间(1小时)?
  5. html调出手机系统设置,手机怎么打开路由器设置界面?
  6. spring 事务笔记(四)
  7. linux can编程,linux CAN编程(二)----------- can_frame中can_id的数据组织形式及处理
  8. linux授权文件夹给用户_一项一项教你测等保2.0——Linux访问控制
  9. 三菱gxworks3安装失败_三菱电梯nexway故障表
  10. linux apache fcgi,编译安装apache2.2对应的mod_proxy_fcgi.so模块步骤,因为使用apache--phpfpm 需要这个...