数据挖掘任务主要有很多种,常见的有分类、聚类、预测等,若按算法可分为两大类:无监督学习、有监督学习。

1.分类学习

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有K最近邻居算法(K Nearest Neighbor Algorithm)、决策树算法、贝叶斯分类和支持向量机算法(Support Vector Machine)等等。

2.聚类分析

聚类就是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。目前常见的聚类算法有基于划分的算法、基于层次的算法、基于密度算法和基于网格的算法等等。

3.预测分析

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常采用预测方差来度量。预测的主要方法有统计学中的回归分析等等。

4.关联规则

关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

5.异常检测

异常检测(anomaly detection) 的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。

6.描述统计

描述统计是数据挖掘最基础的方法,几乎每数据挖掘项目都先做些常规描述统计,以了解数据或业务整体状况。描述统计的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证解释结果

数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第一节:数据挖掘任务相关推荐

  1. c井语言和SQL第一章上机1,第一章 SQL Server 数据库基础复习内容(上机)

    上机课程总目标 在本学期中,将模拟开发一套学员信息管理系统,用来管理学员的个人基本资料,老师资料,学生成绩,课程信息等教学相关内容,以实现学校的信息自动化,提高工作效率. 该系统包括学生档案管理.学生 ...

  2. 计算机第一章学什么,第一章计算机基础知识学习课件.ppt

    第一章计算机基础知识学习课件.ppt 3.2.6 表单标记(FORM) 作用:定义一个表单,供后续设计向其中加入表单对象. 格式: 属性:1. action:设定处理程序的文件名. 2. method ...

  3. 课程导学第一章计算机基础,第一章计算机基础讲述.pptx

    第一章计算机基础讲述 信息技术基础(计算机基础);我校非计算机专业的公共必修课<计算机基础>和<计算机基础实验>独立设课,前者36学时2学分,后者36学时1学分.1. < ...

  4. python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取

    爬虫原理和数据抓取 1.1 通用爬虫和聚焦爬虫 通用爬虫 聚焦爬虫 1.2 HTTP和HTTPS HTTP的请求与响应 浏览器发送HTTP请求的过程: 客户端HTTP请求 请求方法 常用的请求报头 服 ...

  5. python第一章测试题_第一章 测试【含答案】 Python大数据分析

    (1)单选题 python中,常见的结构化数据不包括( ) A  表格型数据 B  多维数组 C  通过关键列相互联系的多个表 D  序列 E  图像数据 (2)单选题 下列不是数据分析的方法有( ) ...

  6. 编译原理第一章-编译原理概述

    1.1 编译过程中,语法分析器的任务不包括(A) A 分析单词是怎样构成的 B 分析单词串是如何构成语句和说明的 C 分析语句和说明是如何构成程序的 D 分析程序的结构 1.2 编写一个计算机高级语言 ...

  7. Data Warehouse And Data Mining —— chapter 06 —— 第六章 数据仓库原理——数据仓库与数据挖掘教程——第二版

  8. (王道计算机组成原理)第一章计算机系统概述-第二节:计算机硬件组成(存储器、运算器和控制器概述及计算机工作过程详解)

    王道考研复习指导获取:密码7281 专栏目录首页:[专栏必读]王道考研408计算机组成原理万字笔记.题目题型总结.注意事项.目录导航和思维导图 文章目录 本节思维导图 一:计算机层次结构 (1)冯诺依 ...

  9. python控制语句第一章_python基础第一章

    Python基础 第一个python程序 变量 程序交互 基本数据类型 格式化输出 基本运算符 流程控制if...else... 流程控制-循环 第一个python程序 文件执行 1.用notepad ...

  10. jdk安装包_第一章(第1节):安装JDK

    对于 jdk 的安装,网上有很多种图文解说,但是老鸟发现它们大都不严谨,非常不适合小白.本节课,老鸟就给大家做个小白教程,无论你多么菜,你一定可以安装上,否则你加我微信,我给你打五毛钱,立帖为证. j ...

最新文章

  1. Android开发--SharedPreferences初步介绍
  2. common pool2 mysql_用common-pool自定义资源池
  3. javase基础socket编程之局域网聊天,局域网文件共享
  4. 教务处管理系统c语言编程,基于C语言的教务管理系统的设计
  5. 怎样使用OpenCV进行人脸识别
  6. 在麻省理工读计算机专业,看美国的计算机教育(转载)
  7. CentOS内核编译
  8. 顺序的分数 Ordered Fractions
  9. Linux安装、卸载软件
  10. mysql sql 多选项_mysql – SQL选择此选项可使值仅出现一次
  11. MacbookPro添加硬盘内存
  12. 优酷投屏显示无法连接服务器,无线投屏器为什么会连接不成功呢?
  13. 微信营销为什么需要云控
  14. 错误号 MSSQL_REPL20011 错误号:15517
  15. css实现tab切换时下划线动画效果
  16. 用PowerPoint巧做特效字幕(转)
  17. 2020年就要过去了,我们决定用这种方式记住它
  18. 蓝桥杯javaB组穿越雷区
  19. 《Digital Design and Computer Architecture》7.4 多周期CPU(1)
  20. 史上最全Windows安全工具锦集

热门文章

  1. 周立发的 Linux 视频讲座(VeryCD下载)
  2. 电脑主机装机教程(全网最详细)
  3. 上层路由无法ping通下层路由的问题
  4. 电话号码检索系统升级版
  5. PHP中虚拟主机的配置
  6. 电影《巴格西》:偏执狂才能名扬千古
  7. scrapy框架下设置代理ip
  8. react ts环境搭建及ts格式写法
  9. 初始阈值计算机网络,计算机网络试题A计算机网络试题A.doc
  10. 基于自适应扩展卡尔曼滤波器(AEKF)的锂离子电池SOC估计(附MATLAB代码)