四、数据挖掘中常见的挖掘模式
1.数据挖掘的模式
数据挖掘功能用于指定数据挖掘任务发现的模式:一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。数据挖掘的功能和模式主要包括以下内容:
- 特征化和区分
- 频繁模式、关联和相关性分析挖掘
- 分类与回归
- 聚类分析
- 离群点分析
2 类/概念:特征化和区分
- 数据可以与类或概念相关联,可以通过下述方法得到:
- 数据特征化:汇总所研究类(通常称为目标类)的数据;
- 数据区分:将目标类与一个或多个可比较类(通常称为对比类)进行比较。
顾客的概念包括bigSpenders和budgetSpenders,这种汇总的、简洁的、精确的描述方式就就为类/概念描述。
- 数据特征化的方法
数据特征化(data characterization)通过查询来收集对应于用户指定类的数据。例如,挖掘任务“汇总一年内在某商店花费5000美元以上的顾客特征”,统计结果可能是顾客的概况,如年龄在40~50、有工作、有很好的信用等级。 - 数据特征化的输出
可以用多种形式提供,例如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述可以用广义关系或规则(称作特征规则)形式提供。 - 数据区分
数据区分(data discrimination)是将目标类数据对象的一般特性与一个或多个对比类对象的一般性进行比较。目标类和对比类可以用户指定,而对应的数据对象可以通过数据库查询检索。
例如,比较两组顾客——定期购买计算机产品的顾客和不经常购买这种产品的顾客。结果描述提供这些顾客比较的概况,例如频繁购买计算机产品的顾客80%在20-40岁之间,受过大学教育;而不经常购买这些产品的顾客60%或者年龄太大或太年轻或没有大学学位。
3 关联分析
频繁模式
频繁模式(frequent pattern)是在数据中频繁出现的模式,存在多种类型的频繁模式,包括频繁项集、频繁子序列(序列模式)和频繁子结构。
频繁项集
频繁项集一般是指频繁地在事务数据中一起出现的商品的集合,如小卖部中被许多顾客频繁一起购买的牛奶和面包。
频繁子序列
类似如顾客倾向于先购买便携机,再购买数码相机,然后再购买内存卡这样的模式。
关联和相关性
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
4 分类或回归
用于预测的分类
分类是这样的过程,它找出描述和区分数据类或概念的模型(函数),以便能够使用模型预测类标号未知的对象的类标号。
用于预测的回归
回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
5 聚类分析
聚类分析
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
聚类分析和和分类的区别在于分类又已知的类别标签,而聚类没有。
6 离群点分析
数据集中可能存在一些数据对象,他们与数据的一般行为或模型不一致,这些数据对象被称为离群点(outlier)。大部分数据挖掘方法将离群点视为噪音或异常而丢弃。然而,在一些应用中(如欺诈检测),罕见的事件可能比正常出现的事件更令人感兴趣。
四、数据挖掘中常见的挖掘模式相关推荐
- Go语言中常见的并发模式
Go语言最吸引人的地方是它内建的并发支持.Go语言并发体系的理论是C.A.R Hoare在1978年提出的通信顺序进程(Communicating Sequential Process,CSP).CS ...
- AI:人工智能领域之AI基础概念术语之机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)
AI:人工智能领域之AI基础概念术语之机器学习.深度学习.数据挖掘中常见关键词.参数等5000多个单词中英文对照(绝对干货) 导读 本博主基本收集了网上所有有关于ML.DL的中文解释词汇,机 ...
- Android中常见的MVC模式
MVC模式的简要介绍 MVC是三个单词的缩写,分别为: 模型(Model),视图(View)和控制Controller). MVC模式的目的就是实现Web系统的职能分工. Model层实现系统中的业务 ...
- 盘点数据挖掘中常见的5种 AutoEDA 工具
大家好,我们都知道在数据挖掘的过程中,数据探索性分析一直是非常耗时的一个环节,但也是绕不开的一个环节. 我们能否使用一些自动化工具代替人来完成数据分析的过程呢,现有一些成熟的 AutoEDA 工具可以 ...
- 开发中常见的架构模式
1.分层架构 分层架构是较为常见的单体架构之一. 该模式的基本思想是将应用程序的逻辑划分为若干层,每层都封装的特定的角色.例如:持久层负责应用程序与数据库引擎之间的通信:业务层负责处理应用程序中具体的 ...
- [译] How to NOT React:React 中常见的反模式与陷阱
原文地址:How to NOT React: Common Anti-Patterns and Gotchas in React 原文作者:NeONBRAND 译文出自:掘金翻译计划 本文永久链接:g ...
- android中常见的回调模式
最近做ListView网络图片的异步加载,以及下载网路MP3动态进度显示.看过一些源码都涉及这样的回调,这样节省了很多不必要的重复操作,非常简便.写了一个Demo,够简单的吧. Demo1.java ...
- SQL错误提示档案(3):SQL Server连接中的四个最常见错误
SQL Server连接中的四个最常见错误: 一."SQL Server 不存在或访问被拒绝" 一般说来,有以下几种可能性: ...
- 转载:建设工程中常见的项目建设管理模式有哪些(DBB模式、EPC模式)
原文标题:建设工程中常见的项目建设管理模式有哪些? - 知乎 (zhihu.com) 一.DBB模式 即设计-招标-建造(Design-Bid-Build)模式,这是最传统的一种工程项目管理模式.该管 ...
最新文章
- 只看到了别人28岁退休,背后的期权知识你知道吗?
- 删除数据库中与同步数据冗余的数据(多对多)
- mac 安装Navicat Premium 注册机
- abap CA CO CS等操作符
- python制作图片数据集_Pytorch自己加载单通道图片用作数据集训练的实例
- CUDA从入门到精通(三):必备资料
- inet_ntop函数和inet_pton函数
- 解决webserver tcp连接大量CLOSE_WAIT 问题
- netstat命令总结
- php mysql 绑定变量,在MYSQL中,怎么用PDO绑定变量的方式插入数据?
- 激光雷达与毫米波雷达对比
- 调用阿里云接口实现短信消息的发送源码——CSDN博客
- Java输入/输出流体系中常用的流分类
- 菜鸟程序员如何提升自己的潜在价值
- 腾讯云服务器 - 定时备份MariaDB/MySQL
- linux:nohup 不生成 nohup.out的方法
- MATLAB(四) 图像处理--对象分析与属性
- web安全工具库(笔记)----端口扫描(ScanPort.exe)
- 各大浏览器的内核分别是什么?
- 电话机上面的接头RJ11
热门文章
- oracle extract()截取时间值函数
- Python编程:制作电子相册
- 将Pandas中的DataFrame类型转换成Numpy中array类型的三种方法(亲测)
- 部署xhprof监控php效率(linux版本)
- Laravel解决报错500 Server Error: .env.example将其复制一份重命名为env
- PHP的转义字符与\r\n
- php如何获取上传文件的后缀?
- angularjs 读取mysql_如何使用AngularJS PHP从MySQL获取数据
- python自带的idle优点_python新手入门使用自带的IDLE、用pycharm还是visual studio ?
- 微型计算机原理综合实验,微机原理综合实验指导书