一.数据挖掘概念

1.1什么是数据挖掘?

数据挖掘就是从海量的数据源中,如数据库、文本、图片、万维网、视频等资源中寻找有用的模式,这些模式是有用的、有潜在价值的、可以被理解的。

1.2从数据中发现知识的步骤

  • 采集数据
  • 存储数据
  • 管理数据
  • 分析数据
  • 结果应用

1.3数据挖掘的任务

1.传统数据挖掘任务

  • 分类
  • 聚类
  • 关联规则挖掘
  • 序列挖掘
  • 离群点发现
  • 数据可视化

2.互联网时代的数据挖掘任务

  • 文本、网页分析

    • 知识库(实体、属性、关系抽取)
    • 关键词发现
  • 社交网络分析
  • 商品推荐
  • 互联网搜索排序
  • 互联网广告

1.4相关领域

  • 机器学习
  • 概率统计
  • 数据库
  • 信息检索
  • 推荐系统
  • 自然语言处理

1.5 数据挖掘的方法

数据挖掘的方法有很多种,常见的有:

  1. 监督学习(或者称为分类)
  2. 无监督学习(或者称为聚类)
  3. 关联规则挖掘
  4. 序列模式挖掘

1.6数据挖掘经典案例

通俗的理解,数据挖掘就是从数据中发掘规律,利用规律创造价值。啤酒与尿布 是很经典的数据挖掘案例:在超市中,把啤酒和尿布摆在一起会使啤酒和尿布这两种风马牛不相及的商品销量大幅增加。原因是美国的妇女通常在家照顾孩子,丈夫去超市购物时会买上自己需要的啤酒和孩子需要的尿布。这个发现给商家带来了利润,那么这个规律是怎么发现的?靠的就是数据挖掘,通过数据挖掘还可以发现更多有价值的规律。

二、关联规则

2.1关联规则的基本概念

设I={i1,i2,i3……im)是一个项目(item)集合,T=(t1,t2,t3,……tn)是一个事务集合,每个事务ti是一个项目集合,ti是I的子集.一个关联规则是形如X→Y的蕴涵关系,其中X包含于I,Y包含于I,称为一个项集.

数学描述不太容易理解,拿商场购物来举个具体例子:商场中所有的商品是一个大的集合,相当于项目集合I;顾客一次的购买记录是一个事务,比如一位顾客在商场买了猪肉、白菜、芹菜是一个事务,另一位顾客买了羽毛拍、羽毛球,毛巾也是一个事务,{猪肉,白菜、芹菜}、{羽毛拍,羽毛球,毛巾}都是所有商品的子集.买了羽毛拍又买了羽毛球就是一个关联规则.记做

羽毛球拍 →羽毛球

2.2支持度和置信度

支持度:T中的交易同时包含X和Y.

sup=(X∪Y).count/n

置信度:T中包含X的事务同时包含Y

conf=(X∪Y).count/X.count

举例来理解这两个概念,下面一个包含7个事务的事务集合:
t1: 牛肉、鸡肉、牛奶
t2: 牛肉、奶酪
t3:奶酪、靴子
t4:牛肉、鸡肉、奶酪
t5:牛肉、鸡肉、衣服、奶酪、牛奶
t6:鸡肉、衣服、牛奶
t7:鸡肉、牛奶、衣服
牛肉→鸡肉 [sup=3/7,conf=3/4]
鸡肉,衣服→牛奶 [sup=3/7,conf=3/3]
支持度太小则表明相应的规则很可能只是偶然发生的,在商业环境中覆盖太少案例的规则很可能没有任何价值.置信度决定了规则的可预测度,如果一个规则的置信度太低,则从X很难推断出Y,置信度太低的规则在实际应用中也不会有很大的用处.最小支持度最小置信度分别用minsupminconf表示
给定一个事务数据集合怎么找出其中的关联规则?关联规则挖掘算法有很多,采用的不一样的算法在算法执行效率上各有不同,但是在同样的关联规则下挖掘出的关联规则应该是一样的.其中最著名的是Apriori算法.

三.Apriori算法

Apriori算法分两步进行:

  1. 生成所有频繁项目集:一个频繁项目集是一个支持度高于minsup的集合.
  2. 从频繁项目及中生成可信关联规则:一个可信关联规则是置信度大于minconf的规则.

【数据挖掘】关联规则和Apriori算法相关推荐

  1. 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

    文章目录 一. Apriori 算法过程 二. Apriori 算法示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction ...

  2. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

    文章目录 一. 非频繁项集超集性质 二. 频繁项集子集性质 三. 项集与超集支持度性质 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Trans ...

  3. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )

    文章目录 一. 频繁项集 二. 非频繁项集 三. 强关联规则 四. 弱关联规则 五. 发现关联规则 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 ...

  4. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

    文章目录 一. 关联规则 二. 数据项支持度 三. 关联规则支持度 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 ...

  5. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )

    文章目录 一. 置信度 二. 置信度 示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 ...

  6. 数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据

    全文链接:http://tecdat.cn/?p=32092 我们一般把一件事情发生,对另一件事情也会产生影响的关系叫做关联.而关联分析就是在大量数据中发现项集之间有趣的关联和相关联系(形如" ...

  7. 关联规则挖掘--Apriori算法

    关联规则挖掘--Apriori算法 1.关联规则概述 2.置信度.支持度.提升度的概念 3.关联规则挖掘问题 4.Apriori算法 4.1 算法步骤 4.2 先验原理 4.3 寻找最大频繁项的过程 ...

  8. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

    文章目录 一. 关联规则挖掘简介 二. 数据集 与 事物 ( Transaction ) 概念 三.项 ( Item ) 概念 四.项集 ( Item Set ) 概念 五.频繁项集 六.数据集.事物 ...

  9. 【数据挖掘实战】——中医证型的关联规则挖掘(Apriori算法)

    目录 一.背景和挖掘目标 1.问题背景 2.传统方法的缺陷 3.原始数据情况 4.挖掘目标 二.分析方法和过程 1.初步分析 2.总体过程 第1步:数据获取 第2步:数据预处理 第3步:构建模型 三. ...

  10. Python实现 关联规则的Apriori 算法-亚马逊购物零售数据挖掘

    关联规则 关联规则(AssociationRules),无监督学习方法,用于知识发现. 其可以用于给数据进行标注,但缺点是其结果难以进行评估. 关联规则的最经典的案例就是购物篮分析.同样也可用于电影推 ...

最新文章

  1. iOS核心动画高级技术(十二) 性能调优
  2. python多维数组筛选
  3. 什么是线程安全,你真的了解吗?
  4. arping 帮助——翻译
  5. 1.3(java学习笔记)构造方法及重载
  6. 多线程CreateThread函数的用法及注意事项
  7. springboot2.x 与 elasticsearch2.4.x整合出错:None of the configured nodes are available
  8. wifi 信道_Win10电脑找不到自家Wifi无线网络解决方法 可能是无线信道问题
  9. 买了两年CSDN年VIP,用着实在太爽
  10. 禅道 非内置mysql_禅道
  11. fluidsim元件库下载_FluidSIM4.5免费版
  12. godot python_godot新手教程2[godot常用代码用法]
  13. layui中表格绑定数据_使用LAYUI操作数据表格
  14. 每日一练_13 :java设计一个动物声音“模拟器”,希望模拟器可以模拟许多动物的叫声(使用接口)。
  15. angularJs-基础用法
  16. 微信小程序video自定义播放与暂停按钮
  17. C盘清理--模拟器(夜神为例)占用空间越来越大问题解决方案(本方法适用于安装过多个APK,虽然卸载了但是占用仍然很严重的情况)
  18. Redis线上做Keys命令引发的生产事故
  19. js中call()与apply()方法
  20. ubuntu终端字体大小和窗口大小设置

热门文章

  1. HTML:自定义修改鼠标指针
  2. armbian 斐讯n1_斐讯N1刷Armbian Linux做服务器
  3. ENVI操作:监督分类
  4. studio3t连接mysql_使用 Studio 3T 连接到 Azure Cosmos DB 的 API for MongoDB | Microsoft Docs
  5. 软考中级系统集成项目管理工程师自学好不好过,怎么备考,给点经验
  6. uni-app 实现自定义音效播放
  7. *明确插件的功效*千千静听听音效插件使用介绍及相关下载
  8. ZEMAX | 如何创建复杂的非序列物体
  9. “海选优品,泉网打尽”胡海泉抖音直播带货首秀告捷 柏厨集成家居塔奇、I-LOFT惊艳亮相
  10. mysql nlssort_Oracle数据库中文拼音,部首,笔画排序问题,NLS_SORT设置