一、数据挖掘的内容

1、关联规则挖掘

(1)关联规则挖掘工作内容

关联规则挖掘是指寻找给定数据集中项之间的有趣关联或相关联系(频繁出现的项集模式知

识);可以帮助许多决策的制定。

2、非监督式机器学习-聚类

(1)处理数据的类型

处理的是没有事先标记分类的数据。

(2)常见的五种聚类算法

①K-means;

②Hierarchical;

③GMM;

④DBSCAN(基于密度的聚类算法);

⑤基于网格Grid的聚类算法;

3、监督式机器学习

(1)监督式机器学习解释

可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实

例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值

(称为回归分析),或是预测一个分类标签(称作分类)。

(2)监督式机器学习工作内容

①离散标签预测——标签分类;

②连续标签预测­——数值预测;

4、回归

(1)回归解释

回归是指一种用于预测任何连续值属性的监督机器学习技术。回归有助于任何业务组织分析

目标变量和预测变量的关系。

二、认识数据

1、数据类型和统计

(1)数据对象

一个数据对象代表一个实体,而一个或多个数据对象组成一个或多个数据集;

(2)属性的类型

①标称类型的数据(状态可列举的数据),例如:类别、状态,特殊情况:二进制类型数据

(通常只有两个状态的数据),二进制类型数据又分为对称二进制类型数据(数据的两个状态数量

规模相当)和不对称二进制类型数据(这两个状态数据规模差距很大);

②序数类型数据:通常有一个有意义的顺序;

③区间标注属性:通常没有零点,所以它的倍数没有意义;

④比率标度属性:具有固定零点的数值属性,有序且可以计算倍数,例:长度、重量等;

2、数据统计汇总

(1)中性化趋势度量

均值、中位数和众数;

(2)分布趋势度量

三、数据可视化

1、箱线图分析

(1)箱线图功能

箱线图能够分析多个属性数据的分布差异性。

(2)箱线图例

2、直方图分析

(1)直方图的功能

用来分析单个属性在各个区间的变化分布。

(2)直方图例

3、散点图分析

(1)散点图的功能

用来显示两组数据的相关性分析(正相关和负相关以及不相关)。

(2)散点图例

四、数据相似性

1、度量数据的相似性和相异性

(1)数据矩阵

N个数据,p个维度;

(2)相异矩阵

N个数据点,记录两点之间的距离,是三角矩阵;

(3)度量数据的三个特性描述

2、标称属性的邻近性度量

(1)标称属性描述

标称属性可以取两个或者多个状态;

方法:简单匹配;

(2)邻近性度量的计算方法

d(I,j) = (p-m) / p ; 其中m是匹配次数,p是属性总数;

例:

​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

3、二值属性的邻近性度量

(1)这里的q表示两个人的测试(即后面六项)都是阳性(用Y或者P表示的)的有多少个;

(2)这里的r就是表示其中Jack是Y或P,而Marry是N的有多少;

(3)这里的s表示Jack是N,而Marry是Y或者P的有多少;

(4)t表示两个都是N的有多少个;

4、几个重要的距离描述

(1)闵可夫斯基距离

(2)曼哈顿距离

(3)欧氏距离

(4) 上确界距离

文本数据挖掘----初识数据挖掘相关推荐

  1. 【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )

    文章目录 一. 数据挖掘引入 二. 数据挖掘简介 三. 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识 四. 数据挖掘中的数据源 五. 数据挖掘 ...

  2. 【数据挖掘】数据挖掘工程师是做什么的?

    [数据挖掘]数据挖掘工程师是做什么的? 2016-08-10 17:16 数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了.最简单的就是统计应用了,比如电商数据, ...

  3. 四川大学计算机徐教授,大话数据挖掘之数据挖掘简介

    原标题:大话数据挖掘之数据挖掘简介 人物介绍 许教授:国内数据挖掘专家.某985高校智能信息处理学术带头人 万总:某超市集团营销副总 李部长:某钢铁集团生产部部长 某985高校管理学院第五届EMBA班 ...

  4. 【毕业设计】大数据大众点评评论文本分析 - python 数据挖掘

    文章目录 0 前言 1 爬虫 1.1 整体思路 1.2 网页爬取和解析 1.3 数据存储 1.4 反爬虫对抗 2 探索性分析与文本数据预处理 2.1 探索性分析 2.2 数据预处理 2.3 词云展示 ...

  5. #第26篇分享:一个文本分类的数据挖掘(python语言:sklearn 朴素贝叶斯NB)(2)

    #sklearn 朴素贝叶斯NB算法常用于文本分类,尤其是对于英文等语言来说,分类效果很好:它常用于垃圾文本过滤.情感预测.推荐系统等:是基于概率进行预测的模型,可以做二分类及多分类( 朴素贝叶斯是个 ...

  6. 【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )

    文章目录 I . 数据挖掘 功能 II . 数据挖掘 结果判断 III . 数据挖掘 学习框架 IV . 数据挖掘 分类 I . 数据挖掘 功能 1 . 概念描述 ( Concept Descript ...

  7. 【数据挖掘】数据挖掘简介

    简介   人类正被数据淹没,却饥渴于知识.随着数据库技术的应用越来越普及,人们正逐步陷入"数据丰富,知识贫乏"的尴尬境地.知识信息的"爆炸"给人类带来莫大益处, ...

  8. k均值例子 数据挖掘_数据挖掘的技术有很多种,常用的数据挖掘技术就这13种...

    数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的但又是潜在有用的信息和知识的过程.数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可 ...

  9. 什么是数据挖掘?数据挖掘的目标是什么?

    数据挖掘绪论 什么是数据挖掘 数据挖掘要解决的问题是什么? 数据挖掘的任务 预测建模 关联分析 聚类分析 异常检测 什么是数据挖掘 并非所有的信息发现任务都被视为数据挖掘.例如,使用数据库管理系统查找 ...

  10. 【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)

    需要完整PPT请点赞关注收藏后评论区留言并且私信~~~ 一.数据挖掘简介 面对大量的数据,迫使人们不断寻找新的工具,对规律进行探索,为决策提供有价值的信息.数据挖掘有助于发现趋势,揭示已知的事实,预测 ...

最新文章

  1. 进军“手机照相馆”:京东要和3C厂商干什么?
  2. 石头扫地机器人离线了怎么办_关于激光头故障,石头扫地机器人无限次复活记!...
  3. 金属磁记忆传感器封装
  4. [转载] python中的numpy模块和pandas模块的区别_numpy 模块和 pandas 模块
  5. mysql创建用户navicat_14MYSQL创建用户和授权、15Navicat的使用、16-pymysql模块的使用、17-索引...
  6. java位图去重_Redis系列(3) Bloom/BitMap/Geo
  7. 常见路由adsl猫默认密码
  8. oracle中对表进行分组,Oracle第五章多表链接、第六章分组函数习题整理
  9. iText - OCR 截图识字 - 新版小幅更新
  10. 旧手机改造成web服务器并实现内网穿透
  11. php混淆解密,php混淆加密解密实战
  12. VB.NET模拟掷骰子
  13. 【约束优先级问题二】动态高度cell
  14. 数据结构和算法学习指南
  15. 美团如何“折叠时间”?
  16. 阿里云服务器不能发送smtp协议邮件问题
  17. 关于新浪微博注销后自动登录的问题
  18. 计算机专业考研二战,2019计算机考研二战考生考研数学要规避的三个误区
  19. 语义分割(学习笔记)
  20. [HCTF 2018] admin

热门文章

  1. FPGA 之 SOPC 系列(三)Nios II 体系结构
  2. 1.UFS3.1 — Power Mode
  3. linux几种锁的分析与比较
  4. 通信总线-现场总线-CAN
  5. 浅谈IO_Link模块与现场总线模块
  6. 全自动IC半导体MCU芯片烧录flash大批量生产出货的解决方案分析
  7. 你有梦想吗?华为云学院助你实现梦想
  8. 【历史上的今天】11 月 8 日:计算机先驱诞生日;卷积神经网络 LeNet-5 问世;特斯拉发明遥控器
  9. 谷粒商城微服务分布式高级篇十一———商城检索
  10. 聚合数据API用法简介