文本数据挖掘----初识数据挖掘
一、数据挖掘的内容
1、关联规则挖掘
(1)关联规则挖掘工作内容
关联规则挖掘是指寻找给定数据集中项之间的有趣关联或相关联系(频繁出现的项集模式知
识);可以帮助许多决策的制定。
2、非监督式机器学习-聚类
(1)处理数据的类型
处理的是没有事先标记分类的数据。
(2)常见的五种聚类算法
①K-means;
②Hierarchical;
③GMM;
④DBSCAN(基于密度的聚类算法);
⑤基于网格Grid的聚类算法;
3、监督式机器学习
(1)监督式机器学习解释
可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实
例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值
(称为回归分析),或是预测一个分类标签(称作分类)。
(2)监督式机器学习工作内容
①离散标签预测——标签分类;
②连续标签预测——数值预测;
4、回归
(1)回归解释
回归是指一种用于预测任何连续值属性的监督机器学习技术。回归有助于任何业务组织分析
目标变量和预测变量的关系。
二、认识数据
1、数据类型和统计
(1)数据对象
一个数据对象代表一个实体,而一个或多个数据对象组成一个或多个数据集;
(2)属性的类型
①标称类型的数据(状态可列举的数据),例如:类别、状态,特殊情况:二进制类型数据
(通常只有两个状态的数据),二进制类型数据又分为对称二进制类型数据(数据的两个状态数量
规模相当)和不对称二进制类型数据(这两个状态数据规模差距很大);
②序数类型数据:通常有一个有意义的顺序;
③区间标注属性:通常没有零点,所以它的倍数没有意义;
④比率标度属性:具有固定零点的数值属性,有序且可以计算倍数,例:长度、重量等;
2、数据统计汇总
(1)中性化趋势度量
均值、中位数和众数;
(2)分布趋势度量
三、数据可视化
1、箱线图分析
(1)箱线图功能
箱线图能够分析多个属性数据的分布差异性。
(2)箱线图例
2、直方图分析
(1)直方图的功能
用来分析单个属性在各个区间的变化分布。
(2)直方图例
3、散点图分析
(1)散点图的功能
用来显示两组数据的相关性分析(正相关和负相关以及不相关)。
(2)散点图例
四、数据相似性
1、度量数据的相似性和相异性
(1)数据矩阵
N个数据,p个维度;
(2)相异矩阵
N个数据点,记录两点之间的距离,是三角矩阵;
(3)度量数据的三个特性描述
2、标称属性的邻近性度量
(1)标称属性描述
标称属性可以取两个或者多个状态;
方法:简单匹配;
(2)邻近性度量的计算方法
d(I,j) = (p-m) / p ; 其中m是匹配次数,p是属性总数;
例:
3、二值属性的邻近性度量
(1)这里的q表示两个人的测试(即后面六项)都是阳性(用Y或者P表示的)的有多少个;
(2)这里的r就是表示其中Jack是Y或P,而Marry是N的有多少;
(3)这里的s表示Jack是N,而Marry是Y或者P的有多少;
(4)t表示两个都是N的有多少个;
4、几个重要的距离描述
(1)闵可夫斯基距离
(2)曼哈顿距离
(3)欧氏距离
(4) 上确界距离
文本数据挖掘----初识数据挖掘相关推荐
- 【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )
文章目录 一. 数据挖掘引入 二. 数据挖掘简介 三. 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识 四. 数据挖掘中的数据源 五. 数据挖掘 ...
- 【数据挖掘】数据挖掘工程师是做什么的?
[数据挖掘]数据挖掘工程师是做什么的? 2016-08-10 17:16 数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了.最简单的就是统计应用了,比如电商数据, ...
- 四川大学计算机徐教授,大话数据挖掘之数据挖掘简介
原标题:大话数据挖掘之数据挖掘简介 人物介绍 许教授:国内数据挖掘专家.某985高校智能信息处理学术带头人 万总:某超市集团营销副总 李部长:某钢铁集团生产部部长 某985高校管理学院第五届EMBA班 ...
- 【毕业设计】大数据大众点评评论文本分析 - python 数据挖掘
文章目录 0 前言 1 爬虫 1.1 整体思路 1.2 网页爬取和解析 1.3 数据存储 1.4 反爬虫对抗 2 探索性分析与文本数据预处理 2.1 探索性分析 2.2 数据预处理 2.3 词云展示 ...
- #第26篇分享:一个文本分类的数据挖掘(python语言:sklearn 朴素贝叶斯NB)(2)
#sklearn 朴素贝叶斯NB算法常用于文本分类,尤其是对于英文等语言来说,分类效果很好:它常用于垃圾文本过滤.情感预测.推荐系统等:是基于概率进行预测的模型,可以做二分类及多分类( 朴素贝叶斯是个 ...
- 【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )
文章目录 I . 数据挖掘 功能 II . 数据挖掘 结果判断 III . 数据挖掘 学习框架 IV . 数据挖掘 分类 I . 数据挖掘 功能 1 . 概念描述 ( Concept Descript ...
- 【数据挖掘】数据挖掘简介
简介 人类正被数据淹没,却饥渴于知识.随着数据库技术的应用越来越普及,人们正逐步陷入"数据丰富,知识贫乏"的尴尬境地.知识信息的"爆炸"给人类带来莫大益处, ...
- k均值例子 数据挖掘_数据挖掘的技术有很多种,常用的数据挖掘技术就这13种...
数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的但又是潜在有用的信息和知识的过程.数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可 ...
- 什么是数据挖掘?数据挖掘的目标是什么?
数据挖掘绪论 什么是数据挖掘 数据挖掘要解决的问题是什么? 数据挖掘的任务 预测建模 关联分析 聚类分析 异常检测 什么是数据挖掘 并非所有的信息发现任务都被视为数据挖掘.例如,使用数据库管理系统查找 ...
- 【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)
需要完整PPT请点赞关注收藏后评论区留言并且私信~~~ 一.数据挖掘简介 面对大量的数据,迫使人们不断寻找新的工具,对规律进行探索,为决策提供有价值的信息.数据挖掘有助于发现趋势,揭示已知的事实,预测 ...
最新文章
- 进军“手机照相馆”:京东要和3C厂商干什么?
- 石头扫地机器人离线了怎么办_关于激光头故障,石头扫地机器人无限次复活记!...
- 金属磁记忆传感器封装
- [转载] python中的numpy模块和pandas模块的区别_numpy 模块和 pandas 模块
- mysql创建用户navicat_14MYSQL创建用户和授权、15Navicat的使用、16-pymysql模块的使用、17-索引...
- java位图去重_Redis系列(3) Bloom/BitMap/Geo
- 常见路由adsl猫默认密码
- oracle中对表进行分组,Oracle第五章多表链接、第六章分组函数习题整理
- iText - OCR 截图识字 - 新版小幅更新
- 旧手机改造成web服务器并实现内网穿透
- php混淆解密,php混淆加密解密实战
- VB.NET模拟掷骰子
- 【约束优先级问题二】动态高度cell
- 数据结构和算法学习指南
- 美团如何“折叠时间”?
- 阿里云服务器不能发送smtp协议邮件问题
- 关于新浪微博注销后自动登录的问题
- 计算机专业考研二战,2019计算机考研二战考生考研数学要规避的三个误区
- 语义分割(学习笔记)
- [HCTF 2018] admin