数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。

利用了如下领域的思想:

1)来自统计学的抽样,估计和假设检验

2)人工智能,模式识别和机器学习的搜索算法,建模技术和学习理论

3)最优化,进化计算,信息论,信号处理,可视化和信息检索

4)数据库技术,并行计算,分布式计算

涉及到的数学原理:概率论与数理统计,线性代数,图论,最优化方法

主要为了解决两大问题:

1)预测任务:根据其他属性的值,预测特定属性的值

2)描述任务 导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常),通常,描述性数据挖掘任务是探查性的,需要后处理技术验证和解释结果。

主要分为四大任务:

1,预测建模    a,分类:用于预测离散的目标变量

B,回归:用于预测连续的目标变量

2,关联分析:用来发现描述数据中强关联特征的模式,,目标是以有效的方式提取最有趣的模式。如购物篮分析

3,聚类分析:分析紧密相关的观测值组群,使得与属于不同簇的观测值相比,同一簇的观测值之间尽可能类似。顾客分组

4,异常检测:识别特征明显不同于其他数据的观测值,统称为异常点(anomaly),离群点(outlier)

十大经典算法:

分类算法:c4.5(决策树),朴素贝叶斯(naive bayes),svm,knn,adaboost,cart

聚类算法:k-means(k-均值聚类),EM

关联分析:apriori

连接分析:pagerank

C4.5:决策树算法,在决策树构造过程中进行了剪枝,并可以处理连续的算法,也能对不完整的数据进行处理。

朴素贝叶斯:基于概率论的原理,基本思路:对于给出的位置物体想要进行分类,就要求解在这个位物体出现的条件下各个类别的概率,概率最大的类就是未知物体所在的分类

Svm:(support vector machin)支持向量机,在训练中建立了一个超平面的分类模型,

knn:k最近邻算法,k-nearest neighbor,每个样本都可以用最接近它的k个邻居来代表,如果一个样本,它的k个最接近的邻居都属于分类a,则样本属于a

adaboost: boost-提升。主要思想是在训练中建立一个联合的分类模型,属于一个分类起的提升算法。

cart:(classification and regression tree),分类数和回归树,和c4.5一样,属于决策树的一种

k-means:把记录分成k类,每个类中都有一个中心点,计算目标点与各个中心点的距离,最近的即为所属的类

EM:最大期望算法,是求参数的最大似然估计的一种方法,原理,假设要评估参数a和b,在开始状态下二者都是未知的,并且知道了a的信息就可以得到b的信息,反过来知道b则能得到a,可以考虑赋a初值,计算b,通过b更新a,反复迭代直到收敛

apriori:一种挖掘关联规则(association rules)的算法,通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系,广泛应用于商业挖掘和网络安全等领域。频繁项集是指经常出现在一起的物品的集合,关联规则暗示着两种物品之间可能存在很强的关系。

pagerank:网页权重计算,谷歌搜索引擎核心技术。

十大经典算法是整个机器学习领域的核心,后面的一些算法都是在这些基础上改进的。

衍生的一些分类技术:

基于规则的分类器

人工神经网络

随机森林

聚类算法:

基于原型的聚类

基于密度的聚类

基于图的聚类

很多数据挖掘任务都假定数据集是记录的汇集,每个记录包含固定的数据字段集。

数据有时也叫变量,特性,字段,特征,维

数据集就是数据对象的集合,三个特性:维度,稀疏性(例如一个对象的大部分属性上的值为0,非零项很少,其实这也算一个优点,只有非零值才需要存储和处理),分辨率。

一般包括:

记录数据:事物数据,分档-词矩阵,数据矩阵)

基于图的数据

有序数据(时序,序列数据,时间序列数据,空间数据,空间数据的一个重要特征是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似)

任何一种算法对数据质量都有一定的要求,需要进行数据预处理:

包括

聚集:两个或者多个对象合并成一个对象

抽样:简单随机抽样:有放回抽样,无放回抽样,分层抽样:总体样本由不同类型的对象组成,每组差别较大,可以从每组抽取相同个数的对象。渐进抽样:从一个小样本开始,增加样本容量直至得到足够的样本

维规约:通过创建新属性,将一些旧属性和并在一起来降低数据集的维度。常见的维归约技术:pca(principal compons analysis)主成分分析,用于连续属性的线性代数技术

特征子集选择:通过选择旧属性的子集得到新属性,这种维规约方式成为特征选择,

属性——》搜索策略—〉属性子集—》评估—〉停止判断—》满足—〉选择的属性—》验证过程

不满足—搜索策略,开始循环

特征创建:

特征提取:高度针对具体领域

映射到新的空间:傅立叶变换,小波变换等

特征构造

离散化和二元化

二元化:0-1两个属性

离散化:主要应用于在分类或关联分析中使用到的属性上

变量变换:简单的数学公式,指数,对数函数

监督和非监督(supervied and unsupervised):使用类信息还是不使用类信息

数据之间相似度和相异度:

欧式距离,

余弦夹角:cos(x,y) = (x.y )/||x||||y||

二元数据的相似度:(00,01,10,11)简单匹配系数=值匹配的属性个数/属性个数=(11+00)/(11+00+10+01),jaccard系数(非0-0匹配的属性个数)= 匹配的个数/非00匹配的属性个数=11/(11+10+01)

数据挖掘基础知识整理相关推荐

  1. python常用变量名_python基础知识整理

    Python Python开发 Python语言 python基础知识整理 序言:本文简单介绍python基础知识的一些重要知识点,用于总结复习,每个知识点的具体用法会在后面的博客中一一补充程序: 一 ...

  2. 计算机二级c语基础知识,计算机二级C语基础知识整理.doc

    计算机二级C语基础知识整理 1.1 算法 算法:是一组有穷指令集,是解题方案的准确而完整的描述.通俗地说,算法就是计算机解题的过程.算法不等于程序,也不等于计算方法,程序的编制不可能优于算法的设计. ...

  3. 使用Aspose.Cells的基础知识整理

    使用Aspose.Cells的基础知识整理 转自 http://www.cnblogs.com/kenblove/archive/2009/01/07/1371104.html 这两天用Aspose. ...

  4. 前端基础知识整理汇总(中)

    前端基础知识整理汇总(中) Call, bind, apply实现 // call Function.prototype.myCall = function (context) {context = ...

  5. 前端基础知识整理汇总(上)

    前端基础知识整理汇总(上) HTML页面的生命周期 HTML页面的生命周期有以下三个重要事件: 1.DOMContentLoaded -- 浏览器已经完全加载了 HTML,DOM 树已经构建完毕,但是 ...

  6. centos7创建asm磁盘_Oracle ASM 磁盘组基础知识整理(收藏版)

    为什么要写这么一篇基础知识呢?还是有那么一点点原因的,不是胡编乱造还真是有真实存在的事件的,前两周里因一套生产环境数据库磁盘不足无法对其进行表空间扩容,需要向存储岗申请存储资源,当存储岗划好资源加完存 ...

  7. Web前端基础知识整理

    1. 前端基础知识 文件分类 XML(扩展标记语言) 装载有格式的数据信息,用于各个框架和技术的配置文件描述 特点: 扩展名为.xml 内容区分大小写 标签要成对出现,形成容器,只能有一个 标签按正确 ...

  8. Kali Linux渗透基础知识整理(四):维持访问

    Kali Linux渗透基础知识整理系列文章回顾 维持访问 在获得了目标系统的访问权之后,攻击者需要进一步维持这一访问权限.使用木马程序.后门程序和rootkit来达到这一目的.维持访问是一种艺术形式 ...

  9. 矩阵论(零):线性代数基础知识整理(1)——逆矩阵、(广义)初等变换、满秩分解

    矩阵论专栏:专栏(文章按照顺序排序) 线性代数是矩阵论的先修课程,本篇博客整理线性代数的基础理论知识,为矩阵论的学习做准备.限于篇幅,梳理的重点将在定理和结论上(只给出部分必要的定义),对最基础的概念 ...

最新文章

  1. 区块链技术特点之去中心化特性
  2. MySQL Workbench建表时 PK NN UQ BIN UN ZF AI Default 的含义
  3. React Native学习(七)—— FlatList实现横向滑动列表效果
  4. 老司机实战Windows Server Docker:3 单节点Windows Docker服务器简单运维(上)
  5. Unity资源管理--AssetBundle学习
  6. 利用 Enterprise Library 改善你的应用系统1
  7. DALI调光的计算方式
  8. String 截取字符串#中间的文本
  9. BZOJ1588: [HNOI2002]营业额统计
  10. 寻宝,大冒险!CSP202206-2
  11. extjs6 表格行选中时去掉默认背景颜色
  12. 科学课和计算机整合,信息技术与小学科学课堂整合的现状分析论文
  13. 135编辑器中html使用方法,135编辑器使用小技巧 135编辑器特色功能使用技巧方法...
  14. python实现QQ第三方登录
  15. jmockit抛NullPointer异常,initialize failed异常
  16. Redis-master节点宕机后的处理方式
  17. 1262: 魔法宝石
  18. python同时运行多个程序_如何同时运行两个python循环?
  19. 数学建模之马尔萨斯模型(入门版)
  20. .NET 6 史上最全攻略

热门文章

  1. 微信小程序 之 常用组件 及其属性
  2. 一线城市java人才前景_2020年5大一线城市Java薪资水平汇总,你还差多少呢?
  3. scpi指令转换c语言,SCPI 标准命令
  4. 《静态时序分析实用方法》第六章翻译
  5. vue3+setup+validator验证两次输入密码是否一致(土法)
  6. ListView实现类似多米的条目下拉功能
  7. Unity 制作汽车后视镜
  8. 回溯法(C++) 部落卫队问题
  9. 两年 android 经验面经
  10. Vue路由跳转但显示空白页面