数据挖掘技术基本任务

  • 1.分类与预测
  • 2.聚类分析
  • 3.关联规则
  • 4.时序模式
  • 4.偏差检测
  • 5.智能推荐

1.分类与预测

  1. 定义
    分类:构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别,分类模型建立在已有类标记的数据集上。
    预测:建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
    两步过程:通过训练集建立预测属性(数值型的)的函数模型;在模型通过检验后进行预测或控制。
  2. 实现过程
    (1)学习步
    通过归纳分析训练样本集来建立分类模型得到分类规则
    (2)分类步
    先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测本集进行预测。
  3. 常用的分类与预测算法
    (1)定义
    回归分析:确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。
    (2)模型分类
    *回归分析

· 线性回归
适用条件:呈线性关系,用最小二乘法求解模型系数

· 非线性回归
适用条件:呈非线性关系,用非线性最小二乘方法求解

· Logistic回归
适用条件:因变量一般有1和0(是否)两种取值
广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0和1之间,表示取值为1的概率

Logistic回归建模步骤:
a. 根据目的设置指标变量
b. 列车线性回归方程,估计模型回归系数
c. 进行模型检验
d. 模型应用

· 岭回归
适用条件 :参与建模的自变量之间具有多重共线性,是一种改进最小二乘估计的方法

· 主成分回归
适用条件:参与建模的自变量之间具有多重共线性
根据主成分分析的思想提出,对最小二乘法的一种改进,它是参数估计的一种有偏估计,可以消除自变量间的多重共线性

· 偏最小二乘回归等

*决策树
采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类。

*人工神经网络
一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型。
贝叶斯网络
又称信度网络,是bayes方法的扩展,是目前不确定知识表达和推理领域最
有效的理论模型之一。
支持向量机
是一种通过某种非线性映射,把低维的非线性可分转化为高纬的线性可分,在高纬空间进行线性分析的算法。

2.聚类分析

*常用聚类分析算法
K-means聚类算法

3.关联规则

*常用聚类分析算法
Apriori算法

4.时序模式

*常用聚类分析算法
平稳时间序列分析
非平稳时间序列分析

4.偏差检测

*常用聚类分析算法
基于模型的离群点检测方法
基于聚类的离群点检测方法

5.智能推荐

数据挖掘技术基本任务相关推荐

  1. 数据挖掘技术及其应用

    一.数据挖掘技术的基本概念 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成.收集.存贮和处理数据的能力大大提高,数据量与日俱增.企业数据实际上是企业的经验 ...

  2. 数据挖掘技术在出行体验上的应用!

    桔妹导读:每天滴滴都会为上千万人提供出行服务,在这一过程中积累了海量轨迹数据.这些轨迹数据来自于公共服务,本文介绍如何利用这些数据回馈大众,改善出行体验. 1.  背景 首先简要介绍一下什么是数据挖掘 ...

  3. 数据挖掘技术简介[转]

    关键词: 关键词:数据挖掘    数据集合 1. 引言 数据挖掘(Data Mining)是从大量的.不完全的.有噪声的.模糊的.随机的数据中提取隐含在其中的.人们事先不知道的.但又是潜在有用的信息和 ...

  4. [转载]基于数据挖掘技术入侵检测系统研究

    [---  资料是从免费网站上获取的,上载在这里,只为交流学习目的,文章原作者保留所有权力, 如本博客的内容侵犯了你的权益,请与以下地址联系,本人获知后,马上删除.同时本人深表歉意,并致以崇高的谢意! ...

  5. 空间数据挖掘技术理论及方法

    葛继科(西南农业大学信息学院 400716)   摘要  本文简要论述了空间数据库技术及空间数据挖掘技术的理论及特点,分析了空间数据挖掘技术的层次.方法,并重点介绍了当前常用的分类.聚类.关联规则等空 ...

  6. 数据挖掘技术在信用卡业务中的应用及实例分析

    信用卡业务具有透支笔数巨大.单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然.国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理.我国自1985年发行第 ...

  7. 数据挖掘技术有哪几种

    数据挖掘涉及"处理数据和识别信息中的模式和趋势",数据挖掘技术帮助专业人员了解可用数据集,本文将会介绍5种主要的数据挖掘技术,这些技术可以为企业和其他组织提供描述性和预测性的能力. ...

  8. 【进阶数据挖掘技术】进阶数据挖掘技术介绍

    数据挖掘技术的功能分类 描述性的数据挖掘(Descriptive Data Mining(Unsupervised Learning无监督学习,不需要目标值)) Association Rules(关 ...

  9. 数据挖掘技术的算法与应用读书报告

    数据挖掘作为现在比较有用的支持决策系统的一种手段有着广泛的应用.其有很多种方法,本文主要基于关联规则类等相关问题进行论述.按照挖掘过程进行组织.首先,有数据仓库的建立和数据挖掘的概述.其次是关联规则的 ...

  10. 数据挖掘技术具有哪些特点?

    数据挖掘源自<从数据库中发现知识>(缩写为KDD).它首次出现在1989年8月在底特律举行的第十一届国际联合人工智能会议上.为了统一理解,Fayyad,Piatetsky-Shapiro和 ...

最新文章

  1. Bert代码详解(一)重点详细
  2. php主要算法设计,四种排序算法设计(PHP)
  3. “无效数字” ;java.lang.Integer cannot be cast to java.lang.String
  4. 【Machine Learning】回归学习与示例
  5. C#的常见算法(面试)(转)
  6. oracle数据库查询代码,ORACLE数据库查询表实例代码
  7. python可以在excel中应用吗,python怎样在excel中应用?-Python教程
  8. 独家:这也许是最具珍藏价值的Oracle DBA生存宝典!
  9. fcc认证_介绍fCC 100:我们对2019年杰出贡献者的年度总结
  10. 机器学习中的距离和损失函数
  11. python xposed_xposed + python 怎么爬取微信朋友圈的数据
  12. Servlet如何上传文件? 戳这里
  13. size_t和size_type类型
  14. 测试用例设计-颗粒度
  15. 随机效应估算与固定效应估算_短面板数据学习手册(固定效应与随机效应等汇总)...
  16. Python学习笔记--正方形、六边形、叠边形、同切圆的绘制
  17. Invalid bound statement (not found)错误的原因和解决办法
  18. 心田花开:二年级语文阅读《黄山奇石》附答案解析
  19. OpenAI在Dota 2游戏中虽败犹荣
  20. JDK11安装-macos

热门文章

  1. DataGrip连接不上本地localhost数据库解决办法
  2. JFlash烧录SPI FLASH
  3. 真正会沟通的项目经理,不会告诉你的4件事
  4. 目前总结最新最系统的Java程序员未来职业规划路线,请收藏
  5. kuangbin14数论解析
  6. 合同管理系统主要增加了安全性,对于大型企业作用重大
  7. 【从零开始学架构-李运华】04|复杂度来源:高性能
  8. 白盒测试常用工具介绍
  9. 高通WLAN驱动分析
  10. 分享一个超酷创建互动文档的Javascript类库 - tangle