数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。

分类

分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别,用于预测数据对象的离散类别。

分类技术在很多领域都有应用,它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。

当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别。比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征。

其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。

而主要分类方法有决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络等。

回归分析

回归分析,一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系

主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

主要表现

(1) 判别自变量是否能解释因变量的显著变化----关系是否存在。

(2) 判别自变量能够在多大程度上解释因变量----关系的强度。

(3) 判别关系的结构或形式----反映因变量和自变量之间相关的数学表达式。

(4) 预测自变量的值。

(5) 当评价一个特殊变量或一组变量对因变量的贡献时,对其自变量进行控制。

聚类

聚类,顾名思义就是按照相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。与分类不同的是聚类不依靠给定的类别对对象进行划分。

分析算法分类

(1)划分方法

(2)层次的方法

(3)基于密度的方法

(4)基于网格的方法

(5)基于模型的方法

它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。如谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、年龄、职业等等;还有银行信用卡的黄金客户,按储蓄额、刷卡消费金额和诚信度等。

关联规则

关联规则是描述数据库中数据项之间所存在的关系的规则,可以从一件事情的发生,来推测另外一件事情的发生,即隐藏在数据间的关联或相互关系,从而更好地了解和掌握事物的发展规律等等。

关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。于是沃尔玛将啤酒与尿布一起销售,**提高了销售额。

关联规则的实际应用包括:交叉销售、邮购目录的设计、商品摆放、流失客户分析、基于购买模式进行客户区隔等等……

在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

 特征

特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。特征选择的目的在于从海量数据中提取出有用信息,从而提高数据的使用效率。

其中,特征有效性的选择评价有概率论、数理统计、信息论、IR领域的度量、学**相关的度量等。

如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

变化和偏差分析

偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。偏差分析是一个有趣的数据挖掘任务,其目的是发现与大部分其他对象不同的对象。如分类中的反常实例,模式的例外,观察结果对期望的偏差等。

在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

而其成因有数据源于不同的类、自然变异、数据测量或收集误差等。

Web页挖掘

通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

Web数据挖掘的研究对象是以半结构化和无结构文档为中心的Web,这些数据没有统一的模式,数据的内容和表示互相交织,数据内容基本上没有语义信息进行描述,仅仅依靠HTML语法对数据进行结构上的描述。

可完成任务

(1)网络流量分配情况、随时间变化情况分析。

(2)网站广告点击率、投资收益比分析。

(3)用户从哪里进入网站、跳出网站,进入感兴趣的页的方式等出入口分析。

(4)用户来源分析。

(5)访问站点的用户的浏览器和平台分析。

(6)发现经常被用户一起访问的页面集合,作为优化站点的参照。

(7)聚类行为模式相似的用户,形成智能推荐模式;聚类同一群用户访问的页面,帮助发现站点设计的不合理之处。

(8)预测用户可能访问的页面,行为趋势分析和用户分类等。

数据挖掘是一种决策支持过程,它通过高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策,这对于一个企业的发展十分重要。

数据挖掘之七种常用的方法相关推荐

  1. 数据挖掘有哪些常用的方法

    数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的.先前未知的并有潜在价值的信息的非平凡过程. 数据挖掘之七种常用的方法: ①分 ...

  2. 数据挖掘进行数据分析常用的方法

    利用数据挖掘进行数据分析常用的方法主要有分类.回归分析.聚类.关联规则.特征.变化和偏差分析.Web页挖掘等, 它们分别从不同的角度对数据进行挖掘. ① 分类.分类是找出数据库中一组数据对象的共同特点 ...

  3. 基于 Python 的 8 种常用抽样方法

    抽样是统计学.机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到.所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本. 上 ...

  4. R中两种常用并行方法——2. snowfall

    上一篇博客(R中两种常用并行方法--1. parallel)中已经介绍了R中常见的一种并行包:parallel,其有着简单便捷等优势,其实缺点也是非常明显,就是很不稳定.很多时候我们将大量的计算任务挂 ...

  5. 数字图像处理——12种常用图像处理方法对比

    数字图像处理--12种常用图像处理方法对比 1.图像反转 2.对数变换 3.幂次变换 4.分段函数 5.直方图均衡化 6.直方图规定化 7.直方图匹配 8.线性滤波 9.中值滤波与均值滤波 10.拉普 ...

  6. 微信分销商城小程序几种常用开发方法

    一.微信分销商城小程序几种常用开发方法 1.自主开发 这种方式是很多企业考虑的,但这种开发方式的前提是有自己的开发团队或重新组建开发团队.无论是重组自己的开发团队还是有自己开发团队,功能要求.前后端开 ...

  7. 数据归一化及两种常用归一化方法

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可 ...

  8. 详解3种常用数据分析方法,满足你职场95%的高频需求

    最近有一位刚入行的朋友跟我吐槽,说他提交了一份8月的经营数据分析报告给领导,报告里面放了很多图表,也罗列了很多数据,结果却被老板痛批了一顿,说分析了半天也看不懂他的分析逻辑在哪里,他觉得很委屈. 其实 ...

  9. 相关分析-5种常用相关分析方法

    http://sanwen8.cn/p/2c62mIw.html 相关分析(Analysis of Correlation)是网站分析中经常使用的分析方法之一.通过对不同特征或数据间的关系进行分析,发 ...

  10. 3d游戏建模基础教程:3D建模应用领域和四种常用建模方法

    3D建模应用领域 影视动画表现 电影行业将它们用于活动的任务.物体以及现实电影:视频游戏产业将它们作为计算机与视频游戏中的资源,通过设计稿,建模,最终完成. 游戏美术表现 多用于游戏类建模,包括:角色 ...

最新文章

  1. 面试官:你分析过mybatis工作原理吗?
  2. 模拟红绿灯交替指示编程思路
  3. 检查传递给Bash脚本的参数数量
  4. 白牌交换机有什么特点?与传统换机相比有什么特别之处?
  5. 老生常谈:抽象工厂模式
  6. 24. 练习定义几种指针及数组
  7. linux中执行历史第五个命令,Linux 快速执行历史命令,用 !编号
  8. cf519D . A and B and Interesting Substrings 数据结构map
  9. Pytext简介:facebook的基于PyTorch的NLP框架
  10. pdf文字无法复制怎么办?unlock解密pdf
  11. 2021-2027全球与中国DJ设备市场现状及未来发展趋势
  12. newifi路由器 php,[强如老狗]新路由3newifi3(newifi d2)修改eeprom解决2.4G信号问题修改MAC方法...
  13. php小说阅读例子,Thinkphp掌上阅读功能完善强大的小说源码 - 四套模板
  14. VMware虚拟机如何迁移到阿里云
  15. 锦标赛算法Python实现
  16. 满足功能安全要求的代码测试方案:Parasoft C++test
  17. python多个箱线图_箱线图Python
  18. DB2数据库ALTER命令(修改表结构相关)
  19. 人际沟通交流技巧(转)
  20. Lucid EDI需求分析及项目注意事项

热门文章

  1. CM311-1a YST(2G+16G)刷Armbian后的网络设置
  2. 入秋的第一篇数据结构算法:看看归并与快排的风采
  3. 报名啦!第四届滴滴-IEEE未来精英论坛今夏来袭
  4. 服务器端查看图片库 eog
  5. ROS加载PCD文件
  6. 看看最新BTA大厂的Java程序员的招聘技术标准,聪明人已经收藏了!
  7. 物联网设备OTA软件升级之:升级包下载过程之旅
  8. 六轴机器人matlab工作空间分析
  9. 易简无人机巡检照片处理系统(一) —— 巡检作业流程
  10. 腾讯视频获取 MP4格式源并下载