1、什么是数据分析/挖掘

数据分析/挖掘的目的是为业务发展答疑解惑。他描述了“过去发生了什么”、“现在正在发生什么”和“未来可能发生什么”。根据分析的级别,分为常规报表、即席查询、多维分析(又称为钻取或者OLAP)、报警、统计分析、预报(或者时间序列预测)、预测性(predictive)模型和优化

常规报表:常规报表广为人知,它们通常按照一定的周期产生,对过去一段时间、一定范围内所发生的事实进行记录。它们对了解业务现状非常有用,但是却无法据此进行长期决策。标准报表主要用于回答“发生了什么”和“什么时候发生”这样的问题。典型的标准报表包括月度或季度的财务报告。

即席查询:即席查询往往通过对一系列数据(组合)的要求来“回答”一些常见的业务问题。即席报表主要用于解决类似“多少”、“频次如何”和“在哪里”这样的问题。记录每种产品每天销量的定制报表就属于即席报表。

多维分析(又称为钻取或者OLAP技术):OLAP技术可以帮助了解更多细节信息,它可以帮助客户自己操纵数据,找出诸如“多少”、“什么”和“哪里”之类问题的答案。OLAP技术主要解决的是“问题出在哪里”和“我如何找到问题的答案”这样的问题。例如,对不同类型的电话客户的通话行为进行排序,找出他们的通话特征就需要运用到OLAP技术。

报警:当问题发生时你可以通过告警及时获知,并且可以在将来发生类似情况时引起注意。告警可以通过电子邮件、网络频道、记分卡或者仪表盘的形式给出。报警的过程需要确认的是引起注意的触发点,以及一旦报警需要采取什么行动。比如,销售总监在销售情况与销售目标差距大时会收到告警信息。

统计分析:我们可以运行一些更加复杂的分析。例如,方差分析和回归分析模型等。我们可以基于数据提出一些假设,然后再利用数据构建统计分析模型来“回答”这些假设是否成立。统计分析解决的问题主要是“行为/事件为什么发生”和“我失去了怎样的机会”。例如,银行希望了解什么样的人,更可能对他们的房子进行转按揭操作,那么他们就会用到统计分析的方法。

预报(或者时间序列预测):它能够帮助建立恰当的库存,从而使得既不会脱销,也不会积压库存。时间序列预测主要解决的问题是“未来的趋势会怎样”和“如果这样的趋势继续会怎样”。例如,零售商可以根据销售历史,预测未来特定店铺的特定产品的销售量,而这样的预测过程就是时间序列预测。

预测性(predictive)模型:如果你有1000万个客户需要做一次直邮,谁最有可能响应?怎样对现有客户进行有效分群?哪些客户最可能流失?预测性模型可以回答这类问题。预测性模型主要关心的是将来可能发生的情况,以及不同的预测情况对业务的影响。例如,商户可以预测客户可能会对哪种产品更有兴趣,以及哪些客户会对特定产品更有兴趣。

优化:优化往往带来创新,它使企业可以在有限资源下实现收入(利润)最大化。优化强调的是更好地利用各种资源的途径。例如,在特定资源条件下,如何安排并使收入利润最大化,就是优化需要解决的问题。

前4类分析提供了关于以往和当前情况的描述,让业务人员对历史情况有一个深入的认识。但是这往往是不够的,这就像在驾驶的时候只看两边和后视镜,而挡住前面的玻璃,对前面发生的情况一无所知。第5类到第7类分析提供了向前看的途径,可以预测未来发展的情况,及早发现问题,做到提前准备。而最后一类分析是在掌握了未来发展状况之后,对业务进行优化,制定最优的决策方案。

从上面介绍中可以看到,数据分析是和业务紧密联系在一起的,其目的就是满足商业决策的需求。这种决策是以事实和数据分析的结果为基础,结合经验和行业的洞察作出决策。在解读和判断数据模型时,需要融入对业务的理解、融入基于经验的灵感,很多时候是无法用单纯的公式或规则来替代人的智慧和艺术灵感的。因此,数据分析是技术与艺术的结合。如果可以量化分析某些问题,那么就去分析,但别忘记加入你的经验、知识和理性的推断。

2、数据分析/挖掘的商业驱动

可以认为数据分析/挖掘涉及到公司运营的方方面面,这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新产品开发、财务成本优化、市场结构的分析和客户关系的管理。其中,关于客户与市场的数据分析/挖掘的是“重头戏”。下面以客户全生命周期管理与为例介绍数据分析/挖掘运用场景和挖掘主题

(1)发掘潜在客户(市场细分):关于这个主题的分析,更多的是基于地区、性别和年龄段等粗粒度的指标,结合产品设计定位和目标客户群体进行匹配。比如,高档母婴产品的潜在客户应该是居住在新建的高档小区中的住户。这类分析是运用最早的,在广告投放、新店寻址等场景下打大量使用。

(2)客户获取:当客户初次了解我们的产品和服务后,有可能会犹豫不决,拖延很久才可能真正成为我们的客户,而大部分客户在这个期间会由于兴趣逐渐减退而最终流失。比如,信用卡新客户在填好个人信息,并收到信用卡后却迟迟没有开卡。这时就可以运用数据挖掘技术,对营销人员得到的客户基本信息进行一个初步筛选,找出购买倾向性较高的客户进行深度跟踪营销。这么做既减少了人工成本,又降低了打扰客户的次数,从而减少了投诉。同时客户在与潜在客户的交流中,也会为其制定更有用个性化的产品或服务组合。

(3)初始信用评分:当客户最终购买我们的产品时,如果在涉及赊销情况的时候,就会用到初始信用评分技术。这是根据客户的性别、年龄以及居住场所等基本信息对客户的信用进行预判。这类情况不只在银行信贷中会遇到,在很多企业中都会遇到。企业的应收帐款就是一种自然的商业信用,建立好优秀的初始信用评分体系,可以使企业在不提高增大财务风险的情况下快速开拓市场。比如,IBM全球融资部(IGF)是一个为赊购买入IBM产品的小公司提供金融服务的部门,其在上世纪80年代开发的客户信用评分模型对开拓全球市场功不可没。现在这个技术也成为了提高客户满意度的一种方式。比如,中国移动的先付费客户的欠费额度和京东的“打白条”服务。

(4)客户价值预测:为了更好地为客户提供服务的同时增加企业利润,需要根据客户的基本信息进行其价值预测。其中价值既包括以消费水平为代表的直接价值,也包括客户口碑宣传的间接价值。

(5)客户细分(市场细分):根据客户的基本信息,从人口学、工业统计信息、社会状态、产品使用行为等方面对客户进行细致的描述。这对分析客户类型结构、修正产品定位、满足细分群体需求开发新产品、提高客户满意度和分析客户需求变化趋势都是有意义的。

(6)交叉销售:分析产品之间的关联关系,发现产品销售中预期不到的模式。比如,“啤酒与尿布”的故事就是从客户在超市中的购物记录中获取的。这种技术目前被广泛运用在零售业、银行、保险等领域,大家对京东商场的推荐产品和淘宝的“猜你喜欢”两个模块应该有深刻的印象吧,这两个模块都是这个主题的运用。

(7)产品精准营销:这是客户价值提升的重要方面,目的在于扩大客户消费的范围。比如,公司开发了一款新产品,希望快速找到目标客户。这就可以通过分析现有客户的属性和产品消费行为,确定响应可能性最大的群体进行营销。

(8)行为信用评分:和初始信用评分的目的是一样的,这里分析的变量加入了客户产品消费行为的信息,这使得对客户信用的评估更为准确。比如,美国AT&T电信公司,其客户信用风险评级精确度明显高于一般的信用卡公司,这就是因为掌握了客户更多的通话、差旅等行为信息。

(9)欺诈侦测:也称为异常侦测。是对客户(包括内部员工)涉及洗钱、套现、盗用等异常行为进行的侦测,满足风险监管的需求。

(10)客户保留:有可能随着时间的变化,客户需求产生变化,如果不及时发现这种变化趋势,就会造成客户流失。客户保留的目的在于,及时发现客户在购买产品方面的行为变化和满意度情况,从而及时更换产品组合。比如,电信运营商发现客户的通话特征,从短途居多变为长途居多,而且从客户流失的模型中发现,有这种情况的客户流失的可能性很高。这主要是由于客户不了解电信运营商的套餐类型,只是听说其他运营商的长途套餐更便宜造成的。那么客服人员就需要了解这类客户的需求,从而提供更合理的套餐类型。

(11)客户关系网:客户的亲友圈、工作圈和兴趣圈的信息对客户管理、营销和产品开发有重要的意义。比如,可以很好地定位客户所处的自然生命周期。如果是婚恋中的人,可以推荐与其品位相似的产品信息。而且通过对客户关系网络结构的分析,可以明确网络中的重要节点,这对关键人营销有重大意义。

(12)流失客户时间判断:通过对已经流失客户的存续时间进行分析。一方面可以预判现有客户流失的高危期,另一方面为提高不同类型客户的存续时间提供技术支持。

(13)流失客户类型判断:对流失客户的细分可以对改进产品和服务起到重要的指导作用。

3、数据分析/挖掘方法分类介绍

数据挖掘是一种发现知识的手段,数据挖掘要求数据分析师通过合理的方法,从数据中获取与数据挖掘项目相关的知识。数据挖掘是一个多学科交叉的产物,其涉及统计学、数据库、机器学习、人工智能以及模式识别等多种学科。

按照数据分析与挖掘的方法来源,数据分析可以分类为简单数据分析、多元统计分析以及人工智能、数据库分析等,如表1-1所示。

表1-1 按照数据分析与挖掘方法来源分类

方法来源

主要方法

方法适用性与优势

简单的数据分析

集中趋势分析:众数、中位数、均数

离散趋势分析:极差、方差、标准差

分布形态:频数分布

交叉表

较容易掌握和使用,应用较广。对数据和使用者的要求较低,是培养业务知识的手段之一

多元统计分析

相关分析

回归分析

因子分析

聚类分析

……

用于分析变量间的关系、相似度等。多用于预测、 细分等场景,但是开发周期较慢。对使用者的要求较高,需要掌握基本的统计学知识和业务知识

人工智能、数据库等

神经网络

决策树

遗传算法

文本挖掘

……

可以定制算法满足个性化需求,具备自适应和自学习性

要求使用者具有较高的算法和对业务的理解

(表1-1摘自:SAS公司《SAS数据挖掘技术概览》)

按照数据分析与挖掘的方法来源进行分类显得过于庞杂,而且不便于理解和记忆。本书将按照其目的,将数据分析和挖掘技术分为描述性及预测性两大类,如表1-2所示。

表1-2 按照数据分析与挖掘技术目的分类

目的

定义

举例

主要算法

描述性

无监督学习,分析具有多个属性的数据集,找出潜在的模式,没有因变量

观察个体之间的相似程度,例如根据年龄、性别、收入等因素进行客户细分。根据客户对多个产品的购买发现产品之间的相关性

聚类、关联分析、因子分析、主成分分析、社交网络分析……

预测性

有监督学习,分类模型,用一个或多个自变量预测因变量的值

客户是否会违约是一个因变量,可以用客户的性别、年龄、收入、职位、经济状况、历史信用状况等因素进行预测

决策树、线性回归、Logistic回归、支持向量机、神经网络、判别分析……

解读数据分析是神马?相关推荐

  1. AI时代的神马搜索!神马智能对话技术深度解读

    智能对话是搜索引擎的未来形态,神马搜索在发展全网搜索.国内信息流.国际信息流等大数据业务的同时,智能对话的探索和沉淀也逐渐浮出水面.过去一年基于搜索推荐多年的积累,我们完成了平台架构.生产体系.算法体 ...

  2. 神马搜索聚焦大数据营销 汇川广告平台 快、准、省

    6月28日,阿里巴巴旗下神马搜索举办了汇川广告平台代理商季度沟通会.本次会议,神马搜索营销团队与众多代理商一道,针对移动搜索大数据营销和汇川广告平台超级媒体矩阵进行了深入交流,通过解读行业现状及案例分 ...

  3. 神马搜索上线奥运会人气榜单 中国女排包揽前三

    继战胜东道主巴西女排后,中国女排在今天对阵荷兰女排的半决赛中再次取得胜利,时隔12年再次跻身奥运决赛.在中国女排取得佳绩的同时,神马搜索奥运会人气榜单显示,中国女排队员惠若琪.张常宁.朱婷占据了榜单前 ...

  4. 蓝光模式引爆欧洲杯 神马搜索陪你度过激情夏日

    为期一个月的欧洲杯激战正酣,但受到时差和赛制的影响,中国球迷很却难完全享受其中.搜索明星球员,查询比赛资讯,又将成为这个夏天的"主旋律".阿里巴巴旗下神马搜索于近日推出了" ...

  5. 神马VS百度,移动互联网战争全面升级!

    "神马都是浮云"这句话想必大家都听过,这句话源于"小月月"事件,当时是用来嘲讽网络人物的,但是现在更多被寓意为什么都不重要的意思.而最近这句话摇身一变" ...

  6. 搜索引擎UA和对应的蜘蛛IP段,百度,搜狗,so,360搜索,神马

    众所周知,搜索引擎蜘蛛/爬虫在网站SEO收录排名扮演者至关重要的角色,今天放放SEO就按照国内常用的搜索引擎顺序说说百度搜索引擎user agent和对应的蜘蛛IP段.搜狗UA和对应的蜘蛛IP段.36 ...

  7. python是神马?

    神马是python? 本文章对应项目:https://aistudio.baidu.com/aistudio/projectdetail/2144759 python不会是传说中的蟒蛇吧? 不会吧就是 ...

  8. 全线“封杀”神马,百度移动端显恐慌

    原标题:百度狙击神马的背后:一场关于"框"的危机 昨天,被称为移动搜索大战的"百神大战"续集又已上演.UC优视发布<对不起!我们又让百度手滑了--关于UC ...

  9. inspinia中文管理后台_赤峰当地神马推广后台哪里有

    赤峰当地神马推广后台哪里有 于是,uc只需给网络管理员登陆uc,就能与公司结成战略伙伴关系.因为"公司推广的目的是为了进行网络营销,"uc网络营销管理员说,"上网管理员可 ...

最新文章

  1. 智能车竞赛自动裁判系统
  2. AVAudioPlayer音频播放器-备用
  3. python实现自动发送微博,当自己写博客时同步上去。
  4. DL之YoloV3:YoloV3论文《YOLOv3: An Incremental Improvement》的翻译与解读
  5. 启明云端分享 | sigmastar SSD201开发板网口直连PC升级
  6. 【Qt开发】QTableWidget设置根据内容调整列宽和行高
  7. “Talk is cheap, show me the code”你一行代码有多贵?
  8. 关键词: iostream 和 iostream.h
  9. java报错 csrf_CSRF Security Error解决办法
  10. python爬取谷歌学术_对于python抓取google搜索结果的一些了解
  11. AUTOSAR —— CAN网络管理(CanNm)
  12. python语句用什么隔开_在python中使用字典时用什么隔开
  13. 植物大战僵尸修改存档总结
  14. 首个AI公园探秘:身高体重一秒被曝,大爷大妈坐无人车玩疯了
  15. layui数据表格分页无法正常显示
  16. 关于el-upload看这一篇就够了
  17. 小心!Cookie能够暴露你输入的密码
  18. android密码是小黑点,Android自定义密码样式 黑点转换成特殊字符
  19. yolov3的缺点_YOLOV3问答式解读
  20. java 案例:二月天;求月一共有多少天

热门文章

  1. NPT 时间服务实战
  2. 自动给多个视频进行画面裁切,裁剪成一样的尺寸
  3. 使用JQuery快速高效制作网页交互特效第九章所有上机
  4. 山东省计算机考试模拟,山东省高校计算机等级考试VB考试模拟系统使用说明
  5. ...mapMutations的使用
  6. imx6ul查看系统资源IO电平(基于周立功A6G2C)
  7. i5 10400f和i5 11400f参数对比 哪个更好
  8. 2022-2028全球快餐肉汤食品行业调研及趋势分析报告
  9. IDEA界面太丑了 我教你修改界面吧
  10. MinGW到底是个什么ghost