导读:数据分析要熟练掌握数据科学与数理统计的基本概念。

作者:张秋剑 张浩 周大川 常国珍

来源:大数据DT(ID:hzdashuju)

01 数据科学的基本概念

随着计算机技术的发展和有用数据的快速增多,数据科学应运而生。数据科学的总体目标是在已有数据集的基础上,通过特定的算法提取信息,并将其转化为可理解的知识以辅助做决策。

例如,北京****信用管理有限公司是一家典型的数据公司,有两个主要业务:第一个是为会员机构提供数据加工服务,第二个是提供反欺诈与信用风险管理的产品和咨询服务。

第一个业务的主要工作内容是为会员机构清洗数据,并提供数据存储与管理服务。按照经济学的观点,这类业务的附加价值极低,只能获得社会一般劳动报酬。

第二个业务属于增值服务,数据科学工作者将数据与金融借贷的业务知识相结合,为会员机构提供风控方面的咨询服务。这类业务的边际报酬在客户量达到一定阈值之后是递增的,即一元的投入会获得高于一元的产出,可以为企业高筑商业的安全边际。

从这家公司的业务中可以看出,数据是基础,数据科学是研发,不做研发的企业只能成为代工厂。

数据科学的工作范式见图1-1,以后我们的工作都是在重复这些步骤。

▲图1-1 数据科学的工作范式

我们再来看一个例子。有一个淘宝商家希望通过促销的方式激活沉默客户。这里的“决策和行动”就是向一些客户发放打折券。打折券不应该是随意发放的,比如黏性很高的客户没有打折券也会持续购买。

为了明确应该向哪些客户发放打折券,商家需要了解关于客户的三个知识:客户的流失可能性、客户价值、客户对打折券的兴趣。这些关于客户的知识往往被称为客户标签。根据获取标签的难度,客户标签可以分为基础、统计、模型三种。

  • 基础标签可以从原始数据直接获取,比如性别、年龄段、职业,可以供决策者使用,等价于信息和数据。

  • 统计标签是通过原始数据汇总得到的,比如获得客户的价值标签需要将客户过去一段时间内在企业的所有消费进行汇总,并扣除消耗的成本。统计标签通过对原始数据进行简单的描述性统计分析获得。

  • 模型标签比较复杂,是在基础标签、统计标签和已有的模型标签的基础上,通过构建数据挖掘模型得到的,比如客户的流失概率、违约概率的标签。

具体到本例,客户的流失可能性、客户价值、客户对打折券的兴趣这三个标签都属于统计标签。表1-1所示是该商家的交易流水表,记录了每位客户每笔交易的时间、金额和交易类型。从这些交易流水数据中获取信息的最简单而通用的方法被称为RFM模型。

▼表1-1 淘宝商家的交易流水

图1-2是根据表1-1的数据所做的RFM模型。RFM模型将每个信息进行二次分类,得到客户分群。

  • R(最后一次消费时间)标签可以代表客户的流失可能性,离最后一次消费时间越久的客户的流失可能性越高。

  • M(一段时期内消费的总金额或平均金额)标签可以代表客户的价值,消费额高的客户的价值高,因此可以初步确定重要保持和重要挽留客户都属于应该营销的客户。

  • 最后一个标签F(一段时期内消费的频次)代表客户对打折券的兴趣。

直接使用RFM模型是不能满足要求的,我们可以按照交易类型,计算每个客户所有交易类型中购买特价产品的F(一段时期内消费的频次)或M的占比。

这里有人会开始纠结,两个标签该选哪个呢?其实,“对打折券的兴趣”是一个概念,我们可以用多种方法得到不同的标签来表示这个概念。如果你追求完美,可以使用后续章节中讲的主成分方法进行指标合成。

▲图1-2 RFM模型示例

经过以上数据分析,我们终于可以进行有针对性的折扣券营销了。细心的读者可以发现,数据分析是按照图1-1所示的工作范式从右至左规划和分析、从左至右实际操作的。本案例比较简单,数据量不大,使用Excel进行数据分析即可。

不过,当一个企业的年销售额达到几十亿元,活跃客户量达到几十万时,其就必须聘请专业的数据科学工作者,使用复杂的算法和专业的分析工具了。

与数据科学相关的知识涉及多个学科和领域,包括统计学、数据挖掘、模式识别、人工智能(机器学习)、数据库等,如图1-3所示。数据科学的算法来源比较复杂,所以同一概念在不同领域的称呼不一样。为了便于读者将来与不同领域的专家沟通,我们力争列出出现的术语在不同领域对应的称呼。

▲图1-3 数据科学知识领域

  • 数据库

数据是数据科学的基础,任何数据分析都离不开数据。如今信息化建设日趋完善,数据库作为存储数据的工具,被数据分析人员广泛使用。

Python和R之类的工具都是内存计算,难以处理太大的数据。因此在对数据库中的数据进行分析前,数据分析师需要借助Oracle之类的数据库工具得到待分析的数据,并在数据库内进行适当的清洗和转换。即使在大数据平台上做数据分析,大量的数据也是在Hive或Impala中处理后才被导入Spark进行建模。

  • 统计学

统计学一直被认为是针对小数据的数据分析方法,不过其仍旧在数据科学领域担任重要的角色,比如对数据进行抽样、描述性分析、结果检验等。目前商业智能中的数据可视化技术绝大多数使用的是统计学中的描述性分析。而变量降维、客户分群主要还是采用多元统计学中的主成分分析和聚类算法。

  • 人工智能/机器学习/模式识别

一些数据科学方法起源于早期科技人员对计算机人工智能的研究,比如神经网络算法是模仿人类神经系统运作的,不仅可以通过训练数据进行学习,而且能根据学习的结果对未知的数据进行预测。

很多人视数学为进入数据科学的拦路虎,这是完全没有必要的。在一开始接触数据科学时,我们完全可以从业务需求出发,以最简单的方法完成工作任务。

02 数理统计技术

数理统计博大精深,但入门并不难。只要掌握本节中介绍的描述性统计分析和统计推断的知识,你便可应对绝大部分工作。

1. 描述性统计分析

描述性统计分析是每个人几乎都会使用的方法,比如新闻联播中提及的人民收入是均值,而不是每个人的收入。企业财务年报中经常提及的是年收入、利润总额,而不是每一笔交易的数据。这些平均数、总和就是统计量。

描述性统计分析就是从总体数据中提炼变量的主要信息,即统计量。日常的业务分析报告就是通过标准的描述性统计分析方法完成的。做这类分析时只要明确分析的主题和可能的影响因素,即可确定可量化主题和影响因素的指标,然后根据这些指标的度量类型选择适用的统计表和统计图进行信息呈现。图1-4展现了统计表的类型和对应的柱形图。

▲图1-4 描述性统计分析方法

以图1-5为例,这是某知名商业智能软件的截图,其实就是图1-4中方法的运用。比如图中“普通小学基本情况”报表就是“汇总表”的直接运用;“普通小学专任教师数”是柱形图的变体,使用博士帽的数量替代柱高;“各省份小学学校数量占比”中使用气泡的大小代表各省小学学校数量的占比情况。

▲图1-5 某商业智能软件的截图

剩下的难点就是理解业务和寻找数据了,这要靠多读分析报告、积累业务经验来解决。

2. 统计推断与统计建模

统计推断及统计建模的含义是建立解释变量与被解释变量之间可解释的、稳定的,最好是具有因果关系的表达式。在模型运用时,将解释变量带入该表达式可以预测每个个体被解释变量的均值。目前,针对统计推断,业界存在两个误解。

  • 统计推断无用论

认为大数据时代只做描述性统计分析即可,不需要做统计推断。由于总体有时间和空间两个维度,即使通过大容量与高速并行处理得到空间上的总体,也永远无法获取时间上的总体,因为需要预测的总是新的客户或新的需求。

更为重要的是,在数据科学体系中,统计推断的算法往往是复杂的数据挖掘与人工智能算法的基础。比如特征工程中大量使用统计推断算法进行特征创造与特征提取。

  • 学习统计推断的产出/投入比低

深度学习大行其道的关键点是产出/投入比高。实践表明,具有高等数学基础的学生可以通过两个月的强化训练掌握深度学习算法并投入生产,而培养同样基础的人开发可落地的商业统计模型的时间至少是半年,原因在于统计推断的算法是根据分析变量的度量类型定制开发的,需要分析人员对各类指标的分布类型有所认识,合理选择算法。

而深度学习算法是通用的,可以在一个框架下完成所有任务。听上去当然后者的投入产出比更高。但是,效率与风险往往是共存的。目前,顶尖AI公司的模型开发人员发现一个现象:解决同样的问题,统计模型开发周期长而更新频次低;深度学习算法开发周期短而优化频次高。

过去,深度学习所鼓吹的实时优化造成企业过度的人员投入,使得企业综合受益不一定高。而我们的目的之一就在于降低统计推断学习的成本。读者将来只要按照表1-2所示方法分析,即可大大缩减学习时间。

▼表1-2 统计推断与统计建模方法

关于作者:张秋剑,就职于腾讯云金融拓展中心,从事微信财富营销管理、数据中台、AI应用等解决方案拓展工作,研究方向包括数字化转型、创新实践等。

张浩,曾任腾讯云金融首席架构师和星环科技金融行业技术总监,主要从事大数据、人工智能、云计算、区块链、联邦学习等相关技术研发与产品设计,具有丰富的企业架构设计、企业数字化战略转型运营与业务咨询经验。

周大川,就职于某中央金融企业金融科技研发中心,主要从事企业级数据平台开发、核心业务平台建设、AI赋能金融科技创新等工作,具有丰富的新一代金融业务系统建设经验。

常国珍,曾任毕马威咨询大数据总监,具有近20年数据挖掘、精益数据治理、数字化运营咨询经验,是金融信用风险、反欺诈和反洗钱算法领域的专家。

本文摘编自《金融商业数据分析:基于Python和SAS》,经出版方授权发布。(ISBN:9787111695837)

《金融商业数据分析:基于Python和SAS》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:腾讯云等资深数据架构师、商业分析师20年经验,全流程讲解金融数据分析思路、方法、技巧,快速入门到精通。

划重点

详解数据科学与数理统计的基本概念相关推荐

  1. oracle 增加ora容量_案例:Oracle报错ORA-01144 详解数据文件大小32GB的限制的原因

    天萃荷净 Oracle数据文件大小的限制,运维DBA在向Oracle数据库添加一个32G的数据文件的时候报错ORA-01144,分析原因为数据库针对文件有32G限制 1.添加数据文件报错ORA-011 ...

  2. 详解数据中心灾备切换技术

    <详解数据中心灾备切换技术> 目录 1.网络切换技术 (1)基于IP地址的切换 (2)基于DNS服务器的切换 (3)基于负载均衡设备的切换 2.应用切换技术 (1)主备集群 (Cluste ...

  3. 数学是一门逻辑性极强的演绎科学,只有对基本概念深入理解,对基本定理和公式牢牢记住,才能找到解题的突破口和切入点。

    考研数学备考目前已进入首轮复习阶段.此阶段考生要做的是全面整理基本概念.定理.公式,初步总结复习重点,把握命题基本题型,为强化期的复习打下坚实基础. 由于数学大纲一般变化不大,因此,虽然2003年考试 ...

  4. 数据科学 5.1 数据处理(概念)

    数据科学 5.1 数据处理(概念) 一.数据库基础 1.基本概念 二.数据整合与数据清洗 1.数据整合 1.1SQL语句介绍 1.2数据纵向合并 1.3数据横向合并 1.4SQL进行汇总 2.数据清洗 ...

  5. 李永乐复习全书概率论与数理统计 第五、六章 大数定律和中心极限定理及数理统计的基本概念

    目录 第五章  大数定律和中心极限定理 第六章  数理统计的基本概念 6.1  总体.样本.统计量和样本数字特征 例4  设总体X∼P(λ)X\sim P(\lambda)X∼P(λ),则来自总体XX ...

  6. 科学创新四十年,我们可能还没搞明白科学和技术的基本概念

    来源:澎湃新闻智库报告栏目 撰文:周路明(源创力离岸创新中心负责人,深圳市科协原主席) 中国系统推进科学和技术发展的工作始于改革开放,至今已经40余年. 中国官方和民间发展科学和技术的热情在世界范围内 ...

  7. 6500字详解数据中台,一份完整的数据中台手册!

    内容索引: 1. 数据中台定义 2. 数据中台价值 3. 数据中台VS业务中台 4. 数据中台功能架构 5. 数据中台技术架构 6. 数据中台构建的三大路径 7. 数据中台构建5步法 数据中台定义 数 ...

  8. 深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点

    来源:机器之心.信息网络工程研究中心本文约2400字,建议阅读5分钟本文从激活函数的数学原理出发,详解了十种激活函数的优缺点. 激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激 ...

  9. 神经网络最常用的10个激活函数,一文详解数学原理及优缺点

    激活函数是神经网络模型重要的组成部分,本文从激活函数的数学原理出发,详解了十种激活函数的优缺点. 激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数 ...

最新文章

  1. error C2065: “IDD_DIALOG1”: 未声明的标识符
  2. 信息系统项目管理师:论项目的沟通管理
  3. 2019 阿里巴巴云原生这一年
  4. PHP + NGINX 控制视频文件播放,并防止文件下载
  5. 实例49:python
  6. C语言,使用union了解内存
  7. 【C语言进阶】 宏定义实现字符串引用
  8. remix配置本地开发环境
  9. 「人物特写」国产手机操作系统突围任重而道远,创新才是关键
  10. JavaScript的new关键字执行过程(1)
  11. Android PopupWindow的简单说明
  12. rust狗阳的师傅是谁_杨幂迪丽热巴新剧同天官宣,你更期待谁呢?
  13. 《游戏引擎架构》中英词汇索引表
  14. 创建google账号收费_谷歌GMS认证收费标准
  15. Unity双击桌面快捷方式打不开怎么办?
  16. PS标尺和标记线用法的简单记录
  17. 无网络环境,如何部署Docker镜像
  18. Skywalking极简入门
  19. 【教程】笔记本装Win10+Deepin双系统|详细
  20. binlog是什么?能做什么?Window下怎么开启binlog?怎么查看binlog日志?利用binlog日志恢复数据

热门文章

  1. Oracle笔记-Oracle Net Manager添加监听IP(当服务器IP变化时要用)
  2. Java笔记-jpa中数据存储及更新应该注意的问题
  3. Qt工作笔记-pro文件中QMAKE_POST_LINK的使用
  4. C++设计模式-面向对象程序设计要点以及封装性特点
  5. Linux工作笔记-解决安装Qt时缺少libX11-xcb.so.1文件问题
  6. C/C++信息隐写术(四)之大程序藏入BMP文件
  7. 百度网盘vep文件如何转换mp4_用这个软件,聊聊如何将MOV文件转换为MP4
  8. 计算机中专专业是什么意思,计算机专业的中专与大专有什么不同?
  9. Packet Capture
  10. (软件工程复习核心重点)第十二章软件项目管理-第二节:进度计划