CDA level 2级课堂笔记

0.1.0引言

1.感知型企业与数据应用系统的演进

敏捷分析平台(BI)–>行为数据平台(数据挖掘)–>协同思维平台(数据驱动业务)–>分析应用平台(数据中台)–>自主决策平台(职能平台)

2.EDIT数字化模型
2.1业务运行探索(E)

业务宏观分析

指标突然下降

2.2问题根因诊断(D)

宏观分析/微观分析

内外部原因

2.3业务策略指导(I)

根据知识库、策略库、流程模板便捷的制定优化策略

  • AB测试

  • 算法建模

2.4数据算法工具(T)

各类标签库、指标库、流程库,指导业务人员进行洞察以及调阅等。

0.1.1数据分析分类

企业业务层级 决策需求 数据产品类型 数据范围 数据获取方式
战略 做什么?为什么做? 市场/行业指标型 市场/行业外部数据 国家统计局、行业报告、市场调研等
管理、运营 做的如何? 智能报表型 企业内部数据 企业业务系统
操作 如何做? 智能分析决策型 内部+外部数据 企业业务系统+外部数据供应商

0.1.2数据分析的方法

  1. 常用报表
  2. 即席查询
  3. 多维分析
  4. 警报
  5. 统计分析(以上为描述分析,以下为挖掘阶段)—主要解决根因分析,做统计检验
  6. 预报—宏观指标预报
  7. 预测型模型—微观个体进行预测
  8. 优化—宏观(根据业务进行策略优化)/微观(根据不同个体进行不同策略)

0.1.3数据分析流程

业务描述性分析流程

1.业务理解

2.数据获取

3.数据处理

4.数据分析

5.结果展现

CRISP-DM方法论(根因分析、数据挖掘)

1.业务理解

2.数据理解

3.数据准备

4.建模

5.模型评估

6.模型发布

SEMMA方法论

1.定义业务问题

2.环境评估

3.数据准备

4.循环往复的挖掘过程(探索-抽样-评估-建模-修改)

5.上线发布

6.检视

探索-抽样-评估-建模-修改(SEMMA)

抽样(sample):数据分为训练和测视集;由于变量取值过少,采取过采样技术,使损失率到5%

探索(explorer):单变量探索为修改提供指导;双变量探索发现关系

修改(modify):异常点和缺失值的补缺;分类型变量采用基于分布方法;区间型变量采用Ander`s Wave;关键变量进行规范化,考虑偏峰度便于建模

建模(model):神经网络;逻辑回归;CHAID式决策树

评估(assess):通过验证集进行结果评估;发现神经网络进行流失预测最精准

0.1.4不同角色在EDIT中的分布

探索E–业务数据分析师

诊断D(根因分析)–业务数据分析师

指导I–建模分析师

工具T–建模分析师

数据能力统筹、建设–数据科学家

【选修】数据化指标体系

1.是什么?

定义、数值(范围;波动性、动态/静态)

2.从哪来?

直接定义

间接计算/筛选

3.怎么用?

场景、业务话题

1.数据化指标概述

1.合适的角度

对数据的需求形式(包括信息量、颗粒度以及呈现方式)都有所不同。因此实际情况中通过多层级方式进行展示。

  • 管理层(有代表性、核心突出、波动性强)

    整体化数据,当前kpi达成情况、不同团队排名,重点关注和预警的问题。

    • 概况
    • 核心
    • 信息点突出
  • 运营团队

    整体和细分数据,不同时间点的变动i情况(特别是关键节点,如产品上下线、活动前后、重大舆情等)

    • 钻取式数据
    • 逻辑
    • 有层次感
  • 一线团队

    详细到团队及个人的数据,可以拆解到具体行动层面。

    • 详细
    • 及时
    • 可操作性

2.合适的维度与对标

数据是流动的,有对比才有发现。

  • 合适的维度:结果维度与操作维度

    客单价 转化率 交易量 渠道 种类 平台

  • 横向对比:同一时间点,不同样本

    变现 时间段 竞争力

  • 纵向对比:同一样本,不同时间点

    变化 时间线 发展性

2.获客类指标体系

数据驱动获客

  • 客户从哪儿来(接触)

    流量 费用 费效比

  • 能不能留得住(购买转化)

    质量 成长性 成长周期

常用获客指标

  • 收入
  • 成本
  • 时效

客户价值(净收入)=产品收入-业务费用-营运费用

  • 业务费用

    • 获客费用

      1.商业渠道:不同月份用户的成本差异

      2.用户推荐:推荐人和被推荐人的成本分离

      3.其他渠道:预算/新客数

    • 促销费用

      1.活动成本:直接、间接

      2.补贴:奖励券(去复算)

    • 支付费用

      1.充值取现

      2.支付费率

    • 其他费用

      摊销法:摊销主体确认

    收入注重构成

    客户:新老客户

    产品:

  • 高效产品驱动型(利润高;产品质量)

  • 引流产品驱动型(薄利;羊毛党)

  • 均衡贡献型(引流、高效;密切)

  • 活动驱动型(活动导向、价格敏感;关注)

客户的成长性不同

​ 成长价值:成长时间、成长天花板

3.营销类指标体系

客户购买力提升:价值提升、潜在流失客户激活、拉新作用(宣传)

3.1.精准营销
  • 合适的客户

    • 那些客户会买?(意愿)

    • 会买的能买多少?(能力)

  • 合适的产品

    • 消费
  • 恰当的时机

    • 促销沟通的时间

    • 促销时间段选择

3.2.常用营销指标:产品

促销活动热度曲线(浏览、点击、咨询、搜索、新闻报道、微博、抖音、领券)

  • 响应率/衰减周期(热度)

    反馈/兴趣

  • 命中率/覆盖率

    产品与客户之间匹配度

    命中率衡量合适的产品

    覆盖率衡量合适的客户

  • 销售额提升度

    效果

    • 有无其他影响因素(周期性、淡旺季)
    • 费效比
  • 参与集中度

    辅助判断效果

3.2.常用营销指标:时机

告知客户的时机(数据分析)

留给客户购买的时间(经验判断)

  • 推送时间(因人而异)
  • 推送方式(因人而异)
  • 沟通时长(因产品复杂度/价格而异)
  • 跟踪时长(因产品复杂度/价格而异)
3.3.常用营销指标:效果评估(结果维度)

直接效果

  • 组合推荐通过客户购买(单品购买、多品购买)命中率衡量组合是否合适

间接效果

  • 活动增加的销售额(时间维度下活动/非活动销售额对比)

AB测试

  • 测试组和对照组对比

4.预警类指标体系

4.1.流失预警

客户流失≠业绩流失

客户什么时候做选择(时间)

让客户少做选择(流程)

4.2.问题的特点

快速的拉客增长可能会掩盖老客户的流失增长

1.选择时间点≠想离开的时间点

2.新客增加VS老客流失

4.3.常用流失预警指标
  • 高频行业(外卖、共享单车)

交易类指标:交易额、交易次数、客单价

  • 低频行业(投资/理财、奢侈品、电器、电子产品)

指标比较:横向(同类客群)、纵向(边际交易额变动)

反馈类指标:活动响应率、电话接通率、社群反馈、登录/浏览

4.4.常用流失预警指标:挽回可行性

是否有联系:余额、高额促销、未清空购买清单

时间:呆滞时间、资金交互时间、集中度

4.5.案例:客户流失潜伏期识别

图表展现:有规律的模式才是有意义的

客户行为模式曲线:流失潜伏研究的是3-9个月的客户(登录、购买等行为情况)

提取曲线的相似因子:识别异常(偏离)、总结特征(波动/突兀消费)

突发事件的预测:定时防守、社群防守-

5.产品类指标体系

5.1.产品特征

收集容易、标签较少

期限特征:短/中/长,固定开放窗口/非固定开放窗口

门槛特征:引流产品、盈利产品、过渡产品

现有产品重合度:互补产品、强势产品、试验产品

5.2.案例:客户覆盖率及产品线竞争力分析

百分比堆积面积图展现

产品VS客户覆盖率

客户消费稳定性:金额、频次、波动性

产品同质性:共有客户重叠率、新增增长率(客户来源判断)

5.3.案例:产品上下架业务影响预测

产品间转化:多使用面积图/饼图

客户群体变化:多使用漏斗图

6.运营指标体系设计

6.1.注意事项
  • 数据不足的地方:概率化的定性分析(人为补充)
  • 数据过多的地方:分层定量(逻辑拆分)
  • 视角转化:指标的加减乘除
  • 波动率监控:波动太大或者太小都不是好指标(太大灵敏度过高)
6.2.指标展示
6.3.监控类指标设定

指标名称–数值–异常程度–主要异常因子–可能原因–关闭提醒

6.4.报表元素

第一部分–>说明:数据来源/模型说明/定义阐释

第二部分–>并列(不同主体)/总分(群体)

第三部分–>结论(可有可无)

6.5.指标与图表的组合
  • 理解指标

    • 直接型指标(现状)
    • 间接型指标(公式拆解)
    • 原因型指标(过程指标;群体对比)
    • 预测型指标(结果指标;命中率–>预测型)
  • 理解图表

    • 分布型图表(面积图、折线图)
    • 特征型图表(条形图)
    • 差异性图表(多元折线图、多组条形图)
    • 信息型图表(蜘蛛图)
6.6.汇总与明细的平衡
  • 汇总数据

    • 绝对值同样重要
    • 横向对比VS纵向对比(相对)
    • 区分同比和环比(季节性;新业务)
    • 识别明显差异(下钻追因)
  • 明细数据

    • 验证式信息(支持备查)
    • 补充式信息

1.1.用户标签体系设计原理

1.1.1.如何定位用户?

精准营销的案例:微信朋友圈广告推送(宝马车广告推广)

本质:识别目标消费群体

  • 消费意愿
  • 消费能力

1.识别目标消费群体–消费意愿的识别

  • 关注汽车,尤其是宝马相关品牌的公众号

  • 经常提到汽车,尤其是宝马的用户

  • 时常发汽车图片的用户

  • 对汽车类信息评论和转发率高的用户

  • 对汽车类信息平评论出现关键词的用户

    搜索汽车,尤其是宝马相关品牌的信息

2.识别目标消费群体–消费能力的识别

通过大量推广微信支付进行识别(联合其他软件消费支付进行识别,例如京东、滴滴等)。

通过差异化消费变现也可以识别消费能力。

3.精准投放

1.1.2.业务指标与用户标签的关系

业务宏观分析–指标

业务微观分析–标签

1.制定业务指标OSM模型

业务目标–业务策略–度量(KPI) KPI、平衡记分卡

2.北极星指标(阶段核心指标)

依据各企业经营策略不同而制定。

根据北极星指标进行目标拆解。

分解方式(关键要素的确定是通过用户所处的状态和业务想要达到的目标拆解而来)

  • 全链漏斗式(例如营收转化漏斗)

  • 因子分解型(例如营收构成拆解)

3.业务指标的分层方式

北极星指标(战略) 营收

一级指标(管理) (新+老客户)* 客单价

二级指标(运营) 线上渠道+线下渠道

三级指标(操作) 活动1+活动2

4.企业决策层次和对数据的需求

企业业务层级 决策需求 数据产品类型 数据范围 数据获取方式
战略 做什么?为什么做? 市场/行业指标型 市场/行业外部数据 国家统计局、行业报告、市场调研等
管理、运营 做的如何? 智能报表型 企业内部数据 企业业务系统
操作 如何做? 智能分析决策型 内部+外部数据 企业业务系统+外部数据供应商

5.标签是操作层面支持数据科学的基础

数据(+元数据)—>信息(+场景)—>知识(+业务流程)—>决策和行动

​ 维度分析-------------->建模分析----------------->业务目标

标签:对分析对象的洞察

6.企业数据应用能力等级

统计分析阶段—>决策支持阶段—>数据驱动阶段—>运营优化阶段

​ 宏观:指标 微观:标签 宏微观结合

1.1.3.用户标签与用户画像的关系

1.市场细分

用户细分是进行市场细分的工具。市场细分是产品研发的前置条件,产品销售阶段根据产品研发的用户画像进行渠道匹配。

用STP进行市场定位:选择目标市场

STP模型:

  • S(细分市场)

    • 根据消费者差异确定细分要素和市场
    • 利用五个关键指标量细分市场(可测量、可盈利、可进入、可区分、相对稳定)
  • T(选择目标市场)
    • 评估每个细分市场的吸引力
    • 根据自身与市场匹配度选择细分市场
    • 确定市场营销策略
  • P(市场定位)
    • 决定在目标消费群体中占据什么位置

2.用户画像的发展历程

3.客户的决策进程

特质需要 行为意向数据 访谈/问卷 行为模式数据 行为结果数据

确认需要------>信息收集------->方案评估---------->购买决策--------------->够后行为

个人特质 个人来源 产品属性 他人态度 事后评价

需求阶段 商业来源 品牌信念 意外情况

​ 公共来源 效用函数

​ 评估模型

三类精准营销方法:

  • 识别出产品或服务的刚需群体
  • 直接获取客户的需求信息
  • 根据场景交叉销售

4.为什么要做用户画像?

通过对产品已有客户进行画像,定位目标群体。

5.用户画像反应用户对某些产品的收益或者成本

6.马斯洛需求理论

  • 生理需求
  • 安全需求
  • 归属需求
  • 尊重需求
  • 自我实现

精准营销实际定位刚需人群。

7.经济学原理:消费者决策与马斯洛需求层次理论

8.用户标签与产品属性

1.1.4.用户标签的类型

1.四种客户细分方法

目前国内银行主要采用将双重细分作为短期的速赢方案。

  • 层级细分(操作效率;例如:资产阈值划分)

    • 根据客户当前资产规模将其分为4~6层(二八原则划分)
    • 相应设计不同的服务模式

    优点:

    • 数据需求低,只需要使用客户的金融资产
    • 方便理解,容易和客户沟通

    缺点:

    • 难以基于此而设计符合客户需求的特定产品和服务
  • 客群细分(客户需求;根据客户标签进行客群细分)

    • 采用多个维度(包括资产、人口特征、客户行为等主要变量),探索客户的需求形成特定产品需求的客群
    • 然后有针对性的设计产品和服务

    优点:

    • 客群有共同的需求,共同的特征
    • 可以按照客群生命周期进行管理

    缺点:

    • 容易造成误会,以为是以产品为中心
    • 因为产品数量有限,不能实现高粒度化得举措设计
  • 双重细分

    • 首先,按照资产规模和贡献潜力等战略维度对客户进行细分。这决定了资源分配、接触频率和渠道等。
    • 其次,在每层战略细分客群内,采用产品客群或者一系列变量形成策略性子客群以推动营销、产品推荐等。

    优点:

    • 有助于围绕客户价值进行组织
    • 同时可以在客户价值基础上,结合客户在某一产品客群上的行为进行更好的细分

    缺点:

    • 相比1和2,更多数据导致客户归属模糊不清
  • 先进细分(通过算法,更多的维度进行细分)

    • 收集所有结构化和非结构化数据维度(可多达上千种标签)以支持特定产品、服务和营销活动建议。
    • 可以支持与客户1对1定制化方案。

​ 优缺点与客群细分一致。

1.2.用户标签的制作方法

1.2.1.标签体系整体框架

1.个人标签体系示例

  • 身份属性
  • 教育属性

2.用户标签的时态分类

  • 静态数据

    属性数据

  • 动态数据(时点)

​ 例如:账户余额,流量信息累积的结果。

  • 动态数据(期间)

    例如:本月收入,流量数据、行为数据

3.用户标签的技术层面分类

1.2.2.基础标签

从基础数据中的用户主数据直接提取的标签。基本的SQL直接获取。

1.2.3.统计标签

从基础数据中的交易数据通过汇总计算的标签。用SQL的汇总函数实现。

例如:用户资产汇总、用户行为偏好

经典模型:RFM(变量计算框架)

1.2.4.模型标签

根据一定的业务需求建立算法模型。以上面的标签为基础加工。

用户潜在需求----根据用户过往表现,从具体产品出发,挖掘潜在客户,进行精准营销。

客户消费偏好----根据客户的消费行为,获取购物、理财等偏好信息。

用户风险评分----展示该行各类信用评分模型结果。

业务营销推展----为支持业务部门某次营销活动而专门开发出来的具有生命周期的用户标签。

1.规则类模型标签

基于RFM模型计算出来的统计标签的客户级别属于模型标签。

2.算法类模型标签(用卡人实际性别判别)

3.综合应用类模型标签(用户收入等级标签的制作)

1.3.用户画像

1.3.1.用python做用户画像的基础知识

python绘图功能

描述统计的总结

1.3.2.用户画像在诊断阶段中的应用

用户画像的标签

  • 静态数据

    • 性别
  • 动态数据(时点)

    • 截止到月底余额
  • 动态数据(期间)

    • 半年出账比

准备数据集

1.3.3.用户画像在指导阶段中的应用

通过先进用户画像,制定营销策略

基于用户画像,构建精准营销模型

2.1.数据采集方法

2.1.1.市场研究中的数据
  • 按照尺度划分:名义、等级和连续
  • 按照收集方式:实验数据和观测数据
  • 按照描述对象与时间关系:时间序列数据、截面数据和面板数据

统计数据分为原始数据(调查或实验收集)和二手数据(其他私人、团队整理好的)。

1.原始数据收集的方法

  • 观察法
  • 实验法
  • 调查法

2.二手数据

  • 利用公开的二手资料
  • 互联网爬取

可以节省时间、降低成本。

2.2.2.概率抽样方法

从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。

具有经济性、时效性强、适应面广、准确性高。

1.四种抽样方法

  • 简单随机抽样(小样本使用较多)

    • 完全随机
    • 总体单位数很大时,难以实现,且抽样误差较大
  • 分层抽样(重要的变量)(STR)

    也叫类型抽样,总体分成不同的层,每一层内进行抽样。

    • 等数/等比分配法(等数使用较多;等比法相较于简单随机抽样可以保证按照一定比例抽取)
    • 例如:企业大中小微类型分类
  • 系统抽样(等距抽样)

    • 按照某一标志值的大小将总体单位进行排队并顺序编号
  • 多段抽样

    • 大型抽样(经济调查)
    • 例如:北京市–>区–>街道–>10000人(从北京抽10000人组成样本单位)

2.放回抽样(重复抽样)与不放回抽样

某些建模会使用放回样本。

大数据时代使用不放回抽样(不会出现重复样本;例如三四百中抽取三四十)。

3.抽样误差与非抽样误差

抽样误差:用样本调查量推断总体参数的误差。随样本量增大而减少。

非抽样误差:不是抽样引起的。包括:登记性误差、测量误差、响应误差等;随样本量增大而增大。

4.样本量的确定

抽样量需要>30才算足够多。

5.抽样在挖掘中的作用

  • 快速获取数据基本特征

  • 数量大,建模速度较慢

  • 数据不足时

  • 数据平衡

  • 数据分为训练集、测试集、验证集

2.2.3.非概率抽样方法
  • 偶遇抽样

    方便、随意、任意

    • 探索性调查
    • 同质性强的总体
    • 时效性要求较高的调查
    • 流动性大的总体

    例如:对武汉市外来务工、经商人员的调查(在务工、经商人员集中的地方发放问卷)

  • 判断抽样(典型、主观)

    • 选择具有代表性的群体作为样本
    • 找异常个案
  • 定额抽样(配额抽样)

  • 滚雪球抽样

  • 空间抽样

优点:简单、成本低、统计上比概率抽样简单;有助于调研人员形成想法、拓展思路

缺点:不能估计抽样误差(统计上推断没法做)、难以评价样本所具有的代表性程度

2.2.4.概率抽样与非概率抽样的比较
  • 概率抽样更为严格。
  • 可以根据调查结果推断总体。
  • 非概率抽样不依赖随机原则抽样样本,样本统计量的分布也是不确定的。

2.2.市场调研流程和目标设定

2.2.1.市场调研流程

针对潜在或当前的市场、目标用户、现有产品或计划中的产品系统化进行特定信息收集和数据分析的过程。

  • 目标设定

    行业预研、目标分解、关键问题

  • 调研前准备

    样本选取、问卷设计

  • 调研

    座谈会、访谈、问卷填写

  • 数据的处理和分析

    数据录入、统计、挖掘

  • 拟写调查报告

    形成关键结论、建议

案例:HS银行理财产品设计。

  • 行业预研(背景了解;沉浸式研究)

    • 研究报告
    • 分析平台
    • 行业背景研究(个体发展趋势)
    • 地域维度对比(不同个体 )
  • 目标设定及关键问题
    • 客户定位分析
    • 市场竞争分析
    • 创新型理财产品设计
2.2.2.市场调研目标设定
2.2.3.市场调研前准备

方法:

  • 焦点小组访谈(针对客户)
  • 深度访问(专家)
  • 实验产品、产品试销
  • 定点拦访
  • 中心定点访谈
  • 网上问卷调查
  • 电话问卷调查

样本选取、问卷设计

1.案例说明–确定调研方式(理财产品)

深度访问(专家访谈)+中心定点访问(抽样调查)

问卷设计–问题表述原则

  • 具体性(不提抽象、笼统的问题)

  • 单一性(一次只问一个问题)

  • 通俗性(不是专业术语)

  • 准确性(避免模棱两可)

  • 客观性(不要有诱导性或倾向性)

  • 非否定性(一般避免使用否定句形式)

问题的结构与问题类别。

推荐《社会调查方法》书籍。

2.2.4.调研实施

案例说明–专家访谈、座谈会(客户)、中心定点调研(客户抽样)

事先准备:专家访谈提纲、小组座谈会大纲、问卷

2.3.数据探查与可视化

SEMMA方法论

建模前对数据进行探查(Explorer):探查y是什么分布(不可补缺),x可补缺

数据探查步骤(Explorer):

  • 探查数据问题

    • 缺失值
    • 连续变量离群值(可能为异常值或者错误值)
    • 分类变量稀疏水平(概化处理)
    • 时间序列的噪音值(降噪)
  • 探查数据分布(不符合算法要求分布需要修改)

    • 为选定的算法进行分布调整
    • 根据变量分布选取合适算法
  • 探查两变量间的关系(x与y)

    • 两连续(线性回归)
    • 两分类(卡方检验)
    • 分类与连续
2.3.1.单变量描述性统计

1.变量类型

分类变量

  • 名义变量(无序)

  • 等级变量(有排序)

连续变量

  • 比例数据
  • 间隔数据

2.描述名义变量的分布

频数表(频次、百分比)---->柱形图

3.等级变量

相比名义变量具备统计频次、累计百分比

4.描述连续变量的分布–直方图

集中趋势(位置)

离中趋势(分散程度)

偏态与峰态(形状)

5.常见连续变量分布

正态分布

泊松分布(常用于研究灯的寿命)

伽马分布(研究保险理财的理赔额度或者损失金额)

对数正态分布(取对数之后服从正态分布)

2.3.2.两变量描述性统计

1.描述统计的总结

单因子分类变量频数:频次、百分比

表分析分类变量(多变量):频次、百分比

连续变量(盒须图、散点图):中位数、均值、众数、分类汇总、汇总表

时序与两个连续变量:存量(柱形图)、流量、率(线图;右边为轴)

分类与单个连续变量(盒须图):识别异常值(超过3倍)/离群值(超过上端)

2.3.3.制图原理

步骤:数据—>信息—>相对关系—>图形

整理原始数据—确定表达的信息—确定比较的类型—确定图表类型

关系类型:

  • 成分(不同个体占比)
  • 排序
  • 频率分布(单变量在不同数值上的数值或者百分比)
  • 时间序列
  • 关联性(公司销售额与国家宏观经济关系)

2.4.数据预处理基础

2.4.1.数据预处理基本步骤
  • 单变量数据问题

    • 连续变量异常值(离群值、错误值)(1.4.1数据预处理基本步骤;1.4.2错误数据识别和处理;1.4.3连续变量离群值识别与处理)
    • 分类变量含有稀有水平或错误值(1.4.4分类变量概化处理)
    • 缺失值、单一值(1.4.5缺失值处理)
    • 时间序列的噪音值(1.4.6噪声平滑)
  • 单变量数据分布
    • 对被解释连续变量的数据分布修改(1.4.7连续变量分布形态转换)
    • 对输入连续变量的数据分布修改(1.4.8连续变量中心标准化或归一化)
  • 两变量间的关系
    • 连续变量和解释变量之间高度线性关系(1.4.9变量降维)
    • 连续型变量和连续型被解释变量非线性关系线性化(1.4.7)
    • 连续型解释和二分类被解释变量Logit之间非线性关系线性化(1.4.10变量WoE转换)
2.4.2.错误数据识别与处理

生成-采集-转换-加工-报销(数据生命周期)

利用图形可以直观快速对数据进行初步分析

  • 直方图、盒须图、散点图

    错误值处理办法

    • 修正

      • 补充正确信息
      • 对照其他信息源
      • 视为空值
    • 删除
      • 删除记录
      • 删除字段
2.4.3.连续变量离群值识别和处理
  • 数值法判断(离群值)

    • 平均值法(中心标准化;对称分布):平均值±倍标准差之外的数据

      建议的临界值:

      • |SR|>2,用于观察值较少的数据集
      • |SR|>3,用于观察值较多的数据集
    • 四分位法(非对称分布)

      • IQR=Q3-Q1
      • Q1-1.5IQR~Q3+1.5IQR
  • 处理办法:可以直接剔除样本,也可以使用盖帽法、分箱法、WoE法处理。

    盖帽法:大于三倍标准差的值找到,小于1%(或者大于99%)分位的数据替换为该位置的数值。

2.4.4.分类变量概化处理

  • 利用图形可以发现分类变量中是否含有稀有水平或错误值(条形图、饼形图)

    • 识别出占比极少所在的观察个体,可能是稀有水平或错误值
    • 如果认为是稀有水平,则进行概化处理
    • 如果确认是错误值,则应该改正;确实无法改正的,作为缺失值处理

    1.概化处理

    • 简单合并

      将占比少的水平直接合并成一类。原则上要求合并后的占比大于5%,样本量不低于50个。

    • 根据事实合并

      根据每个水平内被解释变量的P值、logit值的大小排序进行合并。原则与上述一致。

    • 基于算法的合并

      分箱–有监督

      • 卡方分箱法
      • 决策树分箱

      分箱–无监督

      • 等距
      • 等频
      • 聚类
2.4.5.缺失值处理

类型和处理方式

  • 完全随机缺失(单一插补法)

    数据的缺失与不完全变量以及完全变量都是无关的。

  • 随机缺失(多重插补法;特点是不稳定,目前尽量避免使用)

    数据的缺失仅仅依赖于完全变量。

  • 非随机、不可忽略缺失(例如收入高的低的都没有;利用模型进行截断数据处理)

    不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。

处理原则:

  • 缺失值少于20%

    • 连续变量使用均值或者中位数填补
    • 分类变量不需要填补,单算一类即可,或者使用众数填补
  • 缺失值20%~80%
    • 填补方法同上
    • 另外每个有缺失值的变量生成一个指示哑变量,参与后续的建模
  • 缺失值大于80%
    • 每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不使用

做机器学习模型,需要填补后的变量以及缺失值指标变量(哑变量),模型来判断那个变量有用。做描述性统计不需要缺失值指示变量。

做填补时首先横向看记录,缺失过多直接删除。之后纵向看变量类型,可以对比其他数据源获取(例如性别),连续变量均值/中位数(例如年纪),可填‘未知’并增加指示变量(例如所在区域),分类建模、聚类均值(例如营销次数)。

2.4.6.噪声平滑(时序数据)
  • 合理推断

    选取最合理的数值进行替换

  • 简单移动平均

  • 加权移动平均(权重一般取线性下降/指数下降趋势)

2.4.7.连续变量分布形态转换
  • 百分位秩(理论上是均匀分布,不排除特殊情况)

    变量从小到大排序,然后依次赋予序号,最后用总的样本量除以序列号,值域[0,100]。

  • Tukey正态分布打分

    先转化为百分位秩,然后转化为正态分布

  • 变量取自然对数

    A=ln(x)

三者对比:

非对称变量在聚类分析中选用百分位秩和Tukey正态分布打分比较多;

在回归分析中取对数比较多。因为商业上的聚类模型关心的客户的排序情况,回归模型关心的是其具有经济学意义,对数表达的是百分比的变化,

2.4.8.连续变量中心标准化或归一化

中心标准化:大部分会落到[-3,3]
A=xi−mean(x)std(x)A=\frac{x_i-mean(x)}{std(x)} A=std(x)xi​−mean(x)​
极差标准化(归一化):值域[-1,1]
A=xi−min(x)max(x)−min(x)A=\frac{x_i-min(x)}{max(x)-min(x)} A=max(x)−min(x)xi​−min(x)​

2.4.9.变量降维

变量降维(连续):

  • 主成分
  • 因子分析
  • 变量聚类(重要)

变量降维(分类):概化处理

2.4.10.WoE转换(基于事实编码;信用卡评分广泛使用)

连续变量分箱(转化为分类变量)

  • 分箱方法通过考察数据的“紧邻”来光滑数据的值。有序值分布到一些桶或者箱中。
  • 等深分箱(百分位数划分):每个分箱的样本值一致。
  • 等宽分箱:每个分箱的取值范围一致。
Bin Badcount Goodcount BadPecent GoodPencent WoE
1 B1 G1 B1/B G1/G ln(G1/G / B1/B)
2 B2 G2 B2/B G2/G
Total B G

右侧WoE分子分母可以交换,这只会影响回归系数正负号。不过在一个项目中不可以交换。

3.1.数据分类

  • 数据是以文本、数字、图形、声音、视频等格式对事实进行表现。
  • 信息是指有上下文的数据。上下文包括:
    • 数据相关的业务术语的定义
    • 数据表达的格式
    • 数据所处的时间范围
    • 数据与特定用法的相关性
  • 知识是基于信息整合形成的观点,是基于信息对模式、趋势的识别、解释、假设和推理。

1.业务视角

TD FS-LDM(面向金融的数据模型)

2.数据管理视角

数据分类 描述
主数据 是关于业务实体的数据,描述组织内的“物”,如:人、地点、客户、产品等
交易数据(事务数据、业务数据) 描述组织业务运营过程中的内部或外部“事件”。如:销售订单、通话记录等
统计分析数据(指标) 是对企业业务活动进行统计分析的数值型数据,即指标。如:客户数、销售额等
参考数据 是用于将其他数据进行分类或目录整编的数据,规定参考数据是几个允许值之一。如见客户等级分为A、B、C三级
元数据(数据字典) 是描述数据的数据,帮助理解、获取、使用数据,分为技术元数据、业务元数据等

3.双重视角看数据

从业务视角到数据管理视角双重查看。

3.2.数据建模

  • 构建应用系统的核心
  • 精确地表示业务活动的概念性框架
  • 定义了操作者、行为及业务管理流程的规则
  • 数据模型决定应用系统开发及效率
    • 不良的的数据模型带来性能降低,不精确的查询,缺乏弹性规则和不一致的元数据
    • 精良的数据模型是用户与IT专家之间的桥梁,可以通过概念模型、逻辑模型进行描述,对模型进行审

1.数据建模基本概念

  • 建模技术:借助模型来分析、设计应用系统的技术
  • 模型:现实世界中某些事物的一种抽象表示
  • 抽象:抽取事物的本质特性,忽略事物的其他次要因素
  • 模型:是理解、分析、开发、或改造事物原型的一种常用手段(如:建筑物蓝图)

2.概念、逻辑和物理数据模型

三种不同从层次模型:概念、逻辑、物理

CDM描述预设范围内的业务需求;

LDM详细业务解决方案;

PDM详细技术解决方案。

两种不同的建模模式:关系和维度

  • 关系:通过准确的业务规则来描述业务如何运作的过程
  • 维度:通过准确的导航描述业务如何被监控的过程

企业数据模型是典型的关系建模模式的产物

  • 主题域模型

    • 处于企业数据模型的顶层,是针对企业关键业务领域业务概念的分类方法和框架
    • 构建企业数据模型,首先设计主题域模型
  • 概念模型

    • 以实体-关系(E-R)理论为基础,通过主题域形式描述概念化的结构
    • 是一种高阶的数据模型
    • 模型特征:
      • 是对主题域模型的进一步细化
      • 定义了企业内主要业务实体及实体间的业务关系
      • 不描述业务实体的数据属性
      • 实体之间可能存在多对多关系,不对数据进行范式化处理
  • 逻辑模型

    • 是对概念模型的进一步分解和细化,通过关键数据属性,描述更多业务细节

    • 描述实体、属性以及实体关系

    • 只包含关键数据属性,而不是全部实体和全部属性

    • 设计时一般遵循“第三范式”,以求达到最小的数据冗余,维护数据的完整性和可扩展性

      • 检查数据模型是否符合第三范式要求,有以下三条检验标准:
      • 每个属性的值唯一,不具有多义性
      • 每个非主属性必须完全依赖于整个主键,而非主键的一部分
      • 关系模式中不存在传递依赖
    • 独立于具体技术,是IT人员和业务人员沟通的工具

  • 物理模型(两个层次)

    • 转换模型:创建物理数据库信息,定义和记录数据字典生成数据库元素和记录提供上下文环境,提供数据库结构
    • DBMS模型:DBMS模型记录位于DBMS模式或系统表之中的物理数据库对象的定义。通过DBMS模型自动生成这些对象,主键成为唯一索引、候选键和查询项也成为索引

    关系基数:通过数据库的参照完整性功能、应用程序逻辑、其他事后监测和修正功能得以实现

3.数据模型的范式规则

范式规则:是根据主键和外键整理数据元素。可归类到不同层次,对每个层次应用更细粒度和规范性搜索正确的主键和外键,确保每个层次都可以包含一个独立的范式。

  • 1NF:确保每个实体都有一个有效的主键,依赖主键,消除冗余分组,确保数据元素原子性,无多值存在
  • 2NF:确保每个实体都有最小的主键,每个数据元素都依赖于完整的主键
  • 3NF:确保每一个实体都没有隐藏的主键,每个数据元素都不依赖于主键之外的数据元素,依赖且仅依赖于完整主键

4.3NF数据平台模型(关系模型)

关系模型主要应用于业务系统和传统数据仓库系统中,为了保证数据的一致性以及冗余,所以大部分业务系统的表都是遵循第三范式的。

5.维度数据平台模型

维度模型主要应用于数据集市系统中。因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。

星型:事实表对多个维度表

雪花型:维度进一步拆分。

3.3.数据仓库体系和ETL

OLTP VS OLAP

OLTP:联机事务处理系统,也称生产系统。它是事件驱动、面向需求的,比如银行的储蓄系统。OLTP在使用过程中积累大量的数据。是数据库应用的主流。

特点:

  • 对响应时间要求非常高
  • 用户数量非常庞大,主要是操作人员
  • 数据库的各种操作基于索引进行

OLAP:联机分析处理系统。是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分,是数据驱动、面向分析的。是跨部门、面向主题的。

特点:

  • 基础数据来源于生产系统(OLTP)的操作数据
  • 对系统的响应时间合理
  • 用户数量相对较小,主要是业务决策人员和管理人员

1.数据仓库特征

  • 面向主题
  • 集成
  • 稳定性
  • 随时间而变化(时间维)

2.数据集市和多维分析

现代多维分析系统一般以数据仓库为基础,即从数据仓库中抽取数据的一个子集并经过必要的聚集存储到数据立方体存储器。

3.ETL过程

抽取、转换/清洗、加载。

4.1.统计分析基础

4.1.1.分析框架

论断------------相关----------因果-------------------预测----------------业务建议-------------------实施---------------效果评估

​ 统计检验 业务推理 运用知识 结合业务目标 提供操作名单 设置参照组

1.关联性分析框架

关联:

  • 偶然关联
  • 有统计学意义关联
    • 虚假关联(选择、测量或混杂偏倚)
    • 因果关联(有时间先后)
      • 间接因果关联
      • 直接因果关联

2.统计分析流程

提出问题/明确目标—>设置指标/收集数据—>选择统计方法/构造理论模型—>检验是否通过(否的化就继续循环过程)—>应用模型(分类研究、结构分析、相关分析、预测决策)

3.统计分析主要内容

统计方法:

  • 描述分析
  • 统计推断
    • 参数估计
    • 假设检验

4.两大类统计分析方法

描述性分析:

  • 总体规模
  • 对比关系
  • 集中趋势
  • 离散程度
  • 偏态峰态

推断性分析:

  • 参数估计
  • 假设检验
  • 列联分析
  • 方差分析
  • 相关分析
4.1.2.样本与总体

总体:研究所感兴趣的所有个体组成总体

样本:从总体中抽取的部分个体组成样本,样本用于对总体的某些指标作为推断使用

参数和统计量:统计量由样本获取,用于对总体的参数进行估计

  • 参数:总体的特征
  • 统计量:样本可测的特征
  • 抽样分布:从总体随机抽取的样本中给出统计量的概率分布
  • 统计推断:根据从总体随机抽取的样本中给定的统计量估计总体参数

正态分布、三大分布(泊松分布、伽马分布、对数正态分布)都属于整体分布

t分布、F分布、卡方分布属于抽样分布

  • 正态分布(例如:身高,线性回归预测)

  • 泊松分布(总体无限大,概率比较小;例如排队时的队伍长短;泊松回归预测)

  • 伽马分布(例如:保险行业损失额度;伽马回归预测)

  • 对数正态分布(取对数后服从正太分布;例如收入服从对数正态分布,收益率服从正态分布,收入是收益率的积分;对收入取对数后线性回归)

中心极限定理:只要样本量足够大(大于30),无论总体呈现什么分布,抽样的样本均值总是服从正态分布

4.1.3.参数估计

参数是刻画总体某方面的分布特性的数量。

  • 均值的标准误差是衡量估计的均值的变异程度
  • 均值的标准误差随样本的标准差变化而变化

均值的标准误差(标准误):
KaTeX parse error: Got function '\bar' with no arguments as subscript at position 26: …{S}{\sqrt n}=S_\̲b̲a̲r̲ ̲x
置信区间:
KaTeX parse error: Got function '\bar' with no arguments as subscript at position 17: …\bar x \pm t.S_\̲b̲a̲r̲ ̲x

KaTeX parse error: Got function '\bar' with no arguments as subscript at position 38: …度,自由度为样本量-1; S_\̲b̲a̲r̲ ̲x 均值的标准误差

1.参数估计的步骤

  • 选定参数:确定需要估计的参数

    • 总体均值的估计:单总体均值,两总体均值之差
    • 总体比例的估计:。。。
    • 总体方差(标准差)的估计:。。。
  • 选定统计量:确定估计参数的统计量

  • 抽样分布:已知或假定模型分布

    • 总体均值服从正态分布,则抽样分布服从
      xˉ∼N(μ,σ2n)\bar x \sim N(\mu,\frac{\sigma^2}{n} ) xˉ∼N(μ,nσ2​)
  • 估计:得出结果

2.矩估计

优点:

  • 不依赖总体的分布,简便易行
  • 只要n充分大,精确度也很高

缺点:

  • 精度较差
  • 要求总体的某个k阶矩存在(柯西分布不存在,因此不适用)
  • 要求未知参数能写成总体的原点矩的函数形式

3.极大似然估计

前提:必须知道概率密度。

令一阶偏导数为0,取到极大似然值。

  • 优点:利用了分布函数形式,得到的估计值的精度一般较高
  • 缺点:要求必须知道总体的分布函数形式

4.2.假设检验

4.2.1.假设检验的示例
  • 建立假设
  • 设置显著度水平
  • 收集数据
  • 决策依据
4.2.2假设检验的基本概念
  • 事先对总体分布或总体参数作出某种假设,然后利用样本信息来判断原假设是否成立
  • 可分为参数假设检验和非参数假设检验
  • 逻辑上类似于“反证法”,统计学上称为“小概率原理”

1.小概率原理

指概率很小的事件在一次试验中几乎不可能出现。

2.基本概念

原假设:

  • 待检验的假设,用H0表示
  • 假设总体参数无显著变化

备择假设:

  • 与原假设相反

3.假设表达式

双侧/单侧

4.2.3.假设检验中的两类错误

弃真(α):越小的话β越大,因此不追求过分小

存伪(β):分布变瘦可降低错误(提高样本量)

4.2.4.假设检验与区间估计的联系

相同点:通过样本得到的统计量对总体参数进行推断。

区间估计:总体参数μ未知,通过样本估计μ的置信区间

假设检验:先对总体参数μ提出假设,再通过样本检验假设是否成立

4.2.5.假设检验的基本步骤
  • 提出原假设,确定业务需求

  • 选择合适的检验统计量

    • 已知总体方差,Z检验

    • Z=xˉ−μσ/nZ=\frac{\bar x - \mu}{\sigma/ \sqrt n } Z=σ/n​xˉ−μ​

    • 总体方差未知,t检验

    • KaTeX parse error: Got function '\bar' with no arguments as subscript at position 30: … x - \mu_0)}{S_\̲b̲a̲r̲ ̲x}

  • 确定显著性水平α

    • 常用取值0.01,0.05
  • 计算检验统计量

    • 把待检验的值代入统计量中进行计算
  • 作出统计决策,接受或拒绝原假设

    • α临界值法
    • P值法
    • 置信区间法

样本量2000,对应千分之一的三星显著;样本量1000对应百分之一的二星显著;样本量500对应百分之五的中等显著(一星);样本量100对应百分之十的显著。样本量降低的话可以适当调整p值的数值。

4.2.6.配对样本T检验

用于检验两配对样本的均值是否有显著性差异(总体应服从或近似服从正态分布),可分为两种:

  • 用于同一研究对象分别给予两种不同处理结果
  • 对同一研究对象处理结果前后进行比较

检验步骤:

  • 提出假设:原假设H0:u=u1=u2,备择假设H1:u1≠u2

  • 建立检验统计量:设两总体X,Y分别服从正态分布,两样本之差d~N(μ,σ²),则:

  • t=dˉs/nt=\frac{\bar d }{s / \sqrt n} t=s/n​dˉ​

4.2.7.A/B测试优化法

典型过程:

  • 确定目标
  • 开始做实验
  • 借助工具,收集实验数据
  • 让数据说话,校验实验结果
  • 继续重复步骤,下一次迭代

提交转化率✖有效转化率✖购买转化率=整体有效率

优化指标:以提高整体有效率为目标,但是也要兼顾每个步骤的指标,重点关注各版本最终带来的有效线索转化情况。

4.3.两变量关联性检验

预测变量的类型X\反应变量类型Y 分类(包含名义和等级) 连续
分类(包含名义和等级) 交叉表(列联表)分析;卡方检验 双样本T检验(二分类);方差分析(多分类,ANOVA)
连续 双样本T检验(二分类);方差分析(多分类,ANOVA) 相关分析

注解:交叉表是描述性分析,卡方检验是检验两者差异是否显著。

4.3.1.两样本t检验

例:信用卡月均消费金额是否可以预测办理分期的可能性?

用于检验两独立样本是否来自相同均值的总体(总体应服从或近似服从近似正态分布)

1.检验步骤

  • 提出假设:原假设H0:u1-u2=0,备择假设:u1-u2≠0

  • 建立检验统计量:设两样本分别服从N1(μ1,σ1²)和N2(μ2,σ2²)的总体,则:

    • 当两总体未知且相等:

    • t=xˉ1−xˉ2Sp1n1+1n2t=\frac{\bar x_1 - \bar x_2}{S_p \sqrt {\frac{1}{n_1}+\frac{1}{n_2}} } t=Sp​n1​1​+n2​1​​xˉ1​−xˉ2​​

    • 当两总体未知且不相等:

    • t=xˉ1−xˉ2s12n1+s22n2t=\frac{\bar x_1 - \bar x_2}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}} t=n1​s12​​+n2​s22​​​xˉ1​−xˉ2​​

  • 计算检验统计量的观测值和p值

    • 将样本数据代入,计算出t统计量的观测值和对应的概率p值
  • 作出统计决策

    • 若p<α,落入拒绝域,则拒绝原假设,认为两总体均值有显著差异

2.两样本T检验和配对样本T检验的区别

  • 两独立样本t检验用于检验两个独立样本是否来自具有相同均值的总体,相当于两个正态分布总体的均值是否相等。
  • 配对样本t检验用于检验一个样本的两种处理方法或两个相关的样本均值是否相等,实质是检验差值d的均值和零均值之间的显著性。

3.双样本的T检验流程

双样本T检验:

  • Levene方差齐性检验(显著)---->拒绝原假设,认为方差不相等
  • Levene方差齐性检验(不显著)---->则不能拒绝原假设,认为方差相等

4.双样本T检验的前提条件

  • 观测之间独立
  • 每一组均服从正态分布
  • 每一组的方差相同

5.检验方差齐性的F检验
F(组间变异,组内变异)=MSM/MSEF(组间变异,组内变异)=MS_M/MS_E F(组间变异,组内变异)=MSM​/MSE​

4.3.2.方差分析

多分类变量与连续变量检验。二分类使用方差分析势比较低,使用双样本T检验更好。

例:不同教育水平的人会有明显差异的信用卡消费金额吗?

方差分析:检验多组样本均值间是否有差异。

1.ANOVA分析的组间变异、组内变异和总变异
SST=SSM+SSESS_T=SS_M+SS_E SST​=SSM​+SSE​
不能被模型解释的是组内差异(SSE),也就是残差。

2.决定系数(R²)

代表了总方差被预测变量所解释或决定的比率
R2=SSMSSTR^2=\frac{SSM}{SST} R2=SSTSSM​
值域为[0,1],系数越大解释力度越好。

3.单因素方差分析模型

因变量=原假设成立设计的均值+均值的变更效应+残差

4.评估单因素方差分析

  • 注意数据中不同组的数据要服从独立性假设
  • 数据服从正太分布
  • 方差齐性要求
4.3.3.相关分析

两个连续变量之间的关系。

例:收入对客户信用卡支出是否有预测价值。

  • pearson相关系数(线性相关)
  • spearman秩相关系数(有序变量)
4.3.4.卡方检验

两个分类变量(包含名义和等级变量)的关系。

例:不同教育水平的人开信用卡的可能性有差异吗?

列联交叉表:统计出现的频次统计比率。

使用卡方检验进行进一步操作。

  • 卡方检验和对应的P值

    • 确定相关性是否存在
    • 不能测量相关性的强弱
    • 取决于样本量,并反映样本量

χ2=∑i=1R∑j=1C(Obsij−Expij)2Expij\chi^2=\sum^R_{i=1}\sum^C_{j=1}\frac{(Obs_{ij}-Exp_{ij})^2}{Exp_{ij}} χ2=i=1∑R​j=1∑C​Expij​(Obsij​−Expij​)2​

4.4.单变量影响度分析

4.4.1.一元线性回归模型
反应变量的类型Y/预测变量的类型X 分类 连续 连续和分类
连续 方差分析(ANOVA) 普通最小二乘法(OLS)回归 协方差分析(ANCOVA)
分类 列联表分析或逻辑(Logistic)回归 逻辑回归 逻辑回归
  • 比较均值:单因素(做方差分析,检验一个分类变量和一个连续变量是否独立)
  • 一般线性模型:单因素(做方差分析,检验多个分类变量和一个连续变量是否独立)
  • 回归:线性(做OLS,建立多个连续变量和一个连续变量的模型)
  • 广义线性模型:广义线性模型(做协方差分析,建立多个分类变量与连续变量和一个连续变量的类型)

例:目前一些客户注册后没有开卡,根据现有属性预测开卡后的消费情况。
Y=β0+β1X1+ξY=\beta_0+\beta_1X_1+\xi Y=β0​+β1​X1​+ξ
模型检验:拟合优度

回归方程的整体性检验:

4.4.2.线性回归的参数估计
  • 矩估计
  • 最小二乘估计(Y服从正太分布的极大似然特例)
  • 极大似然估计

找到一条直线,使残差平方和最小。残差实际存在,扰动项理论存在。

线性回归的方法推导:极大似然估计

线性回归的正则方法:

  • 岭回归:惩罚项的形式为斜率系数的平方
  • Laso(拉松算法):惩罚项的形式为斜率系数的绝对值
4.4.3.一元逻辑回归模型

例:客户流失的预测

预测变量:在网时长;反应变量:用户流失

1.优势比(odds)
Odds=Pevent1−PeventOdds=\frac{Pevent}{1-Pevent} Odds=1−PeventPevent​
反映了一个特定事件在一个组发生的可能性相对于另一个组发生的可能性的大小。

odds ratio:发生比的比
P=11+e−(β0+β1x)P=\frac{1}{1+e^{-(\beta_0+\beta_1x)}} P=1+e−(β0​+β1​x)1​

4.4.4.极大似然估计法(逻辑回归)

效用函数:
y∗=x,β+ξy^*=x^,\beta +\xi y∗=x,β+ξ

y={1,if y∗>0;0,if y∗≤0.\begin{equation} y = \begin{cases} 1, & \text{if } y^*>0; \\ 0, & \text{if } y^*\leq0. \end{cases} \end{equation} y={1,0,​if y∗>0;if y∗≤0.​​​

一般无法求导时,使用Newton-Raphsopn进行数值计算。

正则化的逻辑回归:

  • 岭回归(L2正则)
  • Lasso回归(L1正则)

根据最小二乘法拟合直线回归方程是使残差平方和取得最小。

线性回归模型中误差项的均值(期望)为0。

5.1.连续变量降维

5.1.1.矩阵分析法(波士顿矩阵/BCG增长/份额矩阵)

投资组合规划:四要素

  • 资源分配
  • 拟定业务单位战略
  • 制定绩效目标
  • 投资组合平衡分析
    • 资金流
    • 可持续性
    • 风险

1.BCG矩阵的四种主要战略

  • 增加市场份额
  • 维持市场份额
  • 收获
  • 放弃
5.1.2.主成分分析的理论基础

两正态分布变量之间的关系。

变量质量的依赖关系:函数关系、相关关系

主成分分析:目的是构造输入变量的少数线形组合,尽量能解释数据的变异性。这些线形组合被称为主成分,他们形成的降维数据可用于进一步分析。

5.1.3.主成分分析的计算步骤
  • 每个成分两两之间是正交的。
  • 有多少个变量就会有多少个正交的成本。
  • 成分的变异(方差)之和等于原始变量的所有变异。
  • 前若干个主成分的变异(方差)解释了绝大多数的变异(方差)。
  • 如果原始变量不相关,即没有协方差,则不需要做主成分。

1.主成分个数的选取原则

  • 单个主成分解释的变异不应该小于1(标准化后比较),比如说选取3个主成分,第3个主成分解释的变异相当于一个原始变量的变异;
  • 选取主成分累计的解释变异达到80%~90%。

2.基于相关系数矩阵的主成分分析

使用python时X做标准化,使每个变量均值为0,方差为1,这等价于使用相关系数矩阵R替代协方差矩阵Σ来进行主成分分析。

3.主成分的解释

5.1.4.主成分分析的应用(维度降维)

例1:给出综合评价

  • 步骤一:变量之间相关系数,多数变量之间有明显的强线性相关,这表明做主成分分析是有意义的。

    • 总方差:原始变量总的变异
    • 特征值:每个主成分解释变量的数量
    • 比例:每个特征值解释的变异占原始数据总变异的比例
    • 累计:累计到当前的主成分,总共解释总变异的比例

例2:总样本特征描述

注:如果一个数据的变量可以被压缩成两个主成分,则通过展示在二维图形上已经可以完成样本聚类的工作。如果因子多于两个,则需要使用聚类算法进行样本分类。

5.1.5.因子分析的模型设置

应用最广泛的因子旋转方法:

  • 是一种正交旋转
  • 目的是使载荷平方的方差最大化,即最大化。

描述统计/聚类用因子分析,可解释。做预测模型时使用 主成分分析。

5.1.6.因子旋转方法
5.1.7.因子分析的应用
5.1.8.因子分析与主成分分析的关系

5.2.多元线性回归

5.2.1.客户价值分析框架

客户资产:企业当前客户与潜在客户的货币价值潜力。

客户资产是企业客户终身价值之和(交易价值+推荐价值+成长价值+知识价值)

客户资产=单个客户的生命周期价值✖客户基础

预计未来的客户交易价值

5.2.2.线性回归的经典假设

两变量的多元线性回归(参数与y形成线性关系,而不是x与y形成线性关系)

多元线性回归的假设

  • Y的平均值能够准确地由X组成地线性函数建模出来。
  • 解释变量和随机扰动项不存在线性关系(X与扰动项期望为0;尽量将与X/Y相关的变量放入模型)。
  • 解释变量之间不存在线性关系(或强相关;如果强相关则进行降维)。
  • 假设随机扰动项是一个均值为0的正态分布。
  • 假设随机扰动项的方差恒为σ²。
  • 扰动项是独立的。

以上假设可归纳为以下四种假设。

a.因变量与自变量间的线性关系

  • 模型参数和被解释变量之间是线性关系。
  • 解释变量和被解释变量之间可以是任意关系,可以在回归前进行任意函数变换。

b.正交假定:误差项与自变量不相关,其期望为0(自己主观推断,没有遗留变量)

c.独立同分布:残差间相互独立,且遵循同一分布,要求方差齐性

d.正态性:残差服从正态分布

5.2.3.建立线性回归模型的准备

一个有效的线性模型流程:

1.初始分析

2.变量选择

3.验证模型假定(扰动项一般为右偏分布,对y取对数转换为正态分布)

4.多重共线性与强影响点的诊断与分析

5.模型是否有问题

6.预测和解释

诊断统计量方法(判断有没有异常值)

  • 学生化(标准化)残差(绝对值是否大于2,大于为异常)
  • RSTUDENT残差(学生化残差的优化;去掉异常点后做残差)
  • Cook`s D
  • DFFITS
  • DEBETAS
5.2.4.建立模型和模型检验

1.调整后的R²(Adj.R²)

只在模型选择时有用,说明模型解释力度时,还是R²
R‾2=1−(n−i)(1−R2)n−p\overline R²=1-\frac{(n-i)(1-R^2)}{n-p} R2=1−n−p(n−i)(1−R2)​
i=1当有截距项时,反之为0

n=用于拟合该模型的观察值数量

p=模型中参数的个数

2.自变量进入方式

  • 向前法
  • 向后法
  • 逐步法

决策的指标可为偏回归平方和、AIC/BIC、R方等。
AIC=2k+n(log(RSS/n))AIC=2k+n(log(RSS/n)) AIC=2k+n(log(RSS/n))
AIC越小越好。

共线性检验:膨胀系数法(VIF)
VIi=11−Ri2VI_i=\frac{1}{1-R_i^2} VIi​=1−Ri2​1​
方差膨胀因子>10表示某变量的多重共线性严重。

3线性回归的模型假设:

1.模型设置,选择何种回归方法、如选变量、变量以何种形式放入模型(根据理论、看散点图)

2.解释变量和扰动项不能相关(根据理论或常识判断,无法检验)

3.解释变量之间不能强线性相关(膨胀系数)

4.扰动项独立同分布(异方差检验、DW检验)

5.扰动项服从正态分布(QQ检验)

35检验只能保证模型精确,12保证模型是正确的。

违反1,则模型预测能力差

违反2,回归系数估计有偏

违反3,回归系数的标准误被放大

违反4,扰动项的标准差估计不准,T检验失效

违反5,则T检验失效

4分类变量作为输入变量(ANOCA协方差分析)

spss只能用广义线性回归(先把连续变量筛选好,再加入至协变量;只要有分类变量,就无法进行分类变量筛选)

5.2.5.回归系数的解释
5.2.6.利用回归方程进行预测
5.2.7.预测性建模与解释性建模的辨析

预测精度与β的可解释性。

5.3.多元逻辑回归模型

5.3.1.客户分类评分分析框架

5.3.2.似然比和Logit变换

5.3.3.一元二分类逻辑回归与参数

优势比odds,小于1,说明y与x是负向关系。

5.3.4.多元二分类逻辑回归的构建

5.3.5.二分类模型的评估

模型评估:成对比较

  • 计算一致的对数、不一致的对数以及相等(tied)的对数来评估模型是否很好预测了自身的数据,从而判断模型拟合的是否优秀。
  • 通常我们希望一致对的占比高,不一致的和相等对的占比低。

1.成对比较

  • 一致对(模型预测方向与实际结果一致)
  • 不一致对(方向不一致)
  • 相等对(模型不能分辨两者,x是一致的)

2.ROC曲线

混淆矩阵

5.4.聚类模型(连续变量)

5.4.1.聚类方法的基本逻辑
  • 从N个观测和K个属性开始
  • 计算N个观测两两之间的距离
  • 将距离相近的观测聚为一类,将距离远的分为不同的类。最终达到组间的距离最大化,组内的聚类最小化

聚类方法

  • 层次聚类(样本的平方n²)

    • 形成类似相似度层次图谱,便于直观的确定类之间的划分。该方法可以得到较理想的分类,但是难以处理大量样本。
  • 非层次聚类(k*n;k均值发)
    • 将观测分为预先指定的,不重叠的类。该方法可以处理样本量巨大的数据,但是不能提供类相似度信息,不能交互的决定聚类个数。
  • 两步法胡聚类
    • 先使用k均值法聚类,然后使用层次方法。
5.4.2.系统聚类法
  • 建立类之间的层次关系
  • 通过层次树决定聚类个数和聚类方法

1.基本步骤

  • 计算每两个观测之间的距离
  • 将最近的两个观测聚类一类,将其看作一个整体计算与其他观测(类)之间的距离
  • 一直重复上述过程,直至所有的观测被聚为一类

ward最小方差法:组内最小离差和

2.要点1:要预先处理变量

收到的数据通常需要处理才能用于分析:

  • 缺失值
  • 异常值(极大或极小;寻找异常就不需要处理,分群的话需要做秩运算)
  • 分类变量需转变为哑变量(0/1数值)
  • 分类变量类别过多

不同的统计方法对数据有不同的要求:

  • 决策树允许缺失值和异常值
  • 聚类分析和回归模型则不支持缺失值

要点2:变量标准化

  • 中心化

  • std(xip)=xip−xˉpSpstd(x_{ip})=\frac{x_{ip}-\bar x_p}{S_p} std(xip​)=Sp​xip​−xˉp​​

  • 极差标准化

  • x−min(x)max(x)−min(x)\frac{x-min(x)}{max(x)-min(x)} max(x)−min(x)x−min(x)​

要点3:不同维度的变量,相关性尽量低

  • 主题相关性(业务上)
  • 入模变量间的相关性
5.4.3.客户分群分析框架

将现有消费者群体按一定规则划分成若干小群组,使得:

  • 每一群组的特征描述丰富详细,不同组之间特征差异明显
  • 组内客户特征相似

1.常见的分群类型

  • 需求和态度

    • 依据调查问卷结果针对需求的数据分群
  • 生命周期
    • 依据顾客的消费周期和需求分群
  • 行为特征
    • 依据消费记录,个人信息分群
  • 客户价值
    • 依据顾客的潜在价值分群

2.客户分群在商业上的应用

品牌、媒体、渠道、产品和服务

3.客户分群的算法

有监督学习:回归算法、决策树算法

聚类分析:k-means、分层聚类算法

5.4.4.迭代聚类法

1.k-means聚类过程

  • 设定k值(超参数),确定聚类数(软件随机分配聚类中心所需的种子)
  • 计算每个记录到类中心的距离(欧式),并分成k类
  • 然后把k类中心(均值),作为新的中心,重新计算距离
  • 迭代到收敛标准停止(最小二乘准则)

2.训练数据

  • 选择数据
  • 初始化中心点
  • 将离数据近的点划分到相应类
  • 更新类的中心
  • 重新将离数据近的点划分到相应类
  • 反复进行上述两步直至不再有变化

3.k-means聚类要点

  • 预先处理变量的缺失值、异常值
  • 变量标准化
  • 不同维度的变量,相关性尽量低
  • 如何决定合适的分群个数?(k一般先从3~10尝试)
    • 主要推荐轮廓系数法(样本量最好2000以下,采用抽样方法;此方法不适合大样本)
    • 轮廓系数值介于[-1,1],趋于1代表内聚性和分离度最好

4.快速聚类的两种运用背景

  • 发现异常情况(原始数据直接使用聚类就是做异常情况)
  • 将个案数据做划分(客户分群;计算原始变量的百分位秩、Turkey正态打分、对数转换等进行异常的消除,之后做分群)

变量转换总结:

  • 非对称变量在聚类分析中选用百分位秩和Tukey正态打分比较多
  • 在回归分析中取对数比较多

一般情境下的聚类

变量归一化–>分布转换–>主成分–>聚类

发现异常情况的聚类

变量归一化–>主成分–>聚类

5.4.5.聚类事后分析

分组命名

  • 描述性统计

  • 决策树的分组画像和规则

5.5.1.宏观业务指标预测框架
  • 明确分析目的
  • 根据业务理解做假设
  • 做出指标预测
  • 根据新假设做出指标预测
  • 根据后期实际数据调整假设
  • 最终预测结果
5.5.2.趋势分解法
  • 趋势项
  • 循环或者季节性
  • 随机

1.基本时间序列法

  • 逐步回归:有明显趋势
  • 指数平滑法:无明显趋势
  • 霍尔特-温特指数平滑法:有趋势,有季节或周期效应

2.有季节效应的时间序列

  • 加法效用
  • 乘法效应
5.5.3.ARIMA方法

1.平稳时间序列

2.平稳时间序列模型设置与识别

  • 自相关函数(ACF)
  • 偏自相关函数(PACF)
    • 是排除了其他变量的影响之后两个变量之间的相关系数
    • AR模型中,ACF失效。PACF呈现指数递减。
  • ARMA的模型设定与识别
    • AR模型:ACF拖尾,PACF截尾
    • MA模型:相反
    • AIC、BIC准则选择,越小越好
5.5.4.时间序列回归

1.残差自相关检验(DW检验)
DW=2(1−pˉ)DW=2(1-\bar p) DW=2(1−pˉ​)

6.数字化工作方法

1.原因的不同层次

  • 症状:被看作现存的问题
  • 第一层原因:直接导致问题的原因
  • 深层次原因:导致第一层原因的原因

深层次原因不直接引发问题,而是构成一些联系,分布在最终导致问题发生的链条中。

问题的深层次原因被称为根原因。根原因启动了导致问题的整个因果链。

2.根本原因分析(RCA)

探查:

  • 第一阶段 RCA前的准备

    • 证实发生了不良事件
    • 组织RCA小组
    • 定义要解决的问题
    • 资料收集

诊断:

  • 第二阶段 找到近端原因

    • 寻找所有和事件可能的原因
    • 测量、收集、获得最可能的影响因素的证据
  • 第三阶段 确定根本原因

    • 找出涉及到那些系统
    • 将根本原因列成表
    • 形成系统性的因果链

指导:

  • 第四阶段 制定和执行改进计划

    • 提出改善行动/措施

6.1.业务探查与问题定位

6.1.1.启动程序阶段
  • 通过报表及可视化工具侦测
  • 异常事件严重度评估准则(SAC)
  • 雷达图
  • 绩效矩阵
6.1.2.业务事件还原工具
  • 业务流程图(客户旅程)
  • 关键事件
6.1.3.业务流程图

作用:

  • 帮助分析业务流程
  • 帮助分析者和决策者了解如何运转
  • 找到业务流程中不合理和低效的流向
  • 实现对关键流程的优化,改进现有流程

泳道图:横向是岗位,纵向是部门职能

流程图中的基本元素:开始/结束、事件(判断)、流程节点、跨职能流程、注释/材料、流程连线

6.2.问题诊断

6.2.1.近因分析

头脑风暴

量化分析:

  • 识别要点

    • 帕累托分析
  • 关联分析
    • 散点图
    • 关联图
    • 亲和图
    • 问题集中图
  • 差异分析
    • 漏斗分析
    • 用户画像
6.2.2.根本原因分析

5WHY法

因果图

6.3.业务策略优化和指导

6.3.1.业务优化框架

第四阶段:制定和执行改进计划

运筹算法、知识库、策略库---->流程优化

6.3.2.线性规划(运筹优化)

线性规划的组成因素:

  • 目标函数(Max/Min)
  • 约束条件(s.t.)
  • 决策变量:用符合来表示可控制的因素
  • 建模步骤
6.3.3.整数规划
6.3.4.二次规划
6.3.5.知识库(标签)与策略库

1.知识库

主要类型:客群、产品、渠道知识库

组成部分:基本属性、交易属性、关联属性

2.策略库

主要类型:经营、风控、营销策略库

组成部分:事件库、规则库

6.3.6.基于业务流程的优化(完善和改进关键流程)

流程再造:整体流程更新

流程梳理:帮助企业绘制流程图

好处:

  • 优化资源(降低企业运营成本)
  • 组织机构优化(提高市场需求的响应速度)
  • 管理制度优化(争取企业利润最大化)

基本方法

  • 完善

    • 标准化、里程碑、强化、预防错误
  • 清除
  • 简化
  • 整合
  • 均衡
  • 自动化
  • 全面改进

衍生方法

  • DMAIC模型
  • ESIA分析法
  • ECRS分析法
  • SDCA循环

重要工具

  • 寻找改进方向–标杆瞄准
  • 寻找改进环节–价值流程图(VSM)

CDA level 2级课堂笔记相关推荐

  1. CDA LEVEL 2 建模分析师备考笔记

    CDA LEVEL 2 建模分析师备考笔记 目录 CDA LEVEL 2 建模分析师备考笔记 基础理论 数据预处理 预测型数据挖掘模型 描述型数据挖掘模型 基础理论 Data mining:数据挖掘, ...

  2. (B站动力节点老杜MySQL教程)MySQL课堂笔记-day03.txt

    文章目录 文件来源/资料下载: MySQL课堂笔记-day03.txt 1.约束 1.1.唯一性约束(unique) 1.2.主键约束 1.3.外键约束 2.存储引擎?(整个内容属于了解内容) 2.1 ...

  3. AI公开课:19.04.18俞益洲—深睿医疗CS《计算机视觉的应用与落地》课堂笔记以及个人感悟

    AI公开课:19.04.18俞益洲-深睿医疗CS<计算机视觉的应用与落地>课堂笔记以及个人感悟 导读       俞益洲,现为深睿医疗联合创始人.首席科学家(Chief Scientist ...

  4. 2015年度最全微课堂笔记精华包

    自八月PMCAFF微课堂上线以来广受好评,到年底已经举办二十三期之多,在2015年的最后一天小编整理了微课堂笔记精华包送给大家. 感谢每一期嘉宾为我们带来精彩的干货,感谢每一期微课堂的班长和志愿者,感 ...

  5. 计算机网络微课堂笔记

    计算机网络 计算机网络微课堂 笔记总结 视频地址:https://www.bilibili.com/video/BV1c4411d7jb 文章目录 计算机网络 第一章 概述 1.1 计算机网络在信息时 ...

  6. 张召忠:第四次工业革命来了》课堂笔记

    <张召忠:第四次工业革命来了>课堂笔记 讲师介绍 第四次工业革命是什么 第四次工业革命的形态 第四次工业革命有哪些内容 5G 无人驾驶 虚拟技术VR和AR 物联网 智能制造 面对第四次工业 ...

  7. AI公开课:19.05.30 瞿炜-新东方AI研究院院长《做懂教育的AI:把未来带进现实》课堂笔记以及个人感悟

    AI公开课:19.05.30 瞿炜-新东方AI研究院院长<做懂教育的AI:把未来带进现实>课堂笔记以及个人感悟 导读      瞿炜博士,先后毕业于北京理工大学 .中国科学院大学.美国伊利 ...

  8. 《高等数学A》课堂笔记——高分必过

    <高等数学>上下学期的课堂笔记                                        --郑州大学 文章目录 一.函数与极限 1.1 映射与函数 1.2 数列的极限 ...

  9. 程序设计与算法郭炜老师的课堂笔记2

    程序设计与算法郭炜老师的课堂笔记2 枚举 完美立方 生理周期 称硬币 熄灯问题 递归 求阶乘 汉诺塔 N皇后 逆波兰表达式 表达式求值 上台阶 放苹果 算24 二分算法 找一对数 分治 归并排序 快速 ...

最新文章

  1. [NOI2015]程序自动分析
  2. Python生物信息学⑤DNA转录RNA
  3. Linux下自动分割Nginx日志文件(三)-----Logrotate
  4. 【PAT乙级】1060 爱丁顿数 (25 分)
  5. boost::polygon模块实现自定义点相关的测试程序
  6. 蛋白质浓度与盐胁迫的关系_[202009024]巨大狼尾草:一种新兴的盐积累/耐盐的非传统作物,可用于可持续的盐碱农业和同步的植物修复...
  7. object address data read debug
  8. 快速找到由程序员到CTO发展道路上的问路石
  9. python项目实践_python实践项目
  10. 2021年中国宠物玩具与训练市场趋势报告、技术动态创新及2027年市场预测
  11. openmv探索_4_AprilTag标记追踪
  12. git详细使用教程入门到精通(史上最全的git教程)
  13. 233.数字1的个数
  14. Scratch可视化的编程工具
  15. Xshell颜色及PS1
  16. GoLang之什么是CSP(1)
  17. 邮箱大师qq邮箱服务器设置,如何解决邮箱大师登陆不了qq邮箱的问题
  18. Java应用中CPU使用率过高该怎么解决
  19. 四十五、Kafka生产者(Producer)API介绍
  20. HTML中的幽灵节点

热门文章

  1. 怎么判断计算机语言的好坏,PLC程序好坏的判断方法
  2. android list集合遍历,Java list集合遍历操作遇到的问题
  3. Hive建表时指定分隔符或使用多字符分隔
  4. 计算机二级python用什么版本好_如何准备全国计算机二级Python?
  5. 周期序列傅里叶级数的Matlab实现
  6. Java 的main方法中无法调用自身所在类的其他方法的两种解决办法
  7. 上海python还是很多的_Python数据采集和分析告诉你为何上海的二手房你都买不起!(一)...
  8. T1209 铺砖——递推
  9. 计算机编程种常见的几种编码详解
  10. Potree中文教程【三】 -- Potree的基本功能 -- EDL