CDA LEVEL 2 建模分析师备考笔记

基础理论

Data mining：数据挖掘，从现有大量数据中撷取不明显、之前未知、可能有用的知识。
KDD知识发现过程：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。
CRISP-DM方法论：业务理解、数据理解、数据准备、建模、模型评估、模型发布。
SEMMA方法：抽样、探索、修订、建模、评估。
变量测量类型：名义测量、次序测量、连续测量。

分类变量：

检查：众数、分类取值百分比差异。
主要统计量：频次、百分比；累积频次、累积百分比（仅用于有序变量）。

连续变量：

检查：中心水平、离散程度、偏态程度、峰度。

数据预处理：通过各类技术手段对数据进行划分、清理、转换、缩减。
KNN最近邻分类：一种惰性学习法，涉及数据前处理、距离计算、预测概率的估计。

数据前处理：极值正规化 v’=(v-min)/(max-min)
距离计算(同时进行了极值正规化)：
- 曼哈顿距离（街区距离）：
  d(i,j)=∣xi1−xj1∣R1+∣xi2−xj2∣R2+⋯+∣xip−xjp∣Rpd\left ( i,j \right )=\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}+ \frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}+ \cdots +\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}} d(i,j)=R1∣xi1−xj1∣+R2∣xi2−xj2∣+⋯+Rp∣xip−xjp∣
  简易解释：d(i,j)=∑(|i 的值-j 的值|/(max-min))
- 欧氏距离（两点直线距离）：
  d(i,j)=(∣xi1−xj1∣R1)2+(∣xi2−xj2∣R2)2+⋯+(∣xip−xjp∣Rp)2d\left ( i,j \right )=\sqrt{\left ({\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}} \right )^{2}+ \left ({\frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}} \right )^{2}+ \cdots +\left ({\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}}} \right )^{2}} d(i,j)=(R1∣xi1−xj1∣)2+(R2∣xi2−xj2∣)2+⋯+(Rp∣xip−xjp∣)2
  简易解释：d(i,j)=根号(∑(|i 的值-j 的值|/(max-min))^2)
预测概率的估计：
eg.a,b,c三分类问题，当k=5时，最近邻有3个a、1个b、1个c，则这个未知点是a的概率为3/5

数据挖掘技术按功能分：

描述型	无需目标字段	无监督	刻画数据一般性质	eg.关联规则、序列模式、聚类分析
预测型	需要目标字段	有监督	归纳当前数据以便做预测	eg.贝式网络、决策树、神经网络、逻辑回归

数据挖掘技术绩效增益：
混淆矩阵(准确率、查准率、查全率、F1值)
Gain chart
Lift chart
Profit chart
描述性统计和可视化是探索性数据分析常用的两个方法

数据预处理

数据预处理包括：字段选择、数据清洗、字段扩充、数据编码、特征提取。

字段选择：
数据整合：消除重复；消除不一致。
数据过滤：建立区隔化模型的过程。
数据清洗：

噪声（替代）
- 错误值（类别型）处理方法：
  - 视为空
- 离群值（数值型）处理方法：
  - 视为空
  - 盖帽法
  - 函数矫正法
缺失值（填充）处理方法：
- 人工填补法
- 自动填补法：用均值、众数、中位数、常数等填充；转换为哑变量(0,1)，代表数据是否缺失。
  - 连续型：均值、中位数、常数。
  - 离散型：众数、常值（eg.Unknown）、增加表示缺失的标签。
- 推论法：用回归模型去预测
- 直接忽略

字段扩充：

外部数据整并
内部数据统整

*字段扩充在数据预处理过程中，通常是最花时间的阶段

数据编码

数据转换
- 正规化
  - 极值正规化 v’=(v-min)/(max-min) 值在0~1间
  - z分数正规化 v’=(v-均值)/标准差大部分值在0附近，值可能大于1
- 一般化（泛化） eg.东南西北中、高等/基础教育
- 离散化
  - 人工分离法
  - 自动化分离
    - 装箱法
      - 等宽：max-min)/n
        -各区间range一样，有为空的可能
      - 等深（等分）：n/箱容量
    - 趋势离散化
数据精简
- 记录精简
  抽样代表整体：随机抽样、分层抽样、聚类抽样、系统抽样、两阶段式抽样、多阶段式抽样
- 域值精简
  - 类别数据一般化
  - 数值数据离散化
- 字段精简
  - 专家的经验直觉
  - 自动化的分析方法
    - (分类)用统计检定
    - (预测)用皮尔森相关系数
    - (分群)用主成分分析or因素分析

特征提取技术

无效变量：会增加模型复杂度、降低模型效率和稳定性
- 种类：
  不相关变量：与目标变量间相互独立
  多余变量：与另一变量作用相近
- 检验：
  - 卡方检验
  - IV值（信息价值）
  - ANOVA检定（方差分析）：用来判断X是连续型，Y是多分类的情况
  - T检验：用来判断X是连续型，Y是二分类的情况
  - 相关系数：用来判断X,Y全是连续型的情况
    -注：卡方、ANOVA、T检验都是<0.05代表相关程度很大，0.05~1之间则一般
- 压缩技术
  - 连续变量：主成分分析、因子分析、变量聚类
  - 分类变量：水平聚类、WOE打分
    - 归类压缩的常见原因：避免某分类中Y缺乏变异的问题；避免在模型中出现过多的哑变量。

预测型数据挖掘模型

包括贝式网络、线性回归、逻辑回归、决策树、神经网络、支持向量机SVM、集成算法。

描述型数据挖掘模型

包括聚类分析、关联规则、序列模式。

-END-

由于笔记内容太多，就不写在这里了，文末有xmind格式的完整笔记下载链接，请自行查看下载。下图是笔记的部分截图：

说明：笔者刚参加完第14届建模分析师考试，这些笔记都是为了应对考试总结的，不适于完全没有基础的人，请读者结合考试手册和CDA LEVEL 2建模分析师认证考试辅导培训视频课使用，祝大家都能顺利通过考试。

关于CDA LEVEL 1 业务分析师考试，重点把贾俊平的《统计学》和考试手册学好基本可以过的，并不需要报什么班，追求高分除外。而CDA LEVEL 2就需要搞些视频课看了，毕竟有实操题。

如果有任何问题欢迎评论区交流~

完整版笔记内容请跳转到下载页自行下载：
xmind思维导图笔记链接https://download.csdn.net/download/qq_17105473/13984357

CDA LEVEL 2 建模分析师备考笔记相关推荐

CDA Level 1 数据分析师：2.1 表格结构数据内容
CDA Level 1 数据分析师:2.1 表格结构数据内容 1. 表格结构特征 1. 数据类别 2. 结构化数据 1. 来源: 2. 处理方式: 3. 表格结构数据层级: 3.1 对象间的父子关系: ...
CDA Level 1 数据分析师：6.2 指标的应用与设计
1. 指标的作用 1. 用简约的汇总数据量化业务的强弱 2. 指标的理解 1. 解释:对度量的汇总,即数据的汇总规则 2. 特点:1. 指标是游离的,无法单独获取2. 需要与统计维度结合3. 指标间可 ...
CDA level 2级课堂笔记
CDA level 2级课堂笔记 0.1.0引言 1.感知型企业与数据应用系统的演进敏捷分析平台(BI)–>行为数据平台(数据挖掘)–>协同思维平台(数据驱动业务)–>分析应用平台 ...
CDA LEVEL I 数据分析认证考试模拟题库（四）
又到公布CDA数据分析师认证考试LEVEL I的模拟试题时间了,今天给大家带来的是模拟试题(一)中的16-20题. 不过,在出题前,要公布下上一期11-15题的答案,大家一起来看! 11.D 12.C ...
建模分析师与算法工程师的主要区别
大家晚上好,我是新来的实习生小模君,前几天小智老师给我科普了数据挖掘的基础知识,颇有收获,于是就趁小天今天有事休假冒个泡跟大家分享一番. 数据挖掘,英文名叫Data mining,一般是指从大型数据库 ...
matlab中x从0到5不含0,关于MATLAB的数学建模算法学习笔记
关于MATLAB的数学建模算法学习笔记目录线性规划中应用: (3) 非线性规划: (3) 指派问题;投资问题:(0-1问题) (3) 1)应用fmincon命令语句 (3) 2)应用指令函数:bi ...
数学建模算法学习笔记
数学建模算法学习笔记作为建模Man学习数学建模时做的笔记参考文献: <数学建模姜启源第四版> 网上搜罗来的各种资料,侵删 1.线性预测 levinson durbin算法,自相关什么的 ...
access 分组序号_二级Access数据库备考笔记之报表排序和分组
时间:2012-08-17 12:50:26 作者:摘要:二级Access数据库备考笔记之报表排序和分组正文: 报表排序和分组缺省情况下,报表中的记录是按照自然顺序,即数据输入的先后顺序排 ...
【建模分析】建模分析师_通过主题建模对大型盖茨进行主题分析
[建模分析]建模分析师 I've always been interested in data analysis and literary criticism. They might seem lik ...

CDA LEVEL 2 建模分析师备考笔记

CDA LEVEL 2 建模分析师备考笔记

目录

基础理论

数据预处理

预测型数据挖掘模型

描述型数据挖掘模型

CDA LEVEL 2 建模分析师备考笔记相关推荐

最新文章

热门文章