CDA LEVEL 2 建模分析师备考笔记

目录

    • CDA LEVEL 2 建模分析师备考笔记
  • 基础理论
  • 数据预处理
  • 预测型数据挖掘模型
  • 描述型数据挖掘模型

基础理论

  1. Data mining:数据挖掘,从现有大量数据中撷取不明显、之前未知、可能有用的知识。

  2. KDD知识发现过程:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。

  3. CRISP-DM方法论:业务理解、数据理解、数据准备、建模、模型评估、模型发布。

  4. SEMMA方法:抽样、探索、修订、建模、评估。

  5. 变量测量类型:名义测量、次序测量、连续测量。

分类变量:

  • 检查:众数、分类取值百分比差异。
  • 主要统计量: 频次、百分比; 累积频次、累积百分比(仅用于有序变量)。

连续变量:

  • 检查:中心水平、离散程度、偏态程度、峰度。
  1. 数据预处理:通过各类技术手段对数据进行划分、清理、转换、缩减。

  2. KNN最近邻分类: 一种惰性学习法,涉及 数据前处理、距离计算、预测概率的估计。

  • 数据前处理:极值正规化 v’=(v-min)/(max-min)
  • 距离计算(同时进行了极值正规化):
    • 曼哈顿距离(街区距离):
      d(i,j)=∣xi1−xj1∣R1+∣xi2−xj2∣R2+⋯+∣xip−xjp∣Rpd\left ( i,j \right )=\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}+ \frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}+ \cdots +\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}} d(i,j)=R1​∣xi1​−xj1​∣​+R2​∣xi2​−xj2​∣​+⋯+Rp​∣xip​−xjp​∣​
      简易解释:d(i,j)=∑(|i 的值-j 的值|/(max-min))
    • 欧氏距离(两点直线距离):
      d(i,j)=(∣xi1−xj1∣R1)2+(∣xi2−xj2∣R2)2+⋯+(∣xip−xjp∣Rp)2d\left ( i,j \right )=\sqrt{\left ({\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}} \right )^{2}+ \left ({\frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}} \right )^{2}+ \cdots +\left ({\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}}} \right )^{2}} d(i,j)=(R1​∣xi1​−xj1​∣​)2+(R2​∣xi2​−xj2​∣​)2+⋯+(Rp​∣xip​−xjp​∣​)2​
      简易解释:d(i,j)=根号(∑(|i 的值-j 的值|/(max-min))^2)
  • 预测概率的估计:
    eg.a,b,c三分类问题,当k=5时,最近邻有3个a、1个b、1个c,则这个未知点是a的概率为3/5
  1. 数据挖掘技术按功能分:
描述型 无需目标字段 无监督 刻画数据一般性质 eg.关联规则、序列模式、聚类分析
预测型 需要目标字段 有监督 归纳当前数据以便做预测 eg.贝式网络、决策树、神经网络、逻辑回归
  • 数据挖掘技术绩效增益:

  • 混淆矩阵(准确率、查准率、查全率、F1值)

  • Gain chart

  • Lift chart

  • Profit chart

  • 描述性统计和可视化是 探索性数据分析 常用的两个方法

数据预处理

  • 数据预处理包括:字段选择、数据清洗、字段扩充、数据编码、特征提取。
  1. 字段选择:
    数据整合:消除重复;消除不一致。
    数据过滤:建立区隔化模型的过程。
  2. 数据清洗:
  • 噪声(替代)

    • 错误值(类别型)处理方法:
      - 视为空
    • 离群值(数值型)处理方法:
      - 视为空
      - 盖帽法
      - 函数矫正法
  • 缺失值(填充)处理方法:

    • 人工填补法

    • 自动填补法:用均值、众数、中位数、常数等填充;转换为哑变量(0,1),代表数据是否缺失。
      - 连续型:均值、中位数、常数。
      - 离散型:众数、常值(eg.Unknown)、增加表示缺失的标签。

    • 推论法:用回归模型去预测

    • 直接忽略

  1. 字段扩充:
  • 外部数据整并

  • 内部数据统整

    *字段扩充在数据预处理过程中,通常是最花时间的阶段

  1. 数据编码
  • 数据转换

    • 正规化

      • 极值正规化 v’=(v-min)/(max-min) 值在0~1间
      • z分数正规化 v’=(v-均值)/标准差 大部分值在0附近,值可能大于1
    • 一般化(泛化) eg.东南西北中、高等/基础教育
    • 离散化
      • 人工分离法
      • 自动化分离
        • 装箱法

          • 等宽:max-min)/n
            -各区间range一样,有为空的可能
          • 等深(等分):n/箱容量
        • 趋势离散化
  • 数据精简
    • 记录精简
      抽样代表整体:随机抽样、分层抽样、聚类抽样、系统抽样、两阶段式抽样、多阶段式抽样
    • 域值精简
      • 类别数据一般化
      • 数值数据离散化
    • 字段精简
      • 专家的经验直觉
      • 自动化的分析方法
        • (分类)用统计检定
        • (预测)用皮尔森相关系数
        • (分群)用主成分分析or因素分析
  1. 特征提取技术
  • 无效变量:会增加模型复杂度、降低模型效率和稳定性

    • 种类:
      不相关变量:与目标变量间相互独立
      多余变量:与另一变量作用相近
    • 检验:
      • 卡方检验
      • IV值(信息价值)
      • ANOVA检定(方差分析):用来判断X是连续型,Y是多分类的情况
      • T检验:用来判断X是连续型,Y是二分类的情况
      • 相关系数:用来判断X,Y全是连续型的情况
        -注:卡方、ANOVA、T检验都是<0.05代表相关程度很大,0.05~1之间则一般
    • 压缩技术
      • 连续变量:主成分分析、因子分析、变量聚类
      • 分类变量:水平聚类、WOE打分
        - 归类压缩的常见原因:避免某分类中Y缺乏变异的问题;避免在模型中出现过多的哑变量。

预测型数据挖掘模型

包括贝式网络、线性回归、逻辑回归、决策树、神经网络、支持向量机SVM、集成算法。

描述型数据挖掘模型

包括聚类分析、关联规则、序列模式。

-END-

由于笔记内容太多,就不写在这里了,文末有xmind格式的完整笔记下载链接,请自行查看下载。下图是笔记的部分截图:

说明:笔者刚参加完第14届建模分析师考试,这些笔记都是为了应对考试总结的,不适于完全没有基础的人,请读者结合考试手册和CDA LEVEL 2建模分析师认证考试辅导培训视频课使用,祝大家都能顺利通过考试。

关于CDA LEVEL 1 业务分析师考试,重点把贾俊平的《统计学》和考试手册学好基本可以过的,并不需要报什么班,追求高分除外。而CDA LEVEL 2就需要搞些视频课看了,毕竟有实操题。

如果有任何问题欢迎评论区交流~

完整版笔记内容请跳转到下载页自行下载:
xmind思维导图笔记链接https://download.csdn.net/download/qq_17105473/13984357

CDA LEVEL 2 建模分析师备考笔记相关推荐

  1. CDA Level 1 数据分析师:2.1 表格结构数据内容

    CDA Level 1 数据分析师:2.1 表格结构数据内容 1. 表格结构特征 1. 数据类别 2. 结构化数据 1. 来源: 2. 处理方式: 3. 表格结构数据层级: 3.1 对象间的父子关系: ...

  2. CDA Level 1 数据分析师:6.2 指标的应用与设计

    1. 指标的作用 1. 用简约的汇总数据量化业务的强弱 2. 指标的理解 1. 解释:对度量的汇总,即数据的汇总规则 2. 特点:1. 指标是游离的,无法单独获取2. 需要与统计维度结合3. 指标间可 ...

  3. CDA level 2级课堂笔记

    CDA level 2级课堂笔记 0.1.0引言 1.感知型企业与数据应用系统的演进 敏捷分析平台(BI)–>行为数据平台(数据挖掘)–>协同思维平台(数据驱动业务)–>分析应用平台 ...

  4. CDA LEVEL I 数据分析认证考试模拟题库(四)

    又到公布CDA数据分析师认证考试LEVEL I的模拟试题时间了,今天给大家带来的是模拟试题(一)中的16-20题. 不过,在出题前,要公布下上一期11-15题的答案,大家一起来看! 11.D 12.C ...

  5. 建模分析师与算法工程师的主要区别

    大家晚上好,我是新来的实习生小模君,前几天小智老师给我科普了数据挖掘的基础知识,颇有收获,于是就趁小天今天有事休假冒个泡跟大家分享一番. 数据挖掘,英文名叫Data mining,一般是指从大型数据库 ...

  6. matlab中x从0到5不含0,关于MATLAB的数学建模算法学习笔记

    关于MATLAB的数学建模算法学习笔记 目录 线性规划中应用: (3) 非线性规划: (3) 指派问题;投资问题:(0-1问题) (3) 1)应用fmincon命令语句 (3) 2)应用指令函数:bi ...

  7. 数学建模算法学习笔记

    数学建模算法学习笔记 作为建模Man学习数学建模时做的笔记 参考文献: <数学建模姜启源第四版> 网上搜罗来的各种资料,侵删 1.线性预测 levinson durbin算法,自相关什么的 ...

  8. access 分组序号_二级Access数据库备考笔记之报表排序和分组

    时 间:2012-08-17 12:50:26 作 者:摘 要:二级Access数据库备考笔记之报表排序和分组 正 文: 报表排序和分组 缺省情况下,报表中的记录是按照自然顺序,即数据输入的先后顺序排 ...

  9. 【建模分析】建模分析师_通过主题建模对大型盖茨进行主题分析

    [建模分析]建模分析师 I've always been interested in data analysis and literary criticism. They might seem lik ...

最新文章

  1. HDU - 2041 - 超级楼梯(dp)
  2. creo动画如何拖动主体_Animate如何制作动态遮罩文字动画
  3. 【牛客 - 181B】送分题(另类求解a+b,二分)
  4. 如何下载linux历史版本下载,CentOS历史版本下载方法
  5. android 组件路由框架,XRouter:组件化路由框架
  6. VMWare虚拟机NAT模式下static IP
  7. mac上投屏android_win10不支持miracast,怎么无线投屏
  8. 亚马逊网红无人店第2家来了!面积×1.6倍,还用不用排长队?
  9. php 批量改文件名后缀名_PHP 批量修改文件后缀名
  10. php ajax设置cookie,在AJAX请求中设置Cookie?
  11. thymeleaf 判断对象是否为空_JVM面试问题系列:判断对象是否已死和四种垃圾回收算法总结...
  12. Hive 实用的第三方 UDF 收集
  13. omp算法求稀疏系数matlab,MP算法、OMP算法及其在人脸识别的应用
  14. 人工智能 一种现代方法 第1章 绪论
  15. redhat linux防火墙状态,Redhat下配置iptables防火墙
  16. 电子产品环境可靠性测试标准有哪些?
  17. MySQL运算符介绍(萌新必备!!)
  18. python 特征选择方法_机器学习小窍门:Python 帮你进行特征选择
  19. matlab 设计滤波器,FIR 滤波器设计
  20. java上机练习题,java上机练习题

热门文章

  1. OpenCV 表计识别中倾斜的仪表转正透视变换投影变换
  2. IDEA-自动添加类注释,设置方法注释模版
  3. 157 亿美元 !Salesforce 收购 Tableau !微软发布警告,表明黑客利用Office漏洞发动垃圾邮件攻击……...
  4. awk数组详解、实战
  5. 简单四步开始树莓派上的Docker之旅
  6. QQ显示服务器繁忙2103,qq一直出现错误报告.doc
  7. potplayer插件_Potplayer 百度在线翻译插件
  8. Linux(ubuntu)如何禁用笔记本自带键盘和触摸板
  9. ES学习demo大全
  10. SEO教程,微信seo教程