CDA LEVEL 2 建模分析师备考笔记
CDA LEVEL 2 建模分析师备考笔记
目录
- CDA LEVEL 2 建模分析师备考笔记
- 基础理论
- 数据预处理
- 预测型数据挖掘模型
- 描述型数据挖掘模型
基础理论
Data mining:数据挖掘,从现有大量数据中撷取不明显、之前未知、可能有用的知识。
KDD知识发现过程:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。
CRISP-DM方法论:业务理解、数据理解、数据准备、建模、模型评估、模型发布。
SEMMA方法:抽样、探索、修订、建模、评估。
变量测量类型:名义测量、次序测量、连续测量。
分类变量:
- 检查:众数、分类取值百分比差异。
- 主要统计量: 频次、百分比; 累积频次、累积百分比(仅用于有序变量)。
连续变量:
- 检查:中心水平、离散程度、偏态程度、峰度。
数据预处理:通过各类技术手段对数据进行划分、清理、转换、缩减。
KNN最近邻分类: 一种惰性学习法,涉及 数据前处理、距离计算、预测概率的估计。
- 数据前处理:极值正规化 v’=(v-min)/(max-min)
- 距离计算(同时进行了极值正规化):
- 曼哈顿距离(街区距离):
d(i,j)=∣xi1−xj1∣R1+∣xi2−xj2∣R2+⋯+∣xip−xjp∣Rpd\left ( i,j \right )=\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}+ \frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}+ \cdots +\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}} d(i,j)=R1∣xi1−xj1∣+R2∣xi2−xj2∣+⋯+Rp∣xip−xjp∣
简易解释:d(i,j)=∑(|i 的值-j 的值|/(max-min)) - 欧氏距离(两点直线距离):
d(i,j)=(∣xi1−xj1∣R1)2+(∣xi2−xj2∣R2)2+⋯+(∣xip−xjp∣Rp)2d\left ( i,j \right )=\sqrt{\left ({\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}} \right )^{2}+ \left ({\frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}} \right )^{2}+ \cdots +\left ({\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}}} \right )^{2}} d(i,j)=(R1∣xi1−xj1∣)2+(R2∣xi2−xj2∣)2+⋯+(Rp∣xip−xjp∣)2
简易解释:d(i,j)=根号(∑(|i 的值-j 的值|/(max-min))^2)
- 曼哈顿距离(街区距离):
- 预测概率的估计:
eg.a,b,c三分类问题,当k=5时,最近邻有3个a、1个b、1个c,则这个未知点是a的概率为3/5
- 数据挖掘技术按功能分:
描述型 | 无需目标字段 | 无监督 | 刻画数据一般性质 | eg.关联规则、序列模式、聚类分析 |
---|---|---|---|---|
预测型 | 需要目标字段 | 有监督 | 归纳当前数据以便做预测 | eg.贝式网络、决策树、神经网络、逻辑回归 |
数据挖掘技术绩效增益:
混淆矩阵(准确率、查准率、查全率、F1值)
Gain chart
Lift chart
Profit chart
描述性统计和可视化是 探索性数据分析 常用的两个方法
数据预处理
- 数据预处理包括:字段选择、数据清洗、字段扩充、数据编码、特征提取。
- 字段选择:
数据整合:消除重复;消除不一致。
数据过滤:建立区隔化模型的过程。 - 数据清洗:
噪声(替代)
- 错误值(类别型)处理方法:
- 视为空 - 离群值(数值型)处理方法:
- 视为空
- 盖帽法
- 函数矫正法
- 错误值(类别型)处理方法:
缺失值(填充)处理方法:
人工填补法
自动填补法:用均值、众数、中位数、常数等填充;转换为哑变量(0,1),代表数据是否缺失。
- 连续型:均值、中位数、常数。
- 离散型:众数、常值(eg.Unknown)、增加表示缺失的标签。推论法:用回归模型去预测
直接忽略
- 字段扩充:
外部数据整并
内部数据统整
*字段扩充在数据预处理过程中,通常是最花时间的阶段
- 数据编码
- 数据转换
- 正规化
- 极值正规化 v’=(v-min)/(max-min) 值在0~1间
- z分数正规化 v’=(v-均值)/标准差 大部分值在0附近,值可能大于1
- 一般化(泛化) eg.东南西北中、高等/基础教育
- 离散化
- 人工分离法
- 自动化分离
- 装箱法
- 等宽:max-min)/n
-各区间range一样,有为空的可能 - 等深(等分):n/箱容量
- 等宽:max-min)/n
- 趋势离散化
- 装箱法
- 正规化
- 数据精简
- 记录精简
抽样代表整体:随机抽样、分层抽样、聚类抽样、系统抽样、两阶段式抽样、多阶段式抽样 - 域值精简
- 类别数据一般化
- 数值数据离散化
- 字段精简
- 专家的经验直觉
- 自动化的分析方法
- (分类)用统计检定
- (预测)用皮尔森相关系数
- (分群)用主成分分析or因素分析
- 记录精简
- 特征提取技术
- 无效变量:会增加模型复杂度、降低模型效率和稳定性
- 种类:
不相关变量:与目标变量间相互独立
多余变量:与另一变量作用相近 - 检验:
- 卡方检验
- IV值(信息价值)
- ANOVA检定(方差分析):用来判断X是连续型,Y是多分类的情况
- T检验:用来判断X是连续型,Y是二分类的情况
- 相关系数:用来判断X,Y全是连续型的情况
-注:卡方、ANOVA、T检验都是<0.05代表相关程度很大,0.05~1之间则一般
- 压缩技术
- 连续变量:主成分分析、因子分析、变量聚类
- 分类变量:水平聚类、WOE打分
- 归类压缩的常见原因:避免某分类中Y缺乏变异的问题;避免在模型中出现过多的哑变量。
- 种类:
预测型数据挖掘模型
包括贝式网络、线性回归、逻辑回归、决策树、神经网络、支持向量机SVM、集成算法。
描述型数据挖掘模型
包括聚类分析、关联规则、序列模式。
-END-
由于笔记内容太多,就不写在这里了,文末有xmind格式的完整笔记下载链接,请自行查看下载。下图是笔记的部分截图:
说明:笔者刚参加完第14届建模分析师考试,这些笔记都是为了应对考试总结的,不适于完全没有基础的人,请读者结合考试手册和CDA LEVEL 2建模分析师认证考试辅导培训视频课使用,祝大家都能顺利通过考试。
关于CDA LEVEL 1 业务分析师考试,重点把贾俊平的《统计学》和考试手册学好基本可以过的,并不需要报什么班,追求高分除外。而CDA LEVEL 2就需要搞些视频课看了,毕竟有实操题。
如果有任何问题欢迎评论区交流~
完整版笔记内容请跳转到下载页自行下载:
xmind思维导图笔记链接https://download.csdn.net/download/qq_17105473/13984357
CDA LEVEL 2 建模分析师备考笔记相关推荐
- CDA Level 1 数据分析师:2.1 表格结构数据内容
CDA Level 1 数据分析师:2.1 表格结构数据内容 1. 表格结构特征 1. 数据类别 2. 结构化数据 1. 来源: 2. 处理方式: 3. 表格结构数据层级: 3.1 对象间的父子关系: ...
- CDA Level 1 数据分析师:6.2 指标的应用与设计
1. 指标的作用 1. 用简约的汇总数据量化业务的强弱 2. 指标的理解 1. 解释:对度量的汇总,即数据的汇总规则 2. 特点:1. 指标是游离的,无法单独获取2. 需要与统计维度结合3. 指标间可 ...
- CDA level 2级课堂笔记
CDA level 2级课堂笔记 0.1.0引言 1.感知型企业与数据应用系统的演进 敏捷分析平台(BI)–>行为数据平台(数据挖掘)–>协同思维平台(数据驱动业务)–>分析应用平台 ...
- CDA LEVEL I 数据分析认证考试模拟题库(四)
又到公布CDA数据分析师认证考试LEVEL I的模拟试题时间了,今天给大家带来的是模拟试题(一)中的16-20题. 不过,在出题前,要公布下上一期11-15题的答案,大家一起来看! 11.D 12.C ...
- 建模分析师与算法工程师的主要区别
大家晚上好,我是新来的实习生小模君,前几天小智老师给我科普了数据挖掘的基础知识,颇有收获,于是就趁小天今天有事休假冒个泡跟大家分享一番. 数据挖掘,英文名叫Data mining,一般是指从大型数据库 ...
- matlab中x从0到5不含0,关于MATLAB的数学建模算法学习笔记
关于MATLAB的数学建模算法学习笔记 目录 线性规划中应用: (3) 非线性规划: (3) 指派问题;投资问题:(0-1问题) (3) 1)应用fmincon命令语句 (3) 2)应用指令函数:bi ...
- 数学建模算法学习笔记
数学建模算法学习笔记 作为建模Man学习数学建模时做的笔记 参考文献: <数学建模姜启源第四版> 网上搜罗来的各种资料,侵删 1.线性预测 levinson durbin算法,自相关什么的 ...
- access 分组序号_二级Access数据库备考笔记之报表排序和分组
时 间:2012-08-17 12:50:26 作 者:摘 要:二级Access数据库备考笔记之报表排序和分组 正 文: 报表排序和分组 缺省情况下,报表中的记录是按照自然顺序,即数据输入的先后顺序排 ...
- 【建模分析】建模分析师_通过主题建模对大型盖茨进行主题分析
[建模分析]建模分析师 I've always been interested in data analysis and literary criticism. They might seem lik ...
最新文章
- HDU - 2041 - 超级楼梯(dp)
- creo动画如何拖动主体_Animate如何制作动态遮罩文字动画
- 【牛客 - 181B】送分题(另类求解a+b,二分)
- 如何下载linux历史版本下载,CentOS历史版本下载方法
- android 组件路由框架,XRouter:组件化路由框架
- VMWare虚拟机NAT模式下static IP
- mac上投屏android_win10不支持miracast,怎么无线投屏
- 亚马逊网红无人店第2家来了!面积×1.6倍,还用不用排长队?
- php 批量改文件名后缀名_PHP 批量修改文件后缀名
- php ajax设置cookie,在AJAX请求中设置Cookie?
- thymeleaf 判断对象是否为空_JVM面试问题系列:判断对象是否已死和四种垃圾回收算法总结...
- Hive 实用的第三方 UDF 收集
- omp算法求稀疏系数matlab,MP算法、OMP算法及其在人脸识别的应用
- 人工智能 一种现代方法 第1章 绪论
- redhat linux防火墙状态,Redhat下配置iptables防火墙
- 电子产品环境可靠性测试标准有哪些?
- MySQL运算符介绍(萌新必备!!)
- python 特征选择方法_机器学习小窍门:Python 帮你进行特征选择
- matlab 设计滤波器,FIR 滤波器设计
- java上机练习题,java上机练习题
热门文章
- OpenCV 表计识别中倾斜的仪表转正透视变换投影变换
- IDEA-自动添加类注释,设置方法注释模版
- 157 亿美元 !Salesforce 收购 Tableau !微软发布警告,表明黑客利用Office漏洞发动垃圾邮件攻击……...
- awk数组详解、实战
- 简单四步开始树莓派上的Docker之旅
- QQ显示服务器繁忙2103,qq一直出现错误报告.doc
- potplayer插件_Potplayer 百度在线翻译插件
- Linux(ubuntu)如何禁用笔记本自带键盘和触摸板
- ES学习demo大全
- SEO教程,微信seo教程