CDA二级易错点总结
这是在群里不知名好哥哥总结的基础上(可能迭代了多个版本),本人根据个人错题做了微小的修改和补充,方便大家学习。
发现有错误和补充的欢迎大家在评论区留言。
数字化工作方法
1.二次规划:求解方法:拉格朗日法、内点法、椭球法、Lemke方法、有效集法
2.整数规划:求解方法:
a)分枝定界法:可求纯或混合整数线性规划。
b)割平面法:可求纯或混合整数线性规划。
c)隐枚举法:用于求解0-1整数规划,有过滤法和分枝法。
d)匈牙利法:解决指派问题(0-1规划特殊情形)。
e)蒙特卡罗法:求解各种类型规划。
3.线性规划:
a)求解方法:单纯形法、改进单纯形法、对偶单纯形法、原始对偶方法、分解算法和各种多项式时间算法
b)标准型:
i.通过松弛变量或者剩余变量将一般线性问题的约束条件中的不等式化为等式
ii.通过变换(比如同乘-1)将约束条件右端的常数转换为非负数
iii.将决策变量转换(比如加入新变量)为非负数
4.近因分析:
a)头脑风暴法技术:是-非矩阵、名义群组技术、配对比较法
b)量化分析工具
关联分析:
1.散点图-两原因之间关系探索
2.关联图-复杂情境下使逻辑可视化;为弄清一个层面的原因对另一个层面的原因影响后,探求原因链
3.亲和图-针对定性数据
4.问题集中图-联系物理位置
差异分析:
1.漏斗分析-通过产品、渠道等进行拆分,进行横向比较
2.用户画像-寻找客群特性
3.留存分析
4.跟踪数字足迹
5.根因分析:矩阵图、五问法、因果图(鱼骨图)
①原因型(鱼头在右):
鱼尾:问题或现状;
鱼头:目标;
脊椎:达成过程的所有步骤与影响因素
②对策型(鱼头在左)
③整理问题型(鱼头在左):各要素与特性值间不存在原因关系,而是结构构成关系
创建图形方式:分散分析法、原因枚举法
数据分析模型
时间序列:
a)波动:
①循环波动指周期长度不定的变动模式
②固定以年/月等为周期波动的是季节波动
b)模型:
①Winter模型:同时含有平滑值(随机成分)和季节成分,因此可用于同时含有趋势和季节成分的预测
②分解法:成分分解,因此可用于同时含有趋势和季节成分的预测
③Holt模型:不含季节成分;用于线性趋势预测
④简单指数平滑模型:不含随机成分;用于随机序列的预测 指数模型、多项式模型:用于非线性趋势的预测v.
c)平稳:
①严平稳:时间序列的概率分布与时间t无关;期望与相关系数(依赖性)不变的平稳情况
②宽平稳:序列存在一、二阶矩,t满足任意时刻,均值、方差为常数,协方差为时间间隔k的函数
③对于非平稳时间序列,大部分场景下最好变成平稳序列的方法是差分
d)ARIMA方法:
①AR:自回归过程,描述当前值与历史值之间的关系,累加往期的影响
②AR模型平稳性判别方法:单位根判别法、平稳域判别法、自相关图
③I:差分
④MA:移动平均过程,描述自回归部分的误差累计
e)RSI:相对强弱指标,能够反映出市场在一定时期内的景气程度
f)MACD:称为异同移动平均线,代表着市场趋势的变化
聚类:
a)用于用户画像,客户分群
b)系统(分层)聚类
①计算类与类距离的公式:重心法、全连接法、ward法
②离差平方和法(Ward法):基于方差分析的思想,
③如果分类正确,同类样品之间的离差平方和应当较小,类与类之间的离差平方和应当较大
c)①K-means聚类:迭代算法
需要计算均值和距离,非常容易受到量纲和异常值等的影响,需要进行数据标准化
②取每个点距离最近的中心点进行簇的划分
d)如果不考虑外部信息,聚类结构的优良性度量应当采用均方差
e)评估聚类结果:
组间平方和越大,说明各个组区分的越明显,聚类效果越好;组内平方和越小,说明每个组里元素的属性越接近,聚类效果越好
f)变量相似性测量尺度:
①间隔尺度-数值型变量
②顺序尺度-顺序型变量
③名义尺度-分类型变量
g)按照远近程度聚类明确两个距离:点和点之间的距离、类和类之间的距离
分类:
a)混淆矩阵、成对比较
b)ROC曲线
1.x轴=C/(C+D),特异率Specificity,1-特异率为roc曲线X轴
2.Y轴=A/(A+B)
3.AUC=F+G
4.精确度=A/(A+C);precision,也叫命中率,查准率,所有预测为1里面检测出来的
5.召回率=A/(A+B);recall,查全率,命中率,全部样本中全部识别出来的比例,所有真实为1的里面预测出来的
6.准确率A+D/(A+B+C+D)
7.F1-score=2pre*rec/pre+rec
c)算法
①KNN:临近算法,属于分类算法,是数据挖掘分类技术中最简单的方法之一
②贝叶斯
③逻辑回归:对于逻辑回归有ln(p/1-p)=wx+b,当p=0.5时,wx+b=0
④几率(odds):事件发生与不发生的概率的比值P/(1-P)
⑤Sigmoid函数:1/(1+e^-x),逻辑回归使用此函数进行概率转换
⑥逻辑回归的两个计算
几率提升了几倍:ln(p/(1-p))=B0x+E
概率为P=1/(1+e^-x)
线性回归:
a)模型假设:
①Y的平均值能够准确地被由X组成的线性函数建模出来
②解释变量与随机扰动项不存在线性关系
③解释变量之间不存在线性关系(或强相关),即不完全相关
④假设随机误差项是一个独立的,均值为0,方差恒为常数σ²的正态分布
b)评估指标:AdjustedR-Squared/FStatistics/MAPE/残差平方和/均方误差/
①判定系数:越大,估计标准误差越小,拟合的越好,数据点到线性回归方程距离越小
②AIC/BIC:多元线性回归变量筛选常使用的评价准则
c)最小二乘法:
①适用于一元或多元线性回归;
②在回归系数估计的所有无偏估计中,是唯一的最小方差估计;
③原理是求使得离差平方和最小的参数-Σ(yi-yi帽)^2
d多元线性回归模型中自变量的系数矩阵X为列满秩,则矩阵X的列向量之间是线性无关
e)检验
①多元回归可用F检验和t检验,而一元回归中F检验的统计量会退化为t统计量的平方,二者复杂度相同
②整体检验的原假设是回归系数全为0
③t检验(回归系数检验):方差未知;用于线性回归中,回归系数的检验
④F检验(线性关系检验):用于线性回归中,回归方程的检验
f)R方:
①表示多元回归中的回归平方和(因变量回归估计值总变差的大小)占总离差平方和(因变量观测值总变差的大小)的比例;
②R方越大,表示多元回归方程的拟合程度越好;
③会随着模型中自变量数量的增加而增大;
④为避免增加自变量而高估R方,提出调整R方;
⑤评价一元线性回归模型拟合程度时使用
g)自由度:含有p个变量的多元回归模型,样本量为n,则该模型的回归平方和自由度为p,残差平方和自由度为n-p-1
h)忽略自相关:
①可能严重低估误差项的方差
②可能导致高估检验统计量t值,致使不显著的变量变的显著了
③最小方差无偏性不再成立
I)多重共线性:
①缓解-逐步回归法、正则化方法、剔除一个、偏最小二乘;
②会使估计方差变大,让预测结果更容易不准确
③VIF(方差膨胀因子):检验自变量的共线性问题
④某个解释变量对其余解释变量的判定系数接近1,说明这些变量线性相关性很高, 即为多重共线性
⑤不可剔除所有的共线性变量
j)残差平方和:被解释变量观测值总变差中未被列入模型解释的部分
k)系数矩阵X的列数为自变量的个数,一般用P表示,x‘x是一个P*P的矩阵,阶数为p
因子分析:
a)需要计算协方差或相关系数,非常容易受到异常值等影响,因此需要先进行规范化
b)假设:
①各个共同因子之间不相关
②特殊因子之间也不相关
③共同因子与特殊因子之间也不相关
c)特殊因子:是没有泛用性但是又对结果有影响的因子,比如运气,一般不需要特别计算因子得分
d)检验:
①KMO检验:取值在0,1之间;越接近1说明简单相关系数平方和越大于偏相关系数平方和,说明变量间的相关性越高,从而能更好的提取共同特征的因子
②相关系数矩阵
③反映像相关矩阵
e)因子旋转方法:方差最大正交旋转、斜交旋转
主成分分析:
a)主要关注变量之间的相关性;
b)因为使用的是度量各变量之间相关性的协方差矩阵;
c)各主成分之间的夹角是固定的,都是正交的;
d)各主成分方差依次递减;
e)缺点是全局降维
f)特征值分解法:将原随机向量的协方差阵变换为对角形阵
推断性统计分析
相关性的度量方法:
a)皮尔逊相关系数:两个连续变量
b)斯皮尔曼相关系数:两个顺序性变量
c)肯德尔曼相关系数:一连续一顺序
d)相关系数:协方差/标准差,取值范围【-1,1】与直线的斜率无关
方差分析:
a)检验若干个独立正态整体均值是否相等的一种统计方法,不能用于检验方差;
b)组间平方和(回归平方和)包含效应间差异和随机误差;反应各个值之间误差大
小的平方和
c)组内平方和(残差平方和)只包含随机误差,自由度为n-r;反应各观测值误差
大小的平方和
d)单因子方差分析
假设:
①每一总体均为正态总体
②各总体方差相同
③从每一总体抽取的样本是相互独立的
因子A有4个水平,每个水平重复次数5/7/6/10,那么总试验次数n=28,水平数r=4,误差平方和的自由度为n-r=24,因子平方和的自由度为r-1=3,总平方和的自由度为n-1=27
假设检验:
a)显著性水平:表示原假设为真时,拒绝原假设的概率;
b)在样本给定条件下,第一类错误与第二类错误此消彼长;
c)要想同时减小两类错误,只能扩大样本量
d)步骤
①建立假设
②选择检验统计量,给出拒绝域形式
③选择显著性水平
④给出拒绝域
卡方检验:
a)多个率或多个构成比比较
b)用于一个总体方差的区间估计
置信区间95%:在用同样方法构造的总体参数的多个区间中,有95%区间包含该总体参数
AB检验:
a)检验方案实施后的总体B是否相对实施前的总体A有显著提升。
b)预期提升比例越大越说明B比A有显著差异,则只需越少的样本就能得出显著的结论
异常值检测常见方法:
a)NumericOutlier数字异常值、DBSCA聚类技术、IsolationForest孤立森林、百分数法
b)Z-score:将数据减去均值,并除以标准差,表示样本偏离平均水平程度
c)箱线图、散点图、学生化残差指标
麦肯锡问题的三大类型:恢复原状型、追求理想型、防范潜在型
缺失值不会用众数填补处理
参数估计:
a)评价估计量指标方法:
①无偏性:样本估计量的所有可能取值的数学期望等于被估计的整体参数
②有效性:对同一总体参数的两个无偏估计量,方差更小的更有效
③一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数
其他:
常用区分好坏客户的指标:AUC/ROC/KS/Gini系数
哑变量:将虚拟变量放入回归时,一定要少放一个,否则系统会提示存在多重共线性的问题
数据完整性约束:实体完整性、参照完整性、用户定义完整性
反应离中趋势:异众比率、变异系数、四分位差、平均差和标准差
信息构成:数据+元数据
离散系数主要作用:
a)比较不同计量单位数据的离散程度
b)比较不同变量值水平数据的离散程度
数据标准化方法:Z-score标准化、区间缩放、向量单位化
几种抽样:
①系统抽样:先抽取一个单位作为初始单位,然后确定其他样本单位
②多阶段抽样:按照从大到小顺序进行抽样
③分层抽样:先按照年龄等分层再抽样
④简单随机抽样:不加任何限制从总体抽样
Apriori算法:
支持度=包含物品A的记录数量/总的记录数量
置信度(A->B)=包含物品A和B的记录数量/包含 A 的记录数量 =4/7
提升度(A->B)=置信度(A->B)/(支持度B)=(4/7)/(6/9)
CDA二级易错点总结相关推荐
- 计算机二级vbf课百度云,计算机二级易错易混选择题.
下面能够将某个变量声明为局部变量的是 A) 在窗体模块的声明部分,用关键字Static声明这个变量 B) 在窗体模块的声明部分,用关键字Dim声明这个变量 C) 在需要使用这个变量的过程中,用关键字P ...
- 计算机二级易错知识点 2021 8.8
1.栈和队的概念: 栈是数据结构的一种存储结构,栈的实现是一种后进先出策略 队列是数据结构的一种存储结构,队列的实现是一种先进先出策略 2.树中叶的结点数计算 总结点数=依次度的结点数之和(包括0度) ...
- 【1】刷了1000道二级C语言的题,这些题竟然还是易错题!!(附C语言完整知识点)
@二级C语言考试 这几天我天天都在做C语言的题,从公共基础部分到C语言选择题部分,着重复习选择题部分.算下来已经刷了近1000道C语言的题了: 不过有些题明明是很简单的,却很容易错,它们容易混淆.看似 ...
- 2022年二级注册建筑师《场地设计》考试易错题及答案
题库来源:优题宝公众号 2022年二级注册建筑师<场地设计>考试易错题及答案,根据最新二级注册建筑师大纲与历年真题汇总编写,包含二级注册建筑师常考重点题型与知识点,有助于考生复习备考二级注 ...
- 【2】二级C语言中那些易错的概念题
本篇是这几天总结的C语言易错概念题,这些题往往就是因为概念不清而做错,而当我们对概念非常熟练时,又可以秒选.这些题其实都是强行记住就行了,概念不清也就是没记住嘛,因为这种题失分简直就太不值得了,因此有 ...
- C语言一级指针(char *)易错模型分析
C语言一级指针char *易错模型分析 char *(字符串)做函数参数出错模型分析 越界 不断修改指针变量的值 你向外面传递什么 重复的错误何时休 char *(字符串)做函数参数出错模型分析 建立 ...
- 全国计算机等级考试四级数据库易错知识点
自己做题的一些易错点收纳,红色的是错两次以上的知识点 数据库原理: 两个关系代数表达式相等的条件是 产生的结果有相同的属性集:2.相同的元组集 两个调度等价有3个条件,1.读同样的值:2.readTj ...
- 最新项目管理软考中级易错内容整理-终结篇
项目管理优秀书籍与项目管理工具模板推荐 软考常考易错整理 一.信息的质量属性 1.精确性,对事物描述的精准程度 2.完整性,全面的程度 3.可靠性,可以信任的 4.及时性,获得信息的时间与事件发生的间 ...
- 牛听听 总是获取音频流出错_冲刺一甲|普通话考试备考资料分享(易错字词归纳、朗读短文60篇 文字+音频、32篇命题说话)...
想必大家最关心的就是普通话考试的报名和考试时间: 在校学生可以在学校的教务网上查询(两三个月就可以考一次):也可以打电话询问辅导员具体时间. 非在校学生要关注所在地语言文字网或者教育局官方网站的普通话 ...
最新文章
- Linux shell 学习笔记(1)— 文件和目录(查看、创建、复制、软硬链接、重命名及删除操作)
- JVM---Java虚拟机栈
- SpringBoot面向切面编程-用AOP方式管理日志
- 51Nod1916 购物
- pyqt5知识:如何接受密码输入?
- java一年包装_浅谈Java的包装类
- windows环境安装haproxy及初步配置负载均衡使用示例
- 【小白学习keras教程】十一、Keras中文本处理Text preprocessing
- python安装caffe_Caffe安装笔记二:Caffe安装过程
- 十多款优秀的Vue组件库介绍
- 微软补丁星期二修复120个漏洞,含2个已遭利用的 0day
- html事件中写js,html标签中绑定触发事件与js中绑定触发事件写法上的区别
- LibreOffice 6.4.4 发布
- 【人脸识别】基于matlab GUI SVM和PCA人脸识别【含Matlab源码 369期】
- 【广工考试笔记】计算机系统结构考试速成笔记
- 易语言对接验证码短信接口DEMO示例
- 如何实现:手机监控PC桌面?(附源码)
- java中的各种集合排序
- 数据结构与算法分析(七)递归
- linux pcre路径,PCRE和Nginx安装问题
热门文章
- SSM+酒店管理系统的设计和实现 毕业设计-附源码260839
- TensorFlow团队:TensorFlow Probability的简单介绍
- QT实现图片缩放的同时标记指定坐标
- 解决springboot无法访问此网站,localhost 拒绝了我们的连接请求的问题。
- 隐藏微信公众号右上角的分享按钮
- 奈奎斯特采样定理粗略推导
- 网易杭州研究院offer全过程(附加阿里巴巴笔经面经)
- 【智能优化算法-正弦余弦算法】基于反向正弦余弦算法求解高维优化问题附matlab代码
- feign.codec.DecodeException: Error while extracting response for type
- github如何写博客