写在文章前

又是好久好久没有写博客了,数据分析师干了两年了,再这样下去我就成为了那2:8里面的8中的2:8的8了。我想成为带2的人,哈哈。工作闲暇之余,为了充实自己,打算考个CDA数据分析师证书,也不知道有用没用,但也真不知道该怎么提升自己的,那就只有花钱来买教训了。后续我会更新《CDA-LEVEL-II考试大纲》里面的各部分内容,尽情期待!

PART1 数据采集与处理

一、数据采集方法

【领会】
一手数据与二手数据来源渠道
优劣势分析
使用注意事项
【熟知】
一手数据采集中的概率抽样与非概率抽样的区别与优缺点
【运用】
概率抽样方法,包括简单随机抽样、分层抽样、系统抽样、分段抽样
明确每种抽样的优缺点
根据给定条件选择最可行的抽样方式
计算简单随机抽样所需的样本量

一手数据指的是直接从数据来源方获取的原始数据,而二手数据则是从数据经销商或数据平台购买的经过加工处理的数据。它们的来源渠道、优劣势如下表所示:

类别 一手数据 二手数据
来源渠道 1. 网站、APP、社交媒体等各种在线渠道;2. 客户反馈、投诉、建议等;3. 其他第一手来源,如调查问卷、采访、访谈、测量仪器等。 1. 数据经销商、数据平台;2. 大数据分析服务商、数据挖掘机构;3. 数据交换、采购平台。
优势 1. 数据精准度高;2. 原始数据更真实、可靠、准确;3. 数据更新迅速。 1. 数据量大,全面性强;2. 数据信息、特征、属性等进行加工处理方便;3. 数据分析工具更完善、易用。
劣势 1. 数据量较小,片面性强;2. 数据采集成本高,工作量大;3. 需要专业的数据处理和分析人员。 1. 数据来源不透明,数据品质难以保证;2. 数据标准化程度参差不齐;3. 不同数据来源的数据对比难度大。

同时我们在使用相关数据时,应注意一下事项:

  1. 对比不同数据来源的数据质量;
  2. 注意数据的有效性、真实性、可靠性;
  3. 注意数据的隐私保护,避免泄露;
  4. 因数据来源渠道不同,分析方法和工具也不同,需要制定相应的分析策略。

二、市场调研和数据录入

【熟知】
市场调研的基本步骤(提出问题、理论推演、收集材料、构建模型、归因分析)
样本选取方式的适应性及优缺点
问卷设计原理,问卷题型设置以及每类题型的数据编码及录入

市场调研是指通过一定的调查方法,获取相关市场信息并进行分析,以便为企业的市场决策提供支持和依据。市场调研的基本步骤包括:

  1. 提出问题:明确研究的目的与问题,明确调研的目标与重点;
  2. 理论推演:通过对市场情况及潜在因素的阐述和推算,为预测市场趋势提供基础。
  3. 收集材料:采用多种方式(如访谈、问卷调查、研究文献、信息查询等)获取调查对象的相关信息。
  4. 构建模型:建立数学模型或模拟实验,为对市场进行更深入的研究提供支持。
  5. 归因分析:将市场变化归结到其原因上,进行定量和定性分析。

市场调研的样本选取方式有多种,包括随机抽样、分层抽样、整群抽样等。不同的样本选取方式适用于不同的研究目的和样本类型。随机抽样具有简单、公正、具有代表性等优点,但缺点是代表性不够强,容易出现抽样误差;分层抽样可以提高代表性,但难度较大,成本较高;整群抽样具有代表性强、成本低等优点,但存在个体差异较大、数据分析复杂等问题。

问卷设计是市场调研中的重要环节,它涉及到问卷的题型设置、题目编码、数据录入等问题。问卷设计应遵循以下原则:

  1. 问题要清晰明确,避免使用含糊不清的词汇和定性的问题;
  2. 题目的选用要与调查对象和研究目的相适应,避免题目的重复和冗长;
  3. 选用适当的题型,包括单选题、多选题、判断题、填空题、开放式题等。

数据编码和录入是问卷设计中的重要环节,它可以通过电子化问卷来实现。在数据编码和录入中应注意以下问题:

  1. 题目的编码要简单明了,避免出现重复或遗漏;
  2. 应通过专业软件对数据进行录入和校验,避免出现数据错误和遗漏。
  3. 数据录入后要进行数据分析和解释,从而对市场进行更深入的理解和分析。

三、数据探索与可视化

【领会】
数据探索的目的与意义
常用数据可视化工具软件(EXCEL BI、SPSS、PYTHON 等)
【熟知】
数据探索与数据预处理之间的关系
数据探索常用数据描述方法:集中趋势分析、离中趋势分析、数据分布关系、图分析
数据探索常用数理统计方法:假设检验、方差检验、相关分析、回归分析、因子分析
【应用】
能够通过使用数据可视化工具(EXCEL BI、SPSS、PYTHON 等)来完成相关数据分析
项目的数据探索任务。(说明:考试中不会考核该部分工具和软件的使用方法)。

数据探索的目的是通过对数据进行分析、统计、可视化等手段,来揭示数据中隐藏的规律和关系,从而对数据进行探索和解读。
数据探索的意义在于:

  1. 发现问题和异常:通过数据探索可以发现数据中存在的问题和异常,提高数据质量和准确性;

  2. 描述数据的特征:通过对数据进行可视化和描述性统计分析,可以了解数据的分布、趋势、特征等信息;

  3. 发现变量之间的关系:数据探索可以揭示不同变量之间的关系,帮助研究人员深入理解研究对象所涉及的变量之间的相互作用;

  4. 挖掘数据的潜在价值:通过对数据进行探索,可以发现数据中的潜在价值和应用场景,为业务决策提供支持。

  5. 提高决策效果:通过数据探索,可以从不同角度对业务问题进行分析和解答,从而帮助决策者做出更为精准和有效的决策。

数据探索和数据预处理是数据分析过程中密不可分的两个步骤。数据探索旨在了解数据的特征、结构、分布等信息,揭示数据中隐藏的规律和趋势,为后续的数据分析提供基础。而数据预处理则是在数据探索的基础上,对数据进行清洗、变换、规范化等操作,使数据更适合进行分析。

常用的数据描述方法包括:

  1. 集中趋势分析:用均值、中位数、众数等统计量来描述数据分布的中心位置;
  2. 离中趋势分析:用标准差、方差、四分位差等统计量来描述数据分布的离散程度;
  3. 数据分布关系:用直方图、箱线图、概率密度图等图表来描述数据的分布形态、峰度、偏态等特征;
  4. 图分析:通过散点图、折线图等图表展示数据在时间、空间、品类等维度上的演变趋势。

常用的数理统计方法包括:

  1. 假设检验:用来验证某个假设是否成立,如判断两个样本的均值是否相等;
  2. 方差检验:用来检验数据的差异是否显著,如判断不同组之间的方差是否相等;
  3. 相关分析:用来研究两个变量之间的线性关系,如判断两个变量是否呈正相关或负相关;
  4. 回归分析:用来建立变量之间的函数关系,以预测因变量的值,如分析销售额与广告投入之间的关系;
  5. 因子分析:用来简化大量变量之间的复杂关系,提取出共同的因子,以便进行归纳分析。

四、数据预处理方法

【熟知】
数据预处理的基本步骤,包括数据集成(不同数据源的整合)、数据探索、数据变换(标准化)、数据归约(维度归约技术、数值归约技术),这部分内容不涉及计算,只需要根据需求明确可选的处理技术即可。
【应用】
数据清洗,包括填补遗漏的数据值(根据业务场景使用常数、中位数、众数等方法,不涉及多重查补的方法)、平滑有噪声数据(移动平均)、识别或除去异常值(单变量根据中心标准化值,多变量使用快速聚类),以及解决不一致问题(熟知概念即可),查重(只考 核
SQL 的语句,不涉及其它语言)。

数据预处理

数据预处理是数据挖掘中最基础、最重要的步骤,也是决定数据挖掘结果的关键。其基本步骤包括数据集成、数据探索、数据变换和数据归约。
1. 数据集成:
数据集成是将不同数据源的数据整合到一个数据集中的过程。这些数据可以来自于不同的数据库、文件或网络,数据集成的目标是将这些数据转换成一个一致的格式,以便于数据挖掘和分析。数据集成的方法包括:平面文件导入、数据库连接、批量导入、API调用等。
2. 数据探索:
数据探索是对数据进行初步的分析和评估,以便于理解数据的特点、结构和价值。常用的数据探索方法包括:可视化处理、统计分析、数据抽样、离群点检测等。
3. 数据变换:
数据变换是对原始数据进行处理和转换,以便于后续的分析和建模。常用的数据变换方法包括:数据清洗、缺失值处理、重复值处理、数据离散化、归一化、标准化等。
4. 数据归约:
数据归约是将原始数据进行压缩或简化,以便于处理大规模数据和提高处理效率。常用的数据归约技术包括维度归约技术和数值归约技术。维度归约技术主要是将数据的维度降低,如PCA主成分分析、SVD奇异值分解等;数值归约技术主要是将数据的大小降低,如数据采样、聚类、抽样等。

综上所述,数据预处理是数据挖掘过程中最为重要的步骤之一,在整个数据分析中占据了很大的比重,通过数据预处理步骤的设计合理和实施严格,可以为后续的数据挖掘分析打下良好的基础,提高数据挖掘的准确性和效率。

数据清洗

数据清洗中的常用方法:

1. 填补遗漏的数据值
在数据清洗过程中,常常会发现数据集中存在缺失值的情况。在这种情况下,需要使用一些方法来填补遗漏的数据值。常见的方法包括:常数填充:使用一个常数来填充缺失值,比如使用 0 或者平均值等。中位数填充:使用中位数来填充缺失值。众数填充:使用众数来填充缺失值。前向填充:使用缺失值前面的已知数据来填充缺失值。后向填充:使用缺失值后面的已知数据来填充缺失值。
2. 平滑有噪声数据
在数据清洗过程中,常常会发现数据集中存在噪声的情况。在这种情况下,需要使用一些方法来平滑有噪声数据。常见的方法包括:移动平均:使用一定时间窗口内的平均值来平滑数据。滤波:使用滤波器来去除噪声,常用的滤波器包括中值滤波器和高斯滤波器。
3. 识别或除去异常值
在数据清洗过程中,常常会发现数据集中存在异常值的情况。在这种情况下,需要使用一些方法来识别或除去异常值。常见的方法包括:单变量识别:根据中心标准化值来识别异常值。多变量识别:使用快速聚类算法来识别异常值。盒须图:使用盒须图来识别异常值。
4. 解决不一致问题
在数据清洗过程中,常常会发现数据集中存在不一致的情况。在这种情况下,需要使用一些方法来解决不一致问题。常见的方法包括:数据重构:将不一致的数据进行重构或者重新采样。数据转换:将不一致的数据进行转换,比如将大小写转换为小写。数据合并:将不一致的数据进行合并或者分裂。
5. 查重
在数据清洗过程中,常常会发现数据集中存在重复的数据。在这种情况下,需要使用一些方法来查重。常用的方法是使用 SQL 的语句进行查重,比如使用 SELECT DISTINCT 或者 GROUP BY 等语句。

(“The darker the sky, the brighter the stars.吃的苦中苦,让为人上人”FIGHTING. . . .)

《CDA-LEVEL-II考试大纲》解读--PART1 数据采集与处理相关推荐

  1. 武汉工程大学计算机考研,武汉工程大学2021考研初试:计算机综合II考试大纲

    武汉工程大学2021考研初试:计算机综合II考试大纲 I 考试性质 计算机学科专业基础综合考试 II 是为武汉工程大学计算机科学与工程学院所招收控制科学与工程学科等硕士点的硕士研究生而设置的具有选拔性 ...

  2. CDA LEVEL 1 考试,知识点汇总《市场调研》

    一.基本步骤 1.市场调研的基本步骤 市场调研是一种非常常用的信息获取渠道.调研的结果可以整理成分析项目的输入,甚至可以作为决策的依据.因此想 要做好市场调研,科学的流程是非常必要的.一般我们会通过提 ...

  3. CDA LEVEL 1 考试,知识点《机器学习基本概念》

    一.什么是机器学习 机器学习研究如何让计算机不需要明确的程序也能具备学习能力.(-- Arthur Samuel,1959) 一个计算机程序在完成了任务T之后,获得经验E,其表现效果为P,如 果任务T ...

  4. CDA LEVEL I 数据分析认证考试模拟题库(四)

    又到公布CDA数据分析师认证考试LEVEL I的模拟试题时间了,今天给大家带来的是模拟试题(一)中的16-20题. 不过,在出题前,要公布下上一期11-15题的答案,大家一起来看! 11.D 12.C ...

  5. 【信息系统项目管理师】解读高项考试大纲

    [信息系统项目管理师]解读高项考试大纲  1.考试目标      通过本考试的合格人员具备管理信息系统项目特别是管理大型项目和多个项目的能力,具备实施企业级项目管理的能力.      能够熟练运用信息 ...

  6. 事业单位计算机基础知识考纲,2016年天津事业单位考试计算机大纲解读

    2016年天津事业单位考试计算机大纲解读 一.试卷组成 天津市2016年事业单位公开招聘管理岗位和通用性较强专业技术岗位人员笔试阶段公共科目为<职业能力测验>和<综合知识>(文 ...

  7. 计算机硕士全国联考英语考试,在职攻读硕士学位全国联考英语考试大纲有这五大内容需要注意...

    [导读]在职攻读硕士学位全国联考英语考试大纲每年都会发布,因为大部分人考的都是英语二,所以这里以其为标准,基本每年变化都不大,所以今年2018年考试大纲可以参照2017年的进行解读和复习. 通过对20 ...

  8. CDA level 2级课堂笔记

    CDA level 2级课堂笔记 0.1.0引言 1.感知型企业与数据应用系统的演进 敏捷分析平台(BI)–>行为数据平台(数据挖掘)–>协同思维平台(数据驱动业务)–>分析应用平台 ...

  9. 山东外贸职业学院王彩霞老师网上考试系统及c语言考试题库》,2019年山东外贸职业学院单独招生考试 《语文》考试大纲(夏季高考)...

    2021年高职单招升学一对一咨询高职单招网王老师:18680828239(微信) Ⅰ.考核目标与总体要求 语文要求考查考生识记.理解.分析综合.鉴赏评价.表达应用和探究六种能力,具体要求如下. A.能 ...

最新文章

  1. 苏宁11.11:苏宁易购订单搜索系统架构及实现
  2. 进击的 JavaScript(六) 之 this
  3. Lync 小技巧-42-动态-IP-统一沟通-环境-IP-变更后-操作
  4. [转载]Android Layout标签之-viewStub,requestFocus,merge,include
  5. dijkstra算法代码_数据科学家需要知道的5种图算法(附代码)
  6. 应用程序初次运行数据库配置小程序(Java版)
  7. 基于springboot+thymeleaf+mybatis的员工管理系统 —— 登录与注册
  8. shell 并发脚本
  9. C# asp.net 图片微略图及图片裁剪处理
  10. 模幂运算问题,使用朴素算法和重复-平方算法(快速幂+C#计算程序运行时间)
  11. 3.24学习记录(下午)
  12. BN(Batch Normalization)层原理与作用
  13. android超频闪退,显卡超频后玩游戏闪退 | 手游网游页游攻略大全
  14. python 常微分方程 画向量场_千里积于跬步——流,向量场,和微分方程[转载]...
  15. Typecho 插件开发基础
  16. Could not start Tomcat
  17. iis运行html提示500错误,IIS发布网站出现Http—500错误
  18. USB PD协议规范
  19. 第二章软件测试基础知识
  20. 学硕 申请清华计算机博士,2017年清华大学申请考核制考博成功经验谈

热门文章

  1. [转] 低功耗之产品功耗计算
  2. Java四种线程池的使用 1
  3. 微信小程序(应用号)开发
  4. 依据Spring Boot学习视频写的笔记
  5. 信息资源管理之信息化
  6. ClickHouse之ReplicatedMergeTree引擎介绍
  7. [转]世界五百强面试题目及应答要点(50题)
  8. 【数据结构2-2】线段树与树状数组 题解
  9. 英睿特服务器型号,中小企业利器 英睿特RS5188H V2服务器评测
  10. 鸿蒙不为手机而生,不是为手机而生,鸿蒙到底能做什么?答案让花粉始料未及...