一、要充分理解收集数据的目的

在进行数据法分析之前,一定要明确要对什么进行数据分析,为什么要数据分析,怎样分析,这是一切分析工作的源头。
可以使用的方法:逻辑树
逻辑树的主要思想:将问题分层罗列,对问题进行分层,逐步向下扩展。
逻辑树的原则

  • 需要将相关问题归结为一类问题
  • 需要将各要素归结为一个完整框架,不能有重复或遗漏之处
  • 各要素之间应当有一定的联系,不能出现孤立要素

例:问题:提升利润增速
可以拆解为三个方面的问题:收入、成本、价格
收入可以拆解为:主营业务收入状况、营业外收入状况等
成本可以拆解为:产品材料成本、人工成本、广告成本等
价格可以拆解为:同行业其他企业的的价格、本企业当前的价格、这种产品的历史价格波动情况等
还可以继续拆分,在这里就不继续拆分了,原理都是一样的,就是根据每一层的问题进行细化思考,找到解决方案

二、制定数据收集计划

需要了解经典的数据分析方法,如5W2H法
5W:WHY、WHAT、WHO、WHEN、WHERE
2H:HOW、HOW MUCH
例:收集用户购买电脑产品的数据
WHY:为什么购买电脑,为什么选择这个产品
WHAT:这个产品有什么特点,能给用户提供什么功能
WHO:购买此类型电脑的用户是什么人,这些用户有什么特点
WHEN:用户是什么时候购买的,用户的购买频率是怎样的
WHERE:用户在哪里购买的,这家店铺有什么特点
HOW;用户是怎样购买的,是怎样支付的,用户对此产品的体验是怎样的
HOW MUCH:用户是以多少钱购买的

三、正确决定数据分层因素

可以将业务信息划分为三个层次
用户的数据、对手的数据、产品的数据

四、选择合适的抽样方法

  • 简单抽样

特点:

  1. 总体数量有限;
  2. 样本必须在总体中逐个抽取;
  3. 总体中的单位被抽为样本的概率相同

不足:

  1. 事先要对样本进行编号,需要耗费大量时间;
  2. 若总体分布不均,样本也会分布不均;
  3. 样本较少时,会影响结果的准确性;
  4. 当已知样本的某些特征会影响结果时,便不能再使用

类别:包括重复抽样、非重复抽样两种

  • 分层抽样

概念:
可以在分为不同层级的样本中,按一定比例从不同层级中随机抽取一部分样本

优点:
通过划分层级,增加了各单位之间的共同性;
容易得出更具有代表性的样本,使结果误差较小

步骤:
1.根据样本的特征,对总体划分层级,如性别、年龄段、教育水平等
2.确定各层级在总体中的比例,按比例确定抽取各层级中的样本数量
3.按简单随机抽样的方法抽取样本

  • 整群抽样

概念:
将总体分为许多群,这些群按照一定规则由样本单位结合而成,通过简单随机抽样抽取其中的某个或某几个群

步骤:
1.确定分群标记
2.按标记分群
3. 确定抽取群数
4. 用简单随机抽样抽取确定的群数

缺点:
不同群的差异大,引起的误差比分层抽样大

  • 系统抽样

概念:将总体所有单元按一定顺序进行排列,再按简单随机抽样抽取第一个样本单元,再抽取其余样本单元

类型

1.随机起点抽样
将总体分为K段,K=总体数/样本数
在每一段随机位置抽取样本
缺点:当随机抽取的样本位置位于该段首尾位置时,会导致后续单位发生偏离,产生误差
2.半距起点系统随机抽样
与1相同,只不过在第一段以中间项为起点,每个k个单位抽取一个样本
3.随机起点对称系统抽样
原理:第一段选F位置的单位,在段数为奇数的段选Nk+F位置的单位,在段数为偶数的段选择Nk-F+1位置的单位
优点:保证样本不偏向,以抵消抽样误差
4.循环系统抽样
在k不是整数时,将所有样本按一定次序排列成首尾相接的循环,从第一段抽一个作为起点,每隔k个距离抽一个

数据分析 --- 收集数据的技巧相关推荐

  1. 数据分析 --- 收集数据的原则

    一. 数据必须真实 一份真实的数据可以带来以下收获: 定位用户需求 通过问卷调查.抽样调查获取的数据是有限的,并且有时也不能够保证真实性, 因此可以通过技术手段对网站进行埋点,获得用户的行为模式,购买 ...

  2. 大数据数据收集数据困难_大数据架构、大数据开发与数据分析的区别

    是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析  人工智能+Python | 人工智能+物联网 来源:小职(z_zhizuobiao ...

  3. python一行输出多个数据_Python高效数据分析的8个技巧

    原标题:Python高效数据分析的8个技巧 ​开发一个深度学习应用,第一步总是数据分析,这篇文章介绍了8个使用Python进行数据分析的方法,不仅能够提升运行效率,还能够使代码更加"优美&q ...

  4. 【技巧分享】【数据分析】数据分析模型

    系列文章目录 [技巧分享][数据分析]数据分析模型 [技巧分享][数据分析]数据分析算法 文章目录 系列文章目录 前言 AARRR模型 变形:阿里系三大模型 AIPL模型 FAST模型 GROW模型 ...

  5. ETF基金定投数据分析1——数据收集

    ETF基金定投数据分析1--数据收集 作为一个80后的小伙,我错过了一次又一次让自己财富增加的机会,唯一的投资理财就是把钱通通放到某额宝里.一年前,我开始学习理财的知识,最后选择进行etf基金定投来投 ...

  6. 电影评分数据分析python_豆瓣电影简单评分模型-从收集数据到建模分析

    思路: 从豆瓣上抓取数据[主要是评分,只是那个人数的百分比和最终评分,不过够用了] 一.收集数据 起始URL:https://movie.douban.com/j/new_search_subject ...

  7. 数据分析大数据面试题大杂烩01

    互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东) 电信,银行统计营收和针对用户的个人画像:处理大量非实时数据 政府:健康码 ...

  8. 数据分析大数据面试题大杂烩02

    Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill ...

  9. 高水平文章发表必备-数据分析和文献解读技巧

    近年来,生物科技高速发展,带动相关学习资源的快速更新,课本上的资源远远达不到我们学习的地步,更加高新技术的和资源更加符合我们的需求,这里为大家推荐以下几个资源的聚集地,相信可以为大家的学习提高,把握数 ...

最新文章

  1. Boson_Netsim_6使用方法
  2. 如何在一场面试中展现你对Python的coding能力?| 技术头条
  3. yabailv 运放_运放的压摆率
  4. 如何启用漫游用户功能
  5. JVM堆老年代分配比例
  6. [云炬python3玩转机器学习笔记] 2-4批量学习、咋西安学习、参数学习和非参数学习
  7. Codeforces Round #684 (Div. 2)
  8. html5 自制播放器
  9. 话说模式匹配(5) for表达式中的模式匹配
  10. 怎么样判断页面是否在iframe框架里
  11. 如何在Windows环境下使用PyCharm开发PySpark
  12. switch/case语句中,每个case后{}的意义
  13. 外卖红包小程序0基础搭建附教程+源码
  14. 常见的web前端性能优化方法总结
  15. 智慧安全:信息安全监控平台
  16. 计算机病毒狭义和广义的区别,狭义相对论和广义相对论的区别是什么?
  17. 创业公司项目管理流程这样做才有效
  18. MATLAB神经网络43个案例分析
  19. MES系统——工艺管理篇
  20. 条形码技术在供应链管理中的作用

热门文章

  1. String字符串分割的3种方法 Java
  2. 计算机网络应用层(二):DNS协议详解
  3. MySQL 不等于null或空格
  4. 【视频异常检测-论文阅读】Anomaly Detection in Video via Self-Supervised and Multi-Task Learning
  5. VS2019生成DLL
  6. Druid连接池参考配置和说明
  7. 无线测温模块在轧钢厂的应用
  8. 计算机财务管理系统基础知识,计算机财务管理实习报告
  9. 前端程序媛浅总结的工作中能用到“软技能”
  10. 图解卡尔曼滤波(Kalman Filter)