数据分析的步骤

第一步:提出问题
第二步:收集数据
第三步:数据处理和清洗
第四步:数据分析
第五步:可视化,得出结论

一、提出问题

一个数据分析的过程,其实是从数据中得到结论的过程。但分析的起点并非数据,而是问题! 先确定问题是什么,再投入精力从相关的数据中挖掘答案。

二、收集数据

通常情况下,我们想要收集数据,会有4种数据的来源:

1.观测和统计得到的数据

2.问卷和调研得到的数据

3.从数据库中获取的数据

4.从网络爬虫获取的数据

需要根据我们希望获得数据,来判断应该从哪些来源获取。

1)观测和统计数据

是指经过实地获取的实测数据。这类数据可大可小。

例如:一个商场的客流量。

这是对商场各个出入口的人员进出,按人头统计,汇总的数据,也是实地观测获得的。只是目前会有红外感应装置来获取,不需要人工来数了。

2)问卷和调研数据

是指通过抽取样本,用问卷或访谈的方式,获取的数据。 有一些需要获取到个人信息、心理感受的数据,我们需要通过询问访谈获得。

3)从数据库中获取的数据

数据库,可以简单理解为储存数据的一种结构。 我们在计算机、手机上产生的操作行为,被捕捉下来会存储到数据库中。例如:在电商平台上购买商品记录,会存储在这个电商平台的数据库中。

数据库通过一些工具和SQL语言,可以将数据查询出来,下载成Excel、csv文件,供我们使用。
从数据库中查询数据,不是这门课的重点。我们重点来解决的是:数据拿到手后,应该如何使用和分析

4)从网络爬虫获取的数据

有时,我们想要获取的数据,并不归属自己所有的数据库。
例如,想要豆瓣的电影评论。
这时就会使用网络爬虫,按照一定规则自动抓取网页信息。组织成我们需要的数据形式。

三、数据处理和清洗

在收集完问卷数据,开展进一步的分析之前。对问卷中,填写时长少于5s的问卷数据进行了剔除。因为填写时长少于5s,大概率是随意填写的,这一部分随便填写的数据,可能会干扰数据的有效性。

这是数据分析的第3步:“数据处理和清洗”。

四、数据分析

数据分析,是一个循序渐进的过程。

1)图表可视化的部分,是数据分析最前置的描述性分析。

是对得到的大量数据资料进行整理和归纳的初步分析方法。目的是找出数据的大致分布状态,进行单个因素分析。

2)探索分析

探索性数据分析,是指仅有一些非常浅的假设,通过数据分析方法,深入探索数据。

它有三大作用,包括分析现状、分析原因、预测未来。

如果缺失一些基本的数据分析思路,那么面对处理好的数据,也会不知道从何入手。

但其实,数据分析的思路非常简单。三大作用分别对应着三个基本思路:对比、细分、预测。

1、对比

数据的高低,通常需要进行比较,分析它们的差异。

对比可以非常直观地看出变化/差距,并且量化变化/差距是多少。

比如,相同方法调研了《Python办公效率化》的学员。明显对比看到,《Python数据分析》课程的学生占比相较更多一些。

2、同比和环比

同比,通常是本期数据和过往的同一期数据的对比。

例如,2020二季度GDP的同比增长,是和2019二季度GDP对比,这就是年同比。可以消除不同季度的季节因素影响。

环比,通常是本期数据和连续周期的上一期数据的对比。

例如,2020二季度全国GDP的环比增长,是和2020一季度对比,这就是环比。可以观测数据连续的变化趋势。

3、细分

在深入挖掘数据现状,和追溯内部原因的时候。需要在对比的基础上,进行细分分析。

细分,是指将数据划分成不同的部分,从而对比内部各个部分之间异同和关系的思路。

***细分分析,可以对比量的直接大小外,还可以对比内部结构。***内部结构中,某个部分的比例越大,说明其重要程度越高,影响越大。

比如:对比各课程学生/职场人的内部占比。

《办公效率化》职场人占比更大,职场人的特点会更大的影响整体。《网络爬虫》学生占比更大,学生的特点会有更大的影响。
一次探索性分析的过程,通常是从问题出发,不断细分对比,从而发现有洞见和针对性的结论。

在单一的维度上,不断向下细分,进行维度下钻。 或者,在单一的维度上,不断添加新的维度,进行维度交叉。 可以说,细分是数据分析的本源。

细分分析中,还有一种知名的分析方法,叫“杜邦分析法”。

杜邦分析的本质,就是将想要分析的一个指标,不断拆解为所有影响它的细分指标,分析细分指标的变动,从而挖掘目标的指标。

比如,一个电商平台的销量 = 浏览量 × 转化率,浏览量可以往下拆解,转化率也可以往下拆解。

4、yuce

数据分析中,预测未来是一个非常重要的问题。数据之间客观上存在互相影响和依存的关系。

挖掘这种数据间的关系,就可以通过一个因素的发展,从而推断另一个因素的发展,这就实现了预测。
预测,往往要通过更复杂的数学模型来实现。一般来说分为三种:

  1. 相关性分析
  2. 回归分析
  3. 时间序列模型

因为图像能更加凸显数据结果,所以,数据分析和可视化往往同时进行。

不同的问题,可以根据不同的图像来展现,每种图像各有各的优势。

Python数据分析入门(1)——数据分析基础步骤知识相关推荐

  1. python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程

    如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...

  2. Python从入门到实战 基础入门视频教程(讲解超细致)-黄勇-专题视频课程

    Python从入门到实战 基础入门视频教程(讲解超细致)-4123人已学习 课程介绍         Python基础入门视频教程:本课程从Python入门到纯Python项目实战.超100以上课时, ...

  3. Python数据分析入门之pandas基础总结

    Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...

  4. python编程入门-编程零基础应当如何开始学习 Python?

    一.说明 面对网络上纷繁复杂的资料,自己真是眼花缭乱,学的毫无章法,东一榔头西一棒子,这样不仅知识不能成为体系,自己的学习进度也不容易掌握,收效甚微.突然有个想法,就是把自己这几天收藏的资料整理出文章 ...

  5. Python程序设计入门32道基础编程题目与参考代码

    声明 本文仅在CSDN发布,其他均为盗版.请支持正版! 正版链接: https://blog.csdn.net/meenr/article/details/107095894 目录 概述 1.简单数值 ...

  6. Python数据分析入门——数据分析基础步骤知识

    数据分析的步骤 第一步:提出问题 第二步:收集数据 第三步:数据处理和清洗 第四步:数据分析 第五步:可视化,得出结论 一.提出问题 一个数据分析的过程,其实是从数据中得到结论的过程.但分析的起点并非 ...

  7. numpy列相加_Python数据分析入门:NumPy基础:数组与向量化计算

    本章重点内容: 1.NumPy ndarray:多维数组对象 1)生成ndarry 2)ndarray的数据类型 3)NumPy数据算术 4)基础索引与切片 5)布尔索引 6)数组转置和换轴 2.通用 ...

  8. 数据分析入门需要了解的统计学知识【持续更新】

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 最近一直 ...

  9. 用python爬虫的基本步骤-Python爬虫入门:爬虫基础了解

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

  10. python语言入门m-Python学习基础篇 -1

    前言:本专栏以Python为主题,并尽可能保持每星期两到三更,直到将Python的基础知识浅析和讲解完毕,同时,有一定基础的同学可以移步 Python实战专栏 . 第一篇:Python中的输入与输出 ...

最新文章

  1. LINUx打包命令汇总
  2. OpenCL向量相加
  3. 硬盘序列号查询软件_【西数硬盘购买指南】干货——西数移动硬从购买到验证体会心得...
  4. Struts使用细节
  5. Open3d之表面重建
  6. 【算法】经典的ML算法(后续结合工作实践完善心得)
  7. MVC4 code first 增加属性,对应自动修改列的方法笔记
  8. 一文教你学会DIY串口线
  9. NetCore mysql Connection open error . The given key ‘25971‘ was not present in the dictionary
  10. 软件安全之动态链接库的使用 Libzplay 播放音乐
  11. scratch拼图编程_使用模块化和项目拼图进行编程。 使用最新的抢先体验版的教程
  12. VMware Workstation Pro 虚拟机搭建
  13. 银行家算法的实验报告
  14. 某Xavier载板硬件方案
  15. sqli-lbs:Less-5~10通关详解
  16. 如何学习 C++ 如何学习一门较复杂的编程语言 【转】
  17. Long Short-Term Memory(长短期记忆网络)
  18. 安卓Android sqllite实现保存数据和读数据
  19. Linux系统学习笔记二
  20. 【SRS】流媒体服务器(推流+拉流+转流)

热门文章

  1. WinForm开发(28)——TextBox(2)——Winform给TextBox设置默认值(获取焦点后默认值消失)
  2. WPF TextBox 设置多行
  3. MSDTC报错怎么破
  4. Dos 模拟器 DosBox 下载使用
  5. 【内网穿透笔记】NAPT类型测试与XTCP点对点内网穿透适用例外
  6. DATAGEAR统计报表简单教学
  7. java我行我素购物系统_用java怎么编写 我行我素shopping购物管理体统
  8. 迅雷精简版 for Mac!附精简教程!
  9. lammps建模_lammps建模
  10. VR、RTMP播放器SGPlayer原理详解