数据分析的步骤

第一步:提出问题

第二步:收集数据

第三步:数据处理和清洗

第四步:数据分析

第五步:可视化,得出结论

一、提出问题

一个数据分析的过程,其实是从数据中得到结论的过程。但分析的起点并非数据,而是问题! 先确定问题是什么,再投入精力从相关的数据中挖掘答案。

二、收集数据

通常情况下,我们想要收集数据,会有4种数据的来源:

1.观测和统计得到的数据

2.问卷和调研得到的数据

3.从数据库中获取的数据

4.从网络爬虫获取的数据

需要根据我们希望获得数据,来判断应该从哪些来源获取。

1)观测和统计数据

是指经过实地获取的实测数据。这类数据可大可小。

例如:一个商场的客流量。

这是对商场各个出入口的人员进出,按人头统计,汇总的数据,也是实地观测获得的。只是目前会有红外感应装置来获取,不需要人工来数了。

2)问卷和调研数据

是指通过抽取样本,用问卷或访谈的方式,获取的数据。 有一些需要获取到个人信息、心理感受的数据,我们需要通过询问访谈获得。

3)从数据库中获取的数据

数据库,可以简单理解为储存数据的一种结构。 我们在计算机、手机上产生的操作行为,被捕捉下来会存储到数据库中。例如:在电商平台上购买商品记录,会存储在这个电商平台的数据库中。

数据库通过一些工具和SQL语言,可以将数据查询出来,下载成Excel、csv文件,供我们使用。
从数据库中查询数据,不是这门课的重点。我们重点来解决的是:数据拿到手后,应该如何使用和分析

4)从网络爬虫获取的数据

有时,我们想要获取的数据,并不归属自己所有的数据库。
例如,想要豆瓣的电影评论。
这时就会使用网络爬虫,按照一定规则自动抓取网页信息。组织成我们需要的数据形式。

三、数据处理和清洗

在收集完问卷数据,开展进一步的分析之前。对问卷中,填写时长少于5s的问卷数据进行了剔除。因为填写时长少于5s,大概率是随意填写的,这一部分随便填写的数据,可能会干扰数据的有效性。

这是数据分析的第3步:“数据处理和清洗”。

四、数据分析

数据分析,是一个循序渐进的过程。

1)图表可视化的部分,是数据分析最前置的描述性分析。

是对得到的大量数据资料进行整理和归纳的初步分析方法。目的是找出数据的大致分布状态,进行单个因素分析。

2)探索分析

探索性数据分析,是指仅有一些非常浅的假设,通过数据分析方法,深入探索数据。

它有三大作用,包括分析现状、分析原因、预测未来。

如果缺失一些基本的数据分析思路,那么面对处理好的数据,也会不知道从何入手。

但其实,数据分析的思路非常简单。三大作用分别对应着三个基本思路:对比、细分、预测。

1、对比

数据的高低,通常需要进行比较,分析它们的差异。

对比可以非常直观地看出变化/差距,并且量化变化/差距是多少。

比如,相同方法调研了《Python办公效率化》的学员。明显对比看到,《Python数据分析》课程的学生占比相较更多一些。

2、同比和环比

同比,通常是本期数据和过往的同一期数据的对比。

例如,2020二季度GDP的同比增长,是和2019二季度GDP对比,这就是年同比。可以消除不同季度的季节因素影响。

环比,通常是本期数据和连续周期的上一期数据的对比。

例如,2020二季度全国GDP的环比增长,是和2020一季度对比,这就是环比。可以观测数据连续的变化趋势。

3、细分

在深入挖掘数据现状,和追溯内部原因的时候。需要在对比的基础上,进行细分分析。

细分,是指将数据划分成不同的部分,从而对比内部各个部分之间异同和关系的思路。

***细分分析,可以对比量的直接大小外,还可以对比内部结构。***内部结构中,某个部分的比例越大,说明其重要程度越高,影响越大。

比如:对比各课程学生/职场人的内部占比。

《办公效率化》职场人占比更大,职场人的特点会更大的影响整体。《网络爬虫》学生占比更大,学生的特点会有更大的影响。
一次探索性分析的过程,通常是从问题出发,不断细分对比,从而发现有洞见和针对性的结论。

在单一的维度上,不断向下细分,进行维度下钻。 或者,在单一的维度上,不断添加新的维度,进行维度交叉。 可以说,细分是数据分析的本源。

细分分析中,还有一种知名的分析方法,叫“杜邦分析法”。

杜邦分析的本质,就是将想要分析的一个指标,不断拆解为所有影响它的细分指标,分析细分指标的变动,从而挖掘目标的指标。

比如,一个电商平台的销量 = 浏览量 × 转化率,浏览量可以往下拆解,转化率也可以往下拆解。

4、yuce

数据分析中,预测未来是一个非常重要的问题。数据之间客观上存在互相影响和依存的关系。

挖掘这种数据间的关系,就可以通过一个因素的发展,从而推断另一个因素的发展,这就实现了预测。
预测,往往要通过更复杂的数学模型来实现。一般来说分为三种:

相关性分析

回归分析

时间序列模型

因为图像能更加凸显数据结果,所以,数据分析和可视化往往同时进行。

不同的问题,可以根据不同的图像来展现,每种图像各有各的优势。

最后免费分享给大家一份Python全套学习资料,包含视频、源码,课件,希望能帮到那些不满现状,想提升自己却又没有方向的朋友。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

这份完整版的Python全套学习资料已经打包好,需要的小伙伴可以戳下方链接免费领取

读者福利《Python全套学习资料》,戳这里免费领取!!!

Python数据分析入门——数据分析基础步骤知识相关推荐

  1. python基础一入门必备知识-Python数据分析入门必备基础知识

    今天,老师要带大家解数据分析的定义.核心思路.应用领域以及开发流程,向大家全方位展示数据分析入门必备基础知识,全都是干货哦!虽然看完本文,不能让大家立马变身为一名数据分析师,但是能让大家对数据分析有一 ...

  2. 怎样用“python”快速入门数据分析?

    不知道大家发现没,近几年,国内对数据分析类人才需求越来越大了. 这点从国家开始批准大学设立数据分析相关专业就能看出来.2016年2月,教育部公布新增"数据科学与大数据技术"专业,北 ...

  3. 数据分析入门——推荐基础书以及实用网站

    数据分析入门: 一开始肯定是数学基础巩固: 线性代数.统计论等.参考书成千上百,最重要还是理解透! 二就是各种软件的熟悉利用:EXCEL SPSS SAS 等,这是我桌面常用到的软件: 三便是进阶版, ...

  4. Python数据分析入门--Numpy基础学习笔记

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 NumPy基础 1.NumPy nadarray:多维数组对象 1.1ndarray及其数据类型 1.2NumPy数组 ...

  5. python基础一入门必备知识-Python快速入门指南基础知识详细说明

    随着人工智能大火,我们身边几乎处处充满着AL的气息,就连停车,都是机器人值班了. 可是很多人都不知道人工智能是由什么开发的,各种相关联的框架都是以Python作为主要语言开发出来的. Python本身 ...

  6. python语言入门w-python基础知识(一)

    最近花时间整理了一下以前学过的python基础知识,语言最多的是使用. 1.1 开发模式 交互模式:简单的调试或者测试 开发流程 创建以.py结尾的python文件 在python文件中输入打印&qu ...

  7. Python菜鸟入门:day01基础知识

    写在前面: 此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 传送门: day01基础知识 day02知识分类 day03 ...

  8. 《Python快速入门》基础知识扫盲课

    据说:看我文章的帅帅 都有个习惯:先点赞.收藏再看 目录

  9. 自学python编程免费教程-python编程入门 零基础学习Python基础(附带最新免费教程)...

    本篇是面向编程零基础学员的Python入门教程,内容涵盖了Python的基础知识和初步应用.以较轻快的风格,向零基础学习者介绍了一门时下比较流行的.并且用途比较广泛的编程语言.同时,其语法简洁而清晰, ...

最新文章

  1. SQL(基于MySQL)——LIMIT用法
  2. 数据库事务和spring事务的区别
  3. 爬虫单个ip代理设置_爬虫怎样设置代理ip池
  4. 从华为“鸿蒙”备胎看IT项目建设
  5. 开源文件服务器file-service介绍
  6. 人脸检测,微软提出用RNN代替CNN
  7. jquery回显select标签
  8. 95-130-344-源码-source-kafka相关-AbstractFetcher
  9. CTA策略06_BollChannelStrategy
  10. 《An Introduction to Ray Tracing》——2.3 Ray/Polygon Intersection And Mapping
  11. 永磁同步电机转子磁链_采用冻结磁导率的瞬态场永磁同步电机交直轴电感计算...
  12. 你了解实时3D渲染吗?实时渲染软件和应用场景科普来了
  13. 美容院管理系统高效管理门店店务?
  14. TypeScript 源码详细解读(1)总览
  15. 《2020版JavaScript基础入门教程全集》,助你一臂之力!
  16. 绝地求生登录计算机需要授权,绝地求生计算机授权收不到怎么办 | 手游网游页游攻略大全...
  17. 【mysql】drop、truncate和delete的区别
  18. 《OSPF和IS-IS详解》一1.1 星际网络
  19. GPS北斗共视授时中的多径效应分析
  20. 教你用C语言编写万年历,程序员超乎你的想象!

热门文章

  1. 7.4 初等矩阵和可逆性
  2. 计算机科学研究进展,理论计算研究获进展
  3. Android:应用程序未安装解决方法
  4. 2022年度东湖高新区国家重点研发计划“先进结构与复合材料”重点专项申报指南!
  5. asyncio异步IO--协程(Coroutine)与任务(Task)详解
  6. 攻防世界- CRYPTO -练习区12题解
  7. JavaSE - 数组的相关算法
  8. 求一个给定的n阶方阵的鞍点
  9. 中台:业务中台、数据中台、技术中台
  10. PHP - ChatGpt 学习 仅供参考