【数据分析基本流程】明确目标——数据处理——数据分析——数据展现——报告撰写
提示:本文章数据(mask_data_clean)下载链接:https://pan.baidu.com/s/1ZSHUZyBxpgo2SpdKxfoc6Q
提取码:5dgz
【Python数据分析基本流程】1.明确目标 2.数据处理 3.数据分析 4.数据展现 5.报告撰写
- 前言
- 项目目标:分析口罩厂商亏损原因,提出解决对策
- 一、分组聚合,统计数据
- 二、折线分析,确定趋势
- 三、原因剖析,聚焦问题(聚焦最值——内外因分析——作证解释)
- 四、深入洞察,提出对策
- 总结
前言
数据分析基本流程: 第一步:分组聚合,统计数据 第二步:折线分析,确定趋势 第三步:原因剖析,聚焦问题 第四步:深入洞察,提出对策
项目目标:分析口罩厂商亏损原因,提出解决对策
分析重点:销售额,订单量,单价,各省订单量随着时间变化的趋势及其变化原因;通过分组聚合对每一组数据进行描述性统计分析,然后利用折线图进行变化趋势的分析
一、分组聚合,统计数据
分析的影响因素是销售额、订单量、单价、各省订单量,而且是以一个月为颗粒度,进行时间维度上的变化趋势和原因分析。
import pandas as pd
mask_data_clean = pd.read_csv('./mask_data_clean.csv', encoding = 'utf-8')
mask_data_clean.head()
分别查看1月到6月以来的销售额,可以根据月份对数据mask_data_clean进行分组
对比每个月销售额的上升或下降,查看其每月变化
sales_income = mask_data_clean.groupby(['月份'])['销售额'].sum()
sales_income
对所有订单记录数据的各方面影响因素做变化趋势分析时,有两个要点:
1.根据什么对数据进行分组;
2.选择什么代表性的统计方法,对影响因素进行聚合计算。
获取各月总订单量
order_number = mask_data_clean.groupby('月份')['订单量'].sum()
order_number
获取每月平均单价,存储在变量 month_price 中
month_price = mask_data_clean.groupby('月份')['单价'].mean()
订单量数据进行分组聚合操作,得到各月各省总订单量
获取各月各省总订单量
month_order2 = mask_data_clean.groupby(['月份','省'])['单价'].sum().unstack()
查看数据
month_order2 # 某个月份不同省份总订单量数量
获取各月各省总订单量
month_order1 = mask_data_clean.groupby(['省', '月份'])['订单量'].sum().unstack()
二、折线分析,确定趋势
import matplotlib.pyplot as plt # 导入matplotlib库的pyplot模块
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签sales_income.plot(kind = 'line', figsize = (6, 6), title = '各月总销售额趋势图')
# 直接使用前面的Series对象,以月份为横坐标,以单位数值为纵坐标,总销售额为数据点的折线图
# 画出各月总订单量的折线图
order_number
order_number.plot(kind = 'line' , figsize = (6, 6), title = '各月总订单量趋势图')
month_price.plot(kind = 'line', figsize = (6,6), title = '各月平均单价趋势图')
# 根据month_order1_df绘制多条折线图,标题为'各月各省总订单量趋势图'
# 各月各省总订单量趋势图,它以不同颜色线条表示不同月份,以省份为横坐标,以数值单位为纵坐标,以订单量数值为数据点形成的折线图。
month_order1.plot(kind = 'line', figsize = (7,7), title = '各月各省总订单量趋势图')
观察折线图,有三个要点,一是整体的走势,二是走势的规律性,三是走势的波动。
1.通过折线图的线条倾斜程度,看出走势波动的剧烈程度;
2.各月的总销售额、总订单量、平均单价,以及各省在各月的总订单量,变化趋势有很大的相似性;
(1)在1月到3月的折线是随着时间增长而增加,整体呈增加趋势,其中2月到3月增长快速;3月之后整体呈下降趋势,3月到4月出现了“急跌”;
(2)目前的折线中未出现多个类似形状的起伏波动,未体现出任何规律性;
(3)图中只有一处波动起伏,在这个起伏的最高点,对应3月的数据,此处为最大值;
完全一致的变化趋势说明,此处总销售额的下降是由于订单量、单价双双下滑带来的,而非某一因素单方面的影响。
3.总结:
(1)数据的走势只是一个结果度量,不代表原因本身,也完全不能代表未来的变化趋势,不了解原因只看结果就作评价,很容易犯错。
(2)本质上,趋势是由背后的原因推动的。看趋势,更得看背后的原因,而不是单纯地只看结果走势想当然。
三、原因剖析,聚焦问题(聚焦最值——内外因分析——作证解释)
(1)依据折线图的特征进行原因剖析,首先结合对最值的分析来聚焦问题,重点关注这个值,以特殊性作为突破口;
(2)根据订单量、单价的变化,我们可以知道,3月之前,工厂的口罩需求量和价格都增长猛烈,3月之后却又出现大幅下降;
(3)两三个月内迅速改变口罩的供需关系,应该是属于社会性问题的外部冲击。
分析步骤一个不少,结合数据逻辑和业务逻辑所作的验证、分析、推论都是合情合理,数据分析就是要能够发掘和解释其背后的逻辑。
四、深入洞察,提出对策
问题根源,其实还是一个供需关系,如果口罩厂商在供需矛盾中不占优势,想要继续维持原来高价格高销量的情况几乎是不可能。
总结
整个数据分析过程就是根据分析目的,用适当的分析方法及工具,对数据进行处理和分析,提取有价值的信息,其目的是总结出所研究对象的内在规律。
数据分析能够帮助管理者进行判断和决策,以便制定适当的策略与采取相应的行动。因此掌握数据分析能力对于我们的工作会有很多的帮助。
以上内容为数据分析基本流程及思路,切记一切以目标为导向,采用合适方法,选择合理依据,兼顾业务逻辑的理解,最终制定相应决策,没有数据的分析皆是空谈。文章内容为日常课程学习记录与思考笔记。
2022年5月10日 青海·西宁
【数据分析基本流程】明确目标——数据处理——数据分析——数据展现——报告撰写相关推荐
- python部分引入total值的问题_Python数据分析基础与过程综述,关键数据预处理异常点的发现与处理,python,及,流程,回顾,重点,之,值...
一. python数据分析基础库的导入 基本是固定搭配 import numpy as np #科学计算基础库,多维数组对象ndarray import pandas as pd #数据处理库,Dat ...
- 阿里年薪80w数据总监分享:一张图了解数据分析完整流程
最近,老李已经陆陆续续给大家分享了一些数据分析的干货,包括数据分析方法和模型. 但也有粉丝私聊我说,跟着我学这些分析方法和模型一段时间了,是感觉到自己学了挺多,但总感觉自己缺少一套方法论,也就是从0- ...
- 数据处理-21.数据分析常用流程
一.一般数据分析常用流程 1. 确定问题和目标:在这个步骤中,需要明确问题和目标,以便于进行后续的数据分析和处理.这个步骤可以包括与客户或相关方的讨论,以确定需要回答哪些问题和期望得到的结果是什么. ...
- 大数据应该这样学:数据挖掘与数据分析知识流程梳理
编辑文章 数据挖掘和数据分析的不同之处: 在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言:而数据分析更多的是借助现有的分析工具进行. 在行业知识方面,数据分析要求对所从事的行业有比较 ...
- Python 数据分析三剑客之 Pandas(八):数据重塑、重复数据处理与数据替换
CSDN 课程推荐:<迈向数据科学家:带你玩转Python数据分析>,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员:已出版<跟老齐学Python ...
- python海量数据分析师_数据分析师真的月入过万吗?(基于Python的招聘数据分析全流程实操)...
0 前言 作为一名数据分析小白,经过一轮融汇贯穿学习后,也迫不及待想做一份数据分析报告,于是选取了现阶段最感兴趣的数据分析相关岗位招聘信息进行一波数据分析. 1 理解问题确定分析的目的和方向 因为目前 ...
- 2.文本预处理(分词,命名实体识别和词性标注,one-hot,word2vec,word embedding,文本数据分析,文本特征处理,文本数据增强)
文章目录 1.1 认识文本预处理 文本预处理及其作用 文本预处理中包含的主要环节 文本处理的基本方法 文本张量表示方法 文本语料的数据分析 文本特征处理 数据增强方法 重要说明 1.2 文本处理的基本 ...
- 大数据分析工作流程是什么
大数据分析工作流程是什么?高效的工作流应该做到这一点-流程化-将我们从项目的每个阶段无缝地引导到下一个阶段,优化任务管理,并最终指导我们从业务问题到解决方案再到价值.随着数据泛滥的持续减少,企业正在淹 ...
- 数据分析初探——以2020百度西安交大大数据竞赛:传染病感染人数预测为例
文章目录 数据分析初探--以2020百度&西安交大大数据竞赛:传染病感染人数预测为例 比赛的大致情况 环境配置与相关包的配置 anaconda和pytorch(顺带tensorflow)的配置 ...
最新文章
- 婚姻是唯一没有领导者的联盟
- Gradle 设置本地maven
- CFileDialog的使用方法简单介绍
- C语言再学习 -- Stack Overflow(堆栈溢出)
- 桌面计算机密码应由哪项组成,计算机应用能力考试模拟试题
- 我是如何自学 Python 的,分享一下经验
- android Listview2 笔记
- Java中关于内存泄漏分析和解决方案,都在这里了!
- clion 插件_IDEA必备插件系列-Rainbow
- 【GWT系列】实现远程过程调用
- SetTimer函数的用法
- Avalondock 技巧之如何隐藏浮动面板停靠器
- Biopython -- Parsing BLAST output
- 韩立刚计算机网络——第七章:Internet 上面的音频和视频
- 离散概率分布的介绍及Python运用
- 「Python网络编程」如何让蔡徐坤同时唱跳rap篮球/初识多线程(二)
- 2012年秋季,斯皮维大厅音乐会的亮点
- 集成显卡和独立显卡的区别
- 6种方法计算神经网络参数量Params、计算量FLOPs、Macs简单代码
- sd3403开发板学习(一)