一. 背景及数据来源
背景:
电子商务交易相对于传统零售业交易来说,最大的特点就是一切都可以通过数据化来监控和改进。通过数据可以看到用户从哪里来、如何组织产品可以实现很好的转化率、你投放广告的效率如何等等问题。基于数据分析的每一点点改变,就是一点点提升你赚钱的能力,所以,电子商务网站的数据分析显得尤为重要。本项目主要对电商交易数据进行了多维度的分析,如商品ID、设备类型、销售渠道、销售地区、下单时间等。

数据来源: 数据基于kaggle上某电商真实的交易数据,出于商业机密的考虑,数据经过了脱敏处理。

二.数据概况
本项目是基于Python语言进行数据分析,代码运行开发工具为Jupyter Notebook。
首先加载数据,加载之前先用文本编辑器看下数据的格式,获得诸如首行内容,分隔符是什么等的信息,对于后面的数据加工处理清洗等做到心中有数;

加载好数据之后,第一步先分别使用describe和info方法看下数据的大概分布,并把这两个方法放到两个cell中

由此可见数据中共包含104557条数据,10个数据集的片段:

在数据分析前先加载device_type:

三.数据清洗(Data cleaning)
数据清洗作为数据分析不可或缺的一部分,是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺省值等,该工作有时几乎会占据整个数据分析工作的80%时间。以下我会大概展示下对于这份数据的大概整理过程。

3.1对数据集片段order_id进行清洗
我们都知道order_id在一个系统里是唯一值,所以要先看下有没有重复值,以免对后面结论产生影响。
这里需要注意的是当我们对一列取size属性的时候,返回的是行数,如果对于dataframe使用size,返回的是行乘以列的结果,也就是总的元素数。

如果有重复值,我们一般最后处理,因为其他的列可能会影响到删除哪一条重复的记录,所以我们先处理其他的列。

3.2对userId的处理

对于userId我们只要从上面的describe和info看下值是不是在正常范围就行了,且对于订单数据,一个用户有可能有多个订单,重复值是合理的。

3.3 productId处理
productId最小值是0,先来看下值为0的记录数量:

我们发现记录不多,只有177条,我们可以推断可能是因为商品的上架下架引起的,为了避免后面分析错误,处理完其他值的时候我们把这些删掉。

3.4 cityId处理

cityId跟userId类似,其值都在正常范围,故不需要处理;

3.5 price
price没有空值,且都大于0,注意单位是分,我们把它变成元df.price = df.price / 100

3.6 payMoney
payMoney有负值,我们下单不可能是负值,所以这里对于负值的记录要删除掉,展示负值的记录。

总共6条记录,我们把它删掉:
删除负值的记录

再看下,已经没有了
同时我们把单位转成元,可执行这指令:

3.7 channelId
channelId根据info的结果,有些null的数据,可能是端的bug等原因,在下单的时候没有传channelId字段;在数据量大的时候,删掉少量的null记录不会影响统计结果,这里我们直接删除。
数据展示如下:

删除后再在查看:

deviceType的取值可以看device_type.txt文件,没有问题所以不需要处理。但createTime和payTime都没有null,不过我们是要统计2016年的数据,所以把非2016年的删掉。而payTime类似,这里只按创建订单的时间算,就不处理了。

四.数据分析
数据分析前,我们一般都是先看下数据的总体情况,如总订单数,总下单用户,总销售额,有流水的商品数等,数据显示如下:

值得注意的是,分析数据可以从两方面开始考虑,一个是维度,一个是指标,维度可以看做x轴,指标可以看成是y轴,同一个维度可以分析多个指标,同一个维度也可以做降维升维。

4.1按照商品的productId
我们先看下商品销量的前十和后十的排名:

4.2销售额


看下销量和销售额最后100个的交集,发现有些商品的销量和销售额都不行,这时就要考虑这些商品是否需要优化或者下架。

4.3城市的分析可以和商品维度类似

4.4channelId
渠道的分析类似于productId,可以给出成交量最多的渠道,订单数最多的渠道等,渠道很多时候是需要花钱买流量的,所以还需要根据渠道的盈利情况和渠道成本进行综合比较,同时也可以渠道和商品等多个维度综合分析,看看不同的卖的最好的商品是否相同。

4.5下单时间分析
我们按小时的下单量分布进行分析,从而可以按照用户的时间惯性进行产品的推广,好的时机主动出击可以达到事半功倍的效果!

由数据可以知,中午12点到下午2点下单比较多,这段时间应该是午休时间;然后是晚上20点左右,我们知道晚上20点左右几乎是所有互联网产品的一个高峰,这给我们的启示,在下单高峰要注意网站的稳定性、可用性,避免因为APP的不稳定带来用户及订单量的流失。



按照星期的交易数据来看,周五下单最多,其次是周四周六,由此可知周五前后是进行商品宣传及用户维护的好时机。

4.7用户下单后多久支付

我们再从饼图观察,有重合的话可以改下bins;

由数据可知,绝大部分用户都在十几分钟之内完成支付,说明用户购买的目的性很强,基本很少犹豫。

4.8月成交额分析
我们先把创建订单的时间设置为索引


由数据可知,订单成交额在四月份前呈现缓慢下降趋势,过了五月份订单量急速增长并在7月份达到最高峰(超过900万),此后经历了断崖式下跌,到11月份到达谷底(不到500万),随后触底反弹,由此可看出该商品的销售旺季集中在4月到9月份,并主要集中在暑期。

五.总结

  1. 本案例主要对电商交易数据进行了包括了商品ID、设备类型、销售渠道、销售地区、下单时间等多个维度的常见的分析。由于该数据是基于2016年一年的数据,为此我们只做环比分析无法做同比分析,且数据不是企业内部全部数据而是网上的脱密数据,故原数据并没有出现如加购转化漏斗、网站流量等电商数据分析中常见的指标。
  2. 本文展示了在对该项目数据清洗处理的整体思路及基本过程,包括删去无效值,补充缺省值等即数据清洗的“增”“删”“查”“改”,这些步骤在常见的数据分析中极其重要;
  3. 从仅有的数据来看,分析的结果基本符合消费者生活习惯,例如移动终端购物占多数、午休及晚饭后的休闲时间为购物高峰期等。

基于一个电商交易数据分析项目的浅析相关推荐

  1. 案例:电商交易数据分析

    一.导入要使用的模块 import pandas as pd import numpy as np from matplotlib import pyplot as plt from matplotl ...

  2. 巴西电商Olist数据分析项目:SQL+FineBI

    一.分析背景 巴西Olist是当地电商平台,本数据集包含2016年9月-2018年8月的数据,本文将通过对平台的整体情况.用户.商家.产品.销售五个方面分析平台的经营状况,目的是为了发现平台可能存在的 ...

  3. hadoop之基于某电商离线处理项目架构和实现二(ETL数据清洗)

    目录 1.需求 2.详细设计 3.使用idea进行MR编程 4.本机测试 5.服务器测试 6.使用hive完成最基本的统计分析 1.需求 对CDN的点击日志数据清洗 2.详细设计 进行MR编程,对日志 ...

  4. 电商大数据分析平台项目(一)项目框架

    一.项目简介 这段时间自己从网上找了一个项目课程,学着做了一个电商大数据分析平台,不过较为简陋,知识作学习用. 项目环境:windows10+hadoop2.7.7+hbase2.1.0+flume1 ...

  5. spark企业级电商分析平台项目实践(一)项目介绍和需求分析

    前言 这个专栏的系列文章,是一个电商分析平台项目实践过程中的记录和总结. 基于 spark2.4.x 和 scala2.11.x 一. 项目概述 访问电商网站时,我们的一些访问行为会产生相应的埋点日志 ...

  6. 架构设计 | 基于电商交易流程,图解TCC事务分段提交

    本文源码:GitHub·点这里 || GitEE·点这里 一.场景案例简介 1.场景描述 分布式事务在业务系统中是十分常见的,最经典的场景就是电商架构中的交易业务,如图: 客户端通过请求订单服务,执行 ...

  7. Java毕设项目基于的电商平台的设计与实现(java+VUE+Mybatis+Maven+Mysql)

    Java毕设项目基于的电商平台的设计与实现(java+VUE+Mybatis+Maven+Mysql) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilder ...

  8. Vue实战项,基于Element-UI 电商管理系统源代码,含项目部署指南

    电商项目基本业务概述 根据不同的应用场景,电商系统一般都提供了 PC 端.移动 APP.移动 Web.微信小程序等多种终端访问方式,我们主要是实现PC后台管理系统. 1.2 电商后台管理系统的功能 电 ...

  9. 从0到1搭建电商营销数据分析平台(一)

    欢迎关注公众号--<数据三分钟> 一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,祝你成为数据达人.还有面试指导和内推机会. 电商领域数据是最重要的能源,数据的力量正 ...

最新文章

  1. JPA学习---第五节:日期和枚举等字段类型的JPA映射
  2. 供应商主数据屏幕增强
  3. 干货!Java字节码增强探秘
  4. 新浪微博后台服务器架构
  5. 模式识别经典算法——Kmeans图像聚类分割(以最短的matlab程序实现)
  6. 【RLchina第二讲】汪军老师推荐的强化学习理论学习资料
  7. InfoGAN详细介绍及特征解耦图像生成
  8. 智慧校园信息化建设方案
  9. python读取桌面上的文件夹怎么加密_python给文件夹加密 怎么样给python文件加密...
  10. SAP S4 HANA 银行账户管理(Bank Account Management)- S4中的变化、数据维护平台介绍和配置实操等
  11. 用计算机算e的次方,e的值(万能计算器在线使用)
  12. 【搬运】罗霸道网文写作经验分享
  13. 浅谈Java设计之——Java初始化数组(List/Map)时为何要空数组而不是null
  14. 2022年全球与中国POS终端市场现状及未来发展趋势
  15. 38亿人财富比不过最富26人 乐施会呼吁富人增税
  16. ARM Linux中断机制分析
  17. 深圳注册公司可以异地办公吗
  18. MorphSVGPlugin from GreenSock 的源码注释分析
  19. C# 进行 Starlink 仿真 万里长征走了半步 ^_^
  20. 春招从0到1offer的总结和经验分享

热门文章

  1. 项目系统涉及行政区划(区划和城乡划分代码)更新最新数据问题
  2. nginx 硬重启_nginx重启几种方法
  3. 逻辑控制电路中门的符号记录(便查)
  4. Proxifier+BurpSuite+夜神模拟器(绕过代理检测抓https)
  5. S50非接触式IC卡 学习笔记
  6. mongodb-compass下载地址
  7. 基于CycleGAN的图像风格转换
  8. tushare股票数据分析中遇到的问题
  9. 人脉社群系统源码 人脉推广裂变源码群发布源码
  10. 搭建实验室3d slam 移动小车 3.2jackal移动平台axis-ptz魚眼摄像头调试