序言

接触数据分析领域也已经大半年了,从刚开始的机器学习,到最近的业务学习,自己对这行的理解也是越来越深刻,也深谙自己还有很长的路需要走,对于能点进来的您,说一声“谢谢”!

按照数据分析的流程,如下图

由于自己对于爬虫这块还没有彻底掌握,于是这份数据来自于天池。kaggle从18年底到19年初,自己就没登上去过
(o(╥﹏╥)o)。这份文件包含两个列表,关于婴儿信息与购买记录,记录不超过十万行,于是选用Excel进行处理与可视化,下面是流程与细节。

一 数据产品的认识
选用天池数据,进行数据分析。由于kaggle最近持续登录不了,选用阿里天池数据集。阿里巴巴的数据相对来说更为复杂,数据字段信息较为简单,也是选用阿里巴巴的数据集作为分析案例的主要原因。初步看来,所有的电商数据集都会有用户,商品,以及时间字段,而不同的字段进行组合出来的新字段可以带来其他有用信息的呈现。

数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

数据集含两个列表:

二 数据集的熟悉
数据集是关于婴儿商品,包含有以下的数据字段:

商品表格字段:

user_id:用户身份信息

auction_id:购买行为编号

cat_id:商品种类序列号

cat:商品序列号

property:商品属性

buy_mount:购买数量

day:购买时间

婴儿信息表格字段:

birthday:出生日期

gender:性别(0 male;1 female)

三 想从该数据集中得到到哪些描述统计信息?
商品销售总数量;单月销售数量,周一至周天平均销售数量;月销售量的波动性。

四 想从该数据集中分析哪几个业务问题?
1,分析商品销量的走势,预测下年销量

2,商品购买用户的年龄分布,找出商品受众最普遍年龄

五 数据清洗
源数据由于是较为规范的数据,所以不涉及到列的重命名或补齐缺失的单元,也不需要对数据进行分列的一致化操作(涉及到的定位与查找函数find len mid left需要找机会复习)

排序:通过对8位数字的时间进行分列后的时间格式的转换,变成可被系统识别的时间格式



生成新的统计列:通过宝宝的出生时间计算出新的统计列–年龄

跨表查询:对有用户信息的购买者,在商品销售表格中查找,并筛选。

通过vlookup函数,对比ID,查找出年龄,使用相对定位。

六 数据分析结果
按年销售的统计数据:


统计信息:

由于年的统计量不够大,无法观察出商品销售趋势,选择统计月份,有比较好的信息量

用户年龄分布:

购买群体的年龄分布

商品销售量和用户年龄以及时间的分布:

综合统计信息,预测商品主流用户,制定销售方案

经过以上信息的分析,可以观察出,商品销量是一个按月增长的过程,市场前景不错,商品针对用户群体是4~6岁。由于为能将透视表的列进行合并相加,数据结果不够直观。

生成的数据列,用户年龄是目前的年龄,而非购买时,用户的年龄,所以统计结果会有较大的出入,由于未有商品销售日期,所以用户的出生日期意义未能得到体现,也不便于生成商业报告。可见,原始数据的采集也是数据分析非常重要的一步。过程是方法论的一次实践,主要理清分析思路。

七 总结知识点
通过一个简单的数据集分析,主要目的是熟悉数据清洗的流程:

1 选择子集

2 列的重命名

3 删除重复值

4 缺失值处理

5 一致化处理

6 数据排序

7 异常值处理

熟悉常用函数:if len find mid left vlookup

建立透视表,生成内置的可视化数据图,生成统计信息。

电商产品数据集之分析相关推荐

  1. 手把手教你用 SQL 实现电商产品用户分析

    作者介绍 @吃饭第一名的 Claire 美国德克萨斯大学奥斯汀分校商学院硕士: 美国某物流公司数据分析师: 负责数据收集.清理.分析.建模.可视化等: 美剧重度爱好者,坚信美食能解决大部分问题的终极吃 ...

  2. 毕业设计之 - 大数据分析:电商产品评论数据情感分析

    文章目录 1 简介 数据分析目的 数据预处理 评论去重 数据清洗 分词.词性标注.去除停用词 提取含名词的评论 绘制词云¶ 词典匹配 评论数据情感倾向分析 修正情感倾向 LinearSVC模型预测情感 ...

  3. 【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析

    说明:这是一个机器学习.数据挖掘实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 视频: Python实现基于LDA模型进行电商产品评论数据情感分析 ...

  4. 竞品分析实战系列之如何对电商产品条目进行合理设计?

    在进行网上购物的时候,不同的电商平台有不同的产品信息排版方式,也称之为产品条目设计.本文选取了几个竞品,进行电商产品条目设计的竞品分析,希望对你有帮助. 一.准备工作 在开始竞品分析之前,首先要做一些 ...

  5. 数据挖掘实战—电商产品评论数据情感分析

    文章目录 引言 一.评论预处理 1.评论去重 2.数据清洗 二.评论分词 1.分词.词性标注.去除停用词 2.提取含名词的评论 3.绘制词云查看分词效果 三.构建模型 1.评论数据情感倾向分析 1.1 ...

  6. 基于电商产品评论数据情感分析

    #!/usr/bin/env python # coding: utf-8# # -- 基于电商产品评论数据情感分析 --# ### 1.案例简介 # # 1.利用文本挖掘技术,对碎片化.非结构化的电 ...

  7. 数据分析与挖掘实战-电商产品评论数据情感分析

    电商产品评论数据情感分析 背景 随着网上购物越来越流行,人们对于网上购物的需求越来越高,这让京东.淘宝等电商平台得到了很大的发展机遇.但是,这种需求也推动了更多的电商平台的崛起,引发了激烈的竞争.在这 ...

  8. 数据挖掘作业学习学习笔记-电商产品评论数据情感分析

    使用的教材:<电商产品评论数据情感分析> 作业&学习笔记:数据挖掘第14周 说明:书本内容详实.此篇用于自己期末回顾知识的重点内容,故做出的学习笔记缺省了书本原本的其他精粹. 随着 ...

  9. 《Python数据分析与挖掘实战》第15章 ——电商产品评论数据情感分析(LED)

    文章目录 1.挖掘背景与目标 2.2 数据探索与预处理 2.1 数据筛选 2.2 数据去重 2.3 删除前缀评分 2.4 jieba分词 3 基于LDA 模型的主题分析 4.权重 5.如何在主题空间比 ...

最新文章

  1. 新手入门API测试必要了解的知识
  2. JavaScript中的加法运算
  3. 第一次spring,第三天。
  4. Linux服务器同步时间
  5. 编写声卡驱动(框架)
  6. 在 Go 语言中增强 Cookie 的安全性
  7. 雷军立 Flag:小米 5 年 100 亿 All in AIoT
  8. 三自由度机械臂的三维设计
  9. oracle裁员原因_导致Oracle全球性裁员的原因有哪些?
  10. NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
  11. STM32 部分重映射和完全重映射
  12. ffmpeg连接rtsp流提示Connection refused
  13. 无感FOC算法中解决单电阻采样重构三相电流的难题
  14. OpenSUSE安装配置TeXLive2015.iso、前端软件Kile、Lyx、TeXstudio及TeX的更新管理界面的使用
  15. 简易xp画图板程序流程
  16. 一个球从100米高度自由下落,每次落地后反跳回原来的高度的一半,再落下;
  17. 使用visjs制作网络拓扑图
  18. 微信小程序,横向布局,纵向布局
  19. 让机器听声音识别男女(机器学习的方法)
  20. 一个二维表查询的实现

热门文章

  1. 无法安全地连接到此页面 这可能是因为该站点使用过期的或不安全的 TLS 安全设置
  2. 从一道笔试题谈算法优化(上)
  3. 我用 Python 抓取《大秦赋》“相关数据”,发现了这些秘密......
  4. matlab误差分析报告,误差理论与数据处理实验报告
  5. 利用huggingface进行文本分类
  6. vue离开当前路由销毁当前路由_VUE 离开页面路由拦截
  7. 待办事项下拉html代码,HTML5 + jQuery 实现日历待办事项demo
  8. 深度解读后疫情时代下,零售行业的趋势及技术前瞻
  9. [Android] 开心消消乐代码(写的比较简单)
  10. Android : Gesture Builder:自定义手势文件