import numpy as np
import pandas as pd
df =pd.read_csv('C:/Users/15451/双十一淘宝美妆数据.csv',sep=',')
dfdf['update_time'].uniquedf.columnsdf.isnull().sum()df.fillna(0,inplace=True)df[df.duplicated()].count()df=df.drop_duplicates()
df.reset_index(drop=True,inplace=True)
#直线索引,drop=True:把原来的索引index列去掉,丢掉
dfdf[df.duplicated()].count()df['update_time']=pd.to_datetime(df['update_time'])df.info()df['update_time']=df['update_time'].apply(lambda x:x.strftime("%Y-%m-%d"))
df['update_time']df['sale_amount']=df['price']*df['sale_count']
df[df['sale_count']>0].sort_values(by='sale_count')
#检查一下最小值,最小值最好计算sale_amount是否准确## (5)分析每日整体销售量走势并画图result1=df.groupby('update_time')['sale_count'].sum().to_dict()
result2=list(round(float(x/10e6),2) for x in result1.values())
#list(result1.keys())#import pyecharts.options as opts
#from pyecharts.charts import Line
#dayXL=(#Line()#.add_xaxis(xaxis_data=list(result1.keys()))#.add_yaxis(y_axis=list(result1.values()),series_name="销售量")#.set_global_opts(#yaxis_opts=opts.AxisOpts(#splitline_opts= opts.SplitLineOpts(#is_show=True,#),#name="销量",#),#xaxis_opts=opts.AxisOpts(#name="时间",#)#)
#)
#dayXL.render('dayXL.html')import pyecharts.options as opts
from pyecharts.charts import Line
dayXL=(Line().add_xaxis(xaxis_data=list(result1.keys())).add_yaxis(y_axis=result2,series_name="销售量(单位:千万件)",).set_global_opts(yaxis_opts=opts.AxisOpts(splitline_opts= opts.SplitLineOpts(is_show=True,),name="销量",),xaxis_opts=opts.AxisOpts(name="时间",))
)
dayXL.render('dayXL.html')## (6)按照日期统计出累计销售量排行 TOP10datetimes = list(df['update_time'].unique()) #unique()以数组的形式返回所有唯一值,并按照从小到大的顺序排列
datetimes.reverse()
datetimestemp1=df[df['update_time']<=datetimes[0]].groupby('店名').agg({'sale_count':'sum','sale_amount':'sum'})
temp2=temp1.sort_values(by='sale_count',ascending=False)[:10].sort_values(by='sale_count')
temp3=temp1.sort_values(by='sale_count',ascending=False)[:10].sort_values(by='sale_amount')
label=list(temp2.to_dict()['sale_count'].keys())
saleCount=list(temp2.to_dict()['sale_count'].values())
saleAmount=list(temp3.to_dict()['sale_amount'].values())
#saleAmount
label
#saleCountimport pyecharts.options as opts
from pyecharts.charts import Bar,Timelinetimeline=(Timeline().add_schema(is_loop_play=True, #是否循环播放play_interval=500 #播放速度)
)
for datetime in datetimes:temp1=df[df['update_time']<=datetime].groupby('店名').agg({'sale_count':'sum','sale_amount':'sum'}) #按照店名分组统计销售量销售额temp2=temp1.sort_values(by='sale_count',ascending=False)[:10].sort_values(by='sale_count') #截取销售排行TOP10的店铺并按销量从小到大排序temp3=temp1.sort_values(by='sale_count',ascending=False)[:10].sort_values(by='sale_amount') #截取销售排行TOP10的店铺并按销售额从小到大排序temp4=temp2.to_dict()['sale_count']temp5=temp3.to_dict()['sale_amount']label=list(temp2.to_dict()['sale_count'].keys()) #获取TOP10店铺名#saleCount=list(temp2.to_dict()['sale_count'].values()) #获取TOP10店铺销售量saleCount=list(round(float(x/10e5),2) for x in temp4.values())#saleAmount=list(temp3.to_dict()['sale_amount'].values()) #获取TOP10店铺销售额saleAmount=list(round(float(x/10e6),2) for x in temp5.values())bar=(Bar().add_xaxis(label).add_yaxis(series_name="销售量(单位:百万件)",y_axis=saleCount,label_opts=opts.LabelOpts(position="right")).add_yaxis(series_name="销售额(单位:千万)",y_axis=saleAmount,label_opts=opts.LabelOpts(position="right")).set_global_opts(title_opts=opts.TitleOpts(title="累计销售量排行 TOP10的店铺")).reversal_axis() #x轴和y轴转置,变成条形图)timeline.add(bar,datetime)timeline.render('timelineChart.html')## (7)按照日期统计出平均价格排行 TOP20temp1=df[df['update_time']<=datetimes[0]].groupby('店名').agg({'price':'mean','sale_amount':'mean'})
temp2=temp1.sort_values(by='price',ascending=False)[:20].sort_values(by='price')
#temp3=temp1.sort_values(by='sale_count',ascending=False)[:20].sort_values(by='sale_amount')
label=list(temp2.to_dict()['price'].keys())
salePrice=list(round(float(x),2) for x in temp2.to_dict()['price'].values())
salePriceimport pyecharts.options as opts
from pyecharts.charts import Bar,Timelinetimeline=(Timeline().add_schema(is_loop_play=True, #是否循环播放play_interval=500 #播放速度)
)
for datetime in datetimes:temp1=df[df['update_time']<=datetime].groupby('店名').agg({'price':'mean','sale_amount':'mean'})temp2=temp1.sort_values(by='price',ascending=False)[:20].sort_values(by='price')#temp3=temp1.sort_values(by='sale_count',ascending=False)[:20].sort_values(by='sale_amount')label=list(temp2.to_dict()['price'].keys())salePrice=list(round(float(x),2) for x in temp2.to_dict()['price'].values())bar=(Bar().add_xaxis(label).add_yaxis(series_name="平均价格(元/件)",y_axis=salePrice,label_opts=opts.LabelOpts(position="right")).set_global_opts(title_opts=opts.TitleOpts(title="累计平均价格排行TOP20的店铺")).reversal_axis())timeline.add(bar,datetime)timeline.render('pricelineChart.html')

双十一淘宝美妆数据分析相关推荐

  1. 数据分析:关于双十一淘宝美妆品牌促销的数据分析报告

    关于双十一淘宝美妆品牌促销的数据分析报告 1.数据介绍 2.数据思维 2.1 按业务逻辑分类 2.1.1 计算各品牌参与活动的商品 2.2 各品牌打折力度计算 3.报告展示 1.数据介绍 字段 描述 ...

  2. 电商双11美妆数据分析

    电商双11美妆数据分析 1.数据初步了解 import numpy as np import pandas as pd df = pd.read_csv('双十一淘宝美妆数据.csv') df.hea ...

  3. python数据清洗--对双十一淘宝直播流量数据进行数据真实性验证

    数据集: 某年双十一淘宝直播数据,共有6张表,如下: 每日场均每小时流量趋势对比.xlsx 每日总流量趋势(近30天).xlsx 行业流量趋势(近30天).xlsx 总流量排行(近30天).xlsx ...

  4. Part8:淘宝天猫母婴产品数据分析

    Part8:淘宝天猫母婴产品数据分析 注明:此文章已在知乎发布,更多系列文章可以移步知乎搜索"Bella-贝拉" 1 分析背景 1.1PEST分析法 政治: 2018年,中国网上零 ...

  5. mysql 时间段内的周末_淘宝用户行为数据分析(MySQL)

    利用MySQL对淘宝用户行为数据进行分析.分析步骤如下: 1 提出问题 2 理解数据 3 数据清洗 4 构建模型 5 结论 6 建议 淘宝是目前国内最大的电商平台,人们网购的主要渠道之一.买家通过搜索 ...

  6. 天池-淘宝用户行为数据分析(python+Tableau)

    天池-淘宝用户行为数据分析(python+Tableau) 一.背景 ​ 用户行为分析可以让产品更加详细.清楚地了解用户的行为习惯,从而找出网站.app.推广渠道等产品存在的问题,有助于产品发掘高转化 ...

  7. 淘宝电商数据分析-Tableau

    基于上篇文章淘宝电商数据分析-Python做的可视化. 1.分析的目标 1.1每天的PV 1.2每天的UV 1.3每小时的PV 1.4每小时的UV 1.5用户行为转化率和转化漏斗 1.6销售量前10的 ...

  8. 【增加苏宁】2020双十一淘宝领喵币+京东全名营业+支付宝+苏宁の自动化任务

    2020双十一淘宝领喵币+京东全名营业+支付宝+苏宁の自动化任务 淘宝+京东+支付宝+苏宁 不墨迹,直接放链接: 待更新 CSDN快捷下载 百度网盘 提取码:5g9q 蓝奏网盘 增加功能 在原项目上增 ...

  9. [Python]调用adb抢双十一淘宝喵币

    原创文章,欢迎转载.转载请注明:转载自 祥的博客 原文链接:https://blog.csdn.net/humanking7/article/details/102800059 文章目录 @[toc] ...

最新文章

  1. 面试官问为什么新生代不用标记清除算法
  2. 网络拓扑手工绘制不可或缺
  3. python教学视频下载-Python机器学习入门教程全套视频下载【传智播客】
  4. java要从数据查出五百多万条数据_100w条数据 | 插入Mysql你要用多长时间?
  5. 深度剖析Service Mesh服务网格新生代Istio
  6. 如何设置鼠标滚轮html,win7如何设置鼠标滚轮
  7. shp设置utf8格式_shapefile与字符集编码设置
  8. python中serial模块的使用_python中pyserial模块使用方法
  9. Julia: 关于下载库时WinRPM的Bug
  10. redis数据库的简单使用
  11. 基于SOM算法的Iris数据分类
  12. DHT11温湿度的电路连接和驱动(树莓派)
  13. 计算机主机运行显示器没反应,启动电脑显示器没反应 启动电脑显示器没反应是什么原因...
  14. 关于 Private strand flush not complete
  15. sqlserver获取周数
  16. yii2 aliases web.php,Yii2的深入学习--别名(Aliases),yii2aliases
  17. 如何将一个压缩包在不解压的情况下,进行分卷
  18. 拒绝做工具小子—编写Python漏洞验证脚本
  19. 【日拱一卒】如何编写测试用例(上)
  20. 简单病毒制作bat后缀

热门文章

  1. 线性SVM与非线性SVM
  2. 双音多频 DTMF原理
  3. 史上最全软件测试工程师常见的面试题总结【杭州多测师】【面试题】【杭州多测师_王sir】...
  4. 人脸识别基础-灰度转换与修改图片尺寸
  5. 冒泡排序 ← C语言实现
  6. c语言程序24转换12时间,C语言将24小时制转换为12小时制的方法
  7. 什么是PHP正则表达式?PHP正则表达式的使用方法(附代码)
  8. 使用SqlConnection.connectionString连接数据库
  9. Matlab 实现图像的直角坐标系和极坐标系的相互转化
  10. STM32实现低功耗待机总结(电流低至5.7uA)