目录

数据集来源

准备工作

查看数据

1.查看行列数量

2.查看字段

3.重新命名

4.查看缺失值

运行结果

5.用0进行缺失值填充

6.每个字段取值情况

整体代码


数据集来源

黑色星期五数据集 - 飞桨AI Studio (baidu.com)

本人将数据集train.csv更名为BlackFriday.csv

准备工作

导入数据集与库

# 整体数据概览
"""
数据量、字段、缺失情况、数据取值情况等等
"""
import pandas as pd
# 导入数据
bf_df = pd.read_csv("data/BlackFriday.csv")

查看数据

1.查看行列数量

# 查看数据行列
print(bf_df.shape)  #(550068, 12)

2.查看字段

# 产查看字段
print(bf_df.columns)  # 列名
print(bf_df.head(2))  # 对应前两行

3.重新命名

# rename
bf_df.columns = ["顾客ID", "商品ID", "性别", "年龄", "职业", "城市类别", "居住时间", "婚姻状况", "商品类别1", "商品类别2", "商品类别3", "购买金额"]
print(bf_df.head())
print(len(bf_df.columns))

4.查看缺失值

# 查看缺失值
print(bf_df.info())

运行结果

可以看到样本总量为550068,count表示记录了未缺失的,然而在商品类别2、商品类别3中数据总量仅为376430与166821,有数据缺失,因此下面我用0对缺失数据进行填充

5.用0进行缺失值填充

# 用0进行缺失值填充
bf_df=bf_df.fillna(0)
print(bf_df.info())

可以看到填充过后商品数量是齐全的

6.每个字段取值情况

# 每个字段的取值情况
# 离散型['F' 'M']
gender = bf_df["性别"].unique()  # unqiue()去重。
print(gender)age = bf_df["年龄"].unique()
occupation = bf_df["职业"].unique()
city = bf_df["城市类别"].unique()
stay_year = bf_df["居住时间"].unique()
marry_status = bf_df["婚姻状况"].unique()
cate_1 = bf_df["商品类别1"].unique()
print("年龄:", age)
print("职业:", occupation)
print("城市类别:", city)
print("居住时间:", stay_year)
print("婚姻状况:", marry_status)
print("商品类别1:", cate_1)

整体代码

# 整体数据概览
"""
数据量、字段、缺失情况、数据取值情况等等
"""
import pandas as pd
# 导入数据
bf_df = pd.read_csv("data/BlackFriday.csv")# 查看数据行列
# print(bf_df.shape)  #(550068, 12)# 产查看字段
# print(bf_df.columns)  # 列名
# print(bf_df.head(2))  # 对应前两行# rename
bf_df.columns = ["顾客ID", "商品ID", "性别", "年龄", "职业", "城市类别", "居住时间", "婚姻状况", "商品类别1", "商品类别2", "商品类别3", "购买金额"]
# print(bf_df.head())
# print(len(bf_df.columns))# 查看缺失值
# print(bf_df.info())# 用0进行缺失值填充
# bf_df=bf_df.fillna(0)
# print(bf_df.info())# 每个字段的取值情况
# 离散型['F' 'M']
gender = bf_df["性别"].unique()  # unqiue()去重。
# print(gender)
age = bf_df["年龄"].unique()
occupation = bf_df["职业"].unique()
city = bf_df["城市类别"].unique()
stay_year = bf_df["居住时间"].unique()
marry_status = bf_df["婚姻状况"].unique()
cate_1 = bf_df["商品类别1"].unique()
print("年龄:", age)
print("职业:", occupation)
print("城市类别:", city)
print("居住时间:", stay_year)
print("婚姻状况:", marry_status)
print("商品类别1:", cate_1)

【数据分析】黑色星期五(代码1)销售额分析1相关推荐

  1. 淘宝(tmall)店铺旗舰店商品数据分析接口代码教程

    淘宝(tmall)店铺旗舰店商品数据分析接口代码教程如下: 1.公共参数 名称 类型 必须 描述(接口支持高并发) key String 是 调用key(必须以GET方式拼接在URL中,点击获取请求k ...

  2. 《Spark商业案例与性能调优实战100课》第17课:商业案例之NBA篮球运动员大数据分析系统代码实战

    <<<Spark商业案例与性能调优实战100课>第17课:商业案例之NBA篮球运动员大数据分析系统代码实战

  3. python电影数据分析的代码_python-small-examples

    Kaggle电影数据分析实战 本项目基于Kaggle电影影评数据集,通过这个系列,你将学到如何进行数据探索性分析(EDA),学会使用数据分析利器pandas,会用绘图包pyecharts,以及EDA时 ...

  4. 高级数据分析1代码_用Python进行数据分析,让你一看就会

    本书详细介绍利用Python进行操作.处理.清洗和规整数据等方面的具体细节和基本要点.虽然本书的标题是"数据分析",重点却是Python编程.库,以及用于数据分析的工具. 第1章 ...

  5. 基于DFA方法的健康人与癫痫病人EEG数据分析附代码

    引言 DFA分析方法是由C.-K提出的一种研究时间序列波动长时相关性的方法.主要用来区别复杂系统本身产生的波动和由外界及环境刺激作用在系统上产生的波动.外部刺激产生的变化假设引起了局部效应,而系统本身 ...

  6. 数据分析实习代码总结【进阶】Python

    1.批量合并表格 import pandas as pd import numpy as np file_name0 =[r'信息明细表-2021-1.csv',r'信息明细表-2021-2.csv' ...

  7. c语言黑色星期五代码解析,C语言判断黑色星期五

    注释:在西方,星期五和数字13都代表着坏运气,两个不幸的个体最后结合成超级不幸的一天.所以,不管哪个月的十三日又恰逢星期五就叫"黑色星期五" #include #include # ...

  8. c语言黑色星期五 代码,C语言 黑色星期五的问题

    满意答案 zmaz2388 2013.04.21 采纳率:45%    等级:12 已帮助:5869人 你的算法太乱了给你简单的自己研究吧: #include "stdio.h" ...

  9. python黑色星期五_Python数据分析:亚马逊黑色星期五

    数据源:https://www.kaggle.com/mehdidag/black-friday​www.kaggle.com import numpy as np import pandas as ...

  10. python代码电影人物关系_以腾讯5000部电影为例,告诉你Python数据分析该怎么做...

    上一篇文章(Python爬虫帮助解决挑选电影费时费力的烦恼),我们对腾讯视频中的电影按照"豆瓣好评"的方式进行了数据爬虫,获取了大约5000部电影的详情数据,解决了选择电影时比较浪 ...

最新文章

  1. Android开发之动态库调用
  2. ASP.NET 2.0 - 如何把上传的文件保存到数据库字段 (转自章立民CnBlogs)
  3. 小心使用innerHTML
  4. 解决Ubuntu18无法连接Airpods、蓝牙耳机的问题
  5. 云开发之模糊搜索的三种方式
  6. c语言代码后return0表示什么意思,return 0是什么意思 ?
  7. 计算机打字训练教学教案,打字练习小游戏教案.doc
  8. 08 python 集合
  9. 订单BOM、销售BOM、标准BOM
  10. 身价过亿的妖媚子对小码农说串口能传送我的爱吗?
  11. Python爬取微信公众号文章、点赞数
  12. Linux 内核软死锁(soft lockup)记录
  13. 记录kettle spoon.bat 无法启动 (系统找不到指定的路径。) 只有无限接近死亡 才能领悟真滴
  14. 移动端H5页面自适应手机屏幕宽度
  15. select vdisk file=“E:\VHD\Installer.vhd”
  16. loki使用超详细说明
  17. BootStrap框架的优缺点
  18. 详解SQL的四种连接-左外连接、右外连接、内连接、全连接
  19. adobe全家桶摄影计划
  20. snprintf用法

热门文章

  1. 从战略、管理、业务、产品这4个维度,思考从0到1的产品设计
  2. Microsurvey
  3. Planner 5D 4.1.11 特别版 Mac 家居室内设计软件
  4. 马拉车(manacher)
  5. 计算机aero背景黑,电脑背景设置为1.43gb的大图片 电脑崩溃 只能开机 怎么办?...
  6. C# Subject System.Reactive.Subjects 及节流阀实现
  7. JS函数封装三个例子
  8. 趋势:Staking 即服务!
  9. Python使用Treeview制作表格
  10. from models import * 报错,找不到models的解决办法