import pandas as pd #导入pandas

import matplotlib.pyplot as plt #导入matplotlib

from pylab import *

mpl.rcParams['font.sans-serif'] = ['SimHei']

mpl.rcParams['axes.unicode_minus'] = False

%matplotlib inline

数据读取与索引

bra = pd.read_csv('data/bra.csv')

bra.head()

选取列

bra.content

bra[['creationTime','productColor']].head()

选择行

bra[1:6]

选择行和列

bra.ix[[2,3],[1,3]] #使用ix

bra.ix[1:5,['productColor']]

bra.iloc[[2,3],[1,3]] #使用iloc

bra.loc[1:5,['content','creationTime','productSize']] #使用loc

bra.loc[1:5,'content':'userClientShow']

数据预处理

缺失值

bra.describe() #查看数据的分布情况,可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数等相关信息

bra['userClientShow'].unique() #userClientShow列有几种选项

bra['userClientShow'].isnull().sum() #初始缺失值数量

bra['userClientShow'].fillna('不详',inplace=True) #缺失值替换为“不详”

bra['userClientShow'].isnull().sum() #赋值后的缺失值数量

新增列

bra.dtypes #查看属性

bra['creationTime'] = pd.to_datetime(bra['creationTime']) #更新类型

bra.dtypes

bra['hour'] = [i.hour for i in bra['creationTime']] #新建hour列

bra

字符串操作

bra.productSize.unique() #查看productSize的唯一值

cup = bra.productSize.str.findall('[a-zA-Z]+').str[0] #新增列cup

cup2 = cup.str.replace('M','B')

cup3 = cup2.str.replace('L','C')

cup4 = cup3.str.replace('XC','D')

bra['cup'] = cup4

bra.head()

bra['cup'].unique() #查看cup唯一值

数据转换

bra.productColor.unique() #查看productColor唯一值

def getColor(s):

if '黑' in s:

return '黑色'

elif '肤' in s:

return '肤色'

elif '蓝' in s:

return '蓝色'

elif '红' in s:

return '红色'

elif '紫' in s:

return '紫色'

elif '白' in s:

return '白色'

elif '粉' in s:

return '粉色'

elif '灰' in s:

return '灰色'

elif '绿' in s:

return '绿色'

elif '青' in s:

return '青色'

else:

return s

bra['color'] = bra['productColor'].map(getColor) #从productColor列查询,赋值到定义的函数getColor,最终新增列color

bra

bra.color.unique() #查询color的唯一值

数据可视化

x = [1991,1992,1993,1994,1995,1996,1997]

y = [23,56,38,29,34,56,92]

plt.plot(x,y) #调用函数plot

plt.figure(figsize=(8,6),dpi=80) #调用函数firgure

plt.plot(x,y)

hour = bra.groupby('hour')['hour'].count() #hour列排序

hour

plt.xlim(0,25) #横轴0~25

plt.plot(hour,linestyle='solid',color='royalblue',marker='8') #颜色深蓝

cup_style = bra.groupby('cup')['cup'].count() #cup列唯一值得数量

cup_style

plt.figure(figsize=(8,6),dpi=80)

labels = list(cup_style.index)

plt.xlabel('cup') #x轴为cup

plt.ylabel('count') #y轴为count数量

plt.bar(range(len(labels)),cup_style,color='royalblue',alpha=0.7) #alpha为透明度

plt.xticks(range(len(labels)),labels,fontsize=12)

plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='y',alpha=0.6)

plt.legend(['user-count'])

for x,y in zip(range(len(labels)),cup_style):

plt.text(x,y,y,ha='center',va='bottom')

color_style = bra.groupby('color')['color'].count() #color列唯一值得数量

color_style

plt.figure(figsize=(8,6),dpi=80)

plt.subplot(facecolor='gainsboro',alpha=0.2)

colors = ['brown','orange','gray','white','pink','purple','red','green','wheat','blue','gold','springgreen','black'] #颜色种类

labels = list(color_style.index)

plt.xlabel('count') #x轴为count数量

plt.ylabel('color') #y轴为color

plt.title('Color Distribution') #定义标题

plt.barh(range(len(labels)),color_style,color=colors,alpha=1)

plt.yticks(range(len(labels)),labels,fontsize=12)

plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='x',alpha=0.4)

bra.head(30)

知识在于点滴积累

python数据处理实例-Python数据分析实例操作相关推荐

  1. python数据处理实例-Python数据处理numpy.median的实例讲解

    numpy模块下的median作用为: 计算沿指定轴的中位数 返回数组元素的中位数 其函数接口为: median(a, axis=None, out=None, overwrite_input=Fal ...

  2. python大数据分析实例-用Python整合的大数据分析实例

    用Python进行数据分析的好处是,它的数据分析库目前已经很全面了,有NumPy.pandas.SciPy.scikit-learn.StatsModels,还有深度学习.神经网络的各类包.基本上能满 ...

  3. python人口统计_python数据分析实例-人口统计折线图

    一.前言 最近一直在学python数据科学的相关课程,主要看了<数据科学入门>这本动物书,但这本书是真的只入个门,把数据科学相关的各方面知识介绍了一下,真的只是介绍了一下,想要系统地学习还 ...

  4. python预测药_Python数据分析实例-药品销售分析

    学习了Python的各种基础语法和常用包后,你是否对如何使用Python在实际工作中进行数据分析一头雾水?如果是,今天这篇文章一定能带给你一些用数据分析解决实际问题的思路. 数据分析的目的决定了你的分 ...

  5. python药学应用_Python数据分析实例一:医院药品销售数据

    前面已经分享过python的基础语法,以及数据分析领域最常用的两个包:Numpy和Pandas(戳下面的链接),下面将用一个实际案例:<朝阳医院2018年销售数据.xlsx>和大家分享一下 ...

  6. Python对股票模型数据分析实例

    一.交易准则 在开始之前,我们应该了解最基础的交易系统是什么样,明白自己的交易准则是什么,确定一个自己的交易依据.比如以下六个方面: 1)市场----买卖什么 2)头寸规模----买卖多少 3)入市- ...

  7. python和stata哪个数据分析实例,STATA数据分析案例:Zoutendijk可行方向法

    适用于线性约束和非线性不等式约束的非线性规划的两种算法. 1. 线性约束的情形: minf(X) 满足 其中A和E分别是m×n和l×n阶矩阵,b和e分别是m和l维列向量.Zoutendijk可行方向法 ...

  8. python列表姓氏_python数据分析实例(六) 中国姓氏数据

    bokeh联动柱状图,Excel空间柱状图.空间热力图,Echarts空间柱状图,常用函数: df['工作地_省'] = df['工作地'].str.split('省').str[0] df['工作地 ...

  9. python数据分析实例_python数据分析实例3-商铺数据加载及存储

    商铺数据加载及存储 在data文件夹存放有商铺数据.csv文件,路径:path = '../data/商铺数据.csv' 要求: 1.成功读取"商铺数据.csv"文件,并展示打印出 ...

  10. Python数据处理040:数据分析之Excel文件

    本文将会讲解Pandas对excel文件的处理; 讲解内容如下: Python数据分析之Excel文件 1.Pandas安装 2.文件的读取及其写入 3.数据的操作 4.数据的筛选 5.数据的删除 思 ...

最新文章

  1. 2022-2028年中国高粘保护膜行业市场专项调研及发展趋势分析报告
  2. Leetcode 53 最大子串和
  3. 执行全文索引时出现权限不足的解决方法
  4. RabbitMQ简单介绍+Windows环境安装
  5. 简练软考知识点整理-估算成本过程
  6. javafx8配置参数列表
  7. win10获取管理员权限方法
  8. python3 输出内容格式化
  9. 电子工业版了解计算机教案,三年级上册信息技术教案-4.1计算机中的文件和文件夹|电子工业版(宁夏)...
  10. cesium--3d-tiles译文[官方]
  11. 设置内外网同时使用,重新配置路由
  12. kali linux wine乱码,Kali安装Wine
  13. java中如何配置前端项目,将后端或前端项目部署到云服务器上
  14. 加速ubuntu开机速度
  15. AMD64(x86_64)架构abi文档:上
  16. 微信公众号模板消息推送问题汇总
  17. 作业一:数据软件系统的介绍及spss的操作简介
  18. Android 模块 -- 基于XMPP协议的手机多方多端即时通讯方案
  19. Java基础知识总结1(数据类型)
  20. Strippednot stripped

热门文章

  1. 升级php7_PHP5.9 升级到PHP7 遇到的一些坑(phpfpm 图解)
  2. 钉钉获取免登授权码 php_php代码如何加域名授权?开源php项目如何保护版权 商业授权?...
  3. (传送门)Ubuntu 常用软件安装
  4. OpenTSDB介绍——基于Hbase的分布式的,可伸缩的时间序列数据库,而Hbase本质是列存储...
  5. 关于Eclispse连接Mysql的Jdbc
  6. mysql检查备份数据脚本并在zabbix上告警
  7. MySQL Transaction--快照读和当前读
  8. 7.11.4 第一个程序 设置环境变量
  9. Linux 集群时钟同步
  10. PHP AJAX JSONP实现跨域请求使用实例