python数据处理实例-Python数据分析实例操作
import pandas as pd #导入pandas
import matplotlib.pyplot as plt #导入matplotlib
from pylab import *
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False
%matplotlib inline
数据读取与索引
bra = pd.read_csv('data/bra.csv')
bra.head()
选取列
bra.content
bra[['creationTime','productColor']].head()
选择行
bra[1:6]
选择行和列
bra.ix[[2,3],[1,3]] #使用ix
bra.ix[1:5,['productColor']]
bra.iloc[[2,3],[1,3]] #使用iloc
bra.loc[1:5,['content','creationTime','productSize']] #使用loc
bra.loc[1:5,'content':'userClientShow']
数据预处理
缺失值
bra.describe() #查看数据的分布情况,可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数等相关信息
bra['userClientShow'].unique() #userClientShow列有几种选项
bra['userClientShow'].isnull().sum() #初始缺失值数量
bra['userClientShow'].fillna('不详',inplace=True) #缺失值替换为“不详”
bra['userClientShow'].isnull().sum() #赋值后的缺失值数量
新增列
bra.dtypes #查看属性
bra['creationTime'] = pd.to_datetime(bra['creationTime']) #更新类型
bra.dtypes
bra['hour'] = [i.hour for i in bra['creationTime']] #新建hour列
bra
字符串操作
bra.productSize.unique() #查看productSize的唯一值
cup = bra.productSize.str.findall('[a-zA-Z]+').str[0] #新增列cup
cup2 = cup.str.replace('M','B')
cup3 = cup2.str.replace('L','C')
cup4 = cup3.str.replace('XC','D')
bra['cup'] = cup4
bra.head()
bra['cup'].unique() #查看cup唯一值
数据转换
bra.productColor.unique() #查看productColor唯一值
def getColor(s):
if '黑' in s:
return '黑色'
elif '肤' in s:
return '肤色'
elif '蓝' in s:
return '蓝色'
elif '红' in s:
return '红色'
elif '紫' in s:
return '紫色'
elif '白' in s:
return '白色'
elif '粉' in s:
return '粉色'
elif '灰' in s:
return '灰色'
elif '绿' in s:
return '绿色'
elif '青' in s:
return '青色'
else:
return s
bra['color'] = bra['productColor'].map(getColor) #从productColor列查询,赋值到定义的函数getColor,最终新增列color
bra
bra.color.unique() #查询color的唯一值
数据可视化
x = [1991,1992,1993,1994,1995,1996,1997]
y = [23,56,38,29,34,56,92]
plt.plot(x,y) #调用函数plot
plt.figure(figsize=(8,6),dpi=80) #调用函数firgure
plt.plot(x,y)
hour = bra.groupby('hour')['hour'].count() #hour列排序
hour
plt.xlim(0,25) #横轴0~25
plt.plot(hour,linestyle='solid',color='royalblue',marker='8') #颜色深蓝
cup_style = bra.groupby('cup')['cup'].count() #cup列唯一值得数量
cup_style
plt.figure(figsize=(8,6),dpi=80)
labels = list(cup_style.index)
plt.xlabel('cup') #x轴为cup
plt.ylabel('count') #y轴为count数量
plt.bar(range(len(labels)),cup_style,color='royalblue',alpha=0.7) #alpha为透明度
plt.xticks(range(len(labels)),labels,fontsize=12)
plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='y',alpha=0.6)
plt.legend(['user-count'])
for x,y in zip(range(len(labels)),cup_style):
plt.text(x,y,y,ha='center',va='bottom')
color_style = bra.groupby('color')['color'].count() #color列唯一值得数量
color_style
plt.figure(figsize=(8,6),dpi=80)
plt.subplot(facecolor='gainsboro',alpha=0.2)
colors = ['brown','orange','gray','white','pink','purple','red','green','wheat','blue','gold','springgreen','black'] #颜色种类
labels = list(color_style.index)
plt.xlabel('count') #x轴为count数量
plt.ylabel('color') #y轴为color
plt.title('Color Distribution') #定义标题
plt.barh(range(len(labels)),color_style,color=colors,alpha=1)
plt.yticks(range(len(labels)),labels,fontsize=12)
plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='x',alpha=0.4)
bra.head(30)
知识在于点滴积累
python数据处理实例-Python数据分析实例操作相关推荐
- python数据处理实例-Python数据处理numpy.median的实例讲解
numpy模块下的median作用为: 计算沿指定轴的中位数 返回数组元素的中位数 其函数接口为: median(a, axis=None, out=None, overwrite_input=Fal ...
- python大数据分析实例-用Python整合的大数据分析实例
用Python进行数据分析的好处是,它的数据分析库目前已经很全面了,有NumPy.pandas.SciPy.scikit-learn.StatsModels,还有深度学习.神经网络的各类包.基本上能满 ...
- python人口统计_python数据分析实例-人口统计折线图
一.前言 最近一直在学python数据科学的相关课程,主要看了<数据科学入门>这本动物书,但这本书是真的只入个门,把数据科学相关的各方面知识介绍了一下,真的只是介绍了一下,想要系统地学习还 ...
- python预测药_Python数据分析实例-药品销售分析
学习了Python的各种基础语法和常用包后,你是否对如何使用Python在实际工作中进行数据分析一头雾水?如果是,今天这篇文章一定能带给你一些用数据分析解决实际问题的思路. 数据分析的目的决定了你的分 ...
- python药学应用_Python数据分析实例一:医院药品销售数据
前面已经分享过python的基础语法,以及数据分析领域最常用的两个包:Numpy和Pandas(戳下面的链接),下面将用一个实际案例:<朝阳医院2018年销售数据.xlsx>和大家分享一下 ...
- Python对股票模型数据分析实例
一.交易准则 在开始之前,我们应该了解最基础的交易系统是什么样,明白自己的交易准则是什么,确定一个自己的交易依据.比如以下六个方面: 1)市场----买卖什么 2)头寸规模----买卖多少 3)入市- ...
- python和stata哪个数据分析实例,STATA数据分析案例:Zoutendijk可行方向法
适用于线性约束和非线性不等式约束的非线性规划的两种算法. 1. 线性约束的情形: minf(X) 满足 其中A和E分别是m×n和l×n阶矩阵,b和e分别是m和l维列向量.Zoutendijk可行方向法 ...
- python列表姓氏_python数据分析实例(六) 中国姓氏数据
bokeh联动柱状图,Excel空间柱状图.空间热力图,Echarts空间柱状图,常用函数: df['工作地_省'] = df['工作地'].str.split('省').str[0] df['工作地 ...
- python数据分析实例_python数据分析实例3-商铺数据加载及存储
商铺数据加载及存储 在data文件夹存放有商铺数据.csv文件,路径:path = '../data/商铺数据.csv' 要求: 1.成功读取"商铺数据.csv"文件,并展示打印出 ...
- Python数据处理040:数据分析之Excel文件
本文将会讲解Pandas对excel文件的处理; 讲解内容如下: Python数据分析之Excel文件 1.Pandas安装 2.文件的读取及其写入 3.数据的操作 4.数据的筛选 5.数据的删除 思 ...
最新文章
- 2022-2028年中国高粘保护膜行业市场专项调研及发展趋势分析报告
- Leetcode 53 最大子串和
- 执行全文索引时出现权限不足的解决方法
- RabbitMQ简单介绍+Windows环境安装
- 简练软考知识点整理-估算成本过程
- javafx8配置参数列表
- win10获取管理员权限方法
- python3 输出内容格式化
- 电子工业版了解计算机教案,三年级上册信息技术教案-4.1计算机中的文件和文件夹|电子工业版(宁夏)...
- cesium--3d-tiles译文[官方]
- 设置内外网同时使用,重新配置路由
- kali linux wine乱码,Kali安装Wine
- java中如何配置前端项目,将后端或前端项目部署到云服务器上
- 加速ubuntu开机速度
- AMD64(x86_64)架构abi文档:上
- 微信公众号模板消息推送问题汇总
- 作业一:数据软件系统的介绍及spss的操作简介
- Android 模块 -- 基于XMPP协议的手机多方多端即时通讯方案
- Java基础知识总结1(数据类型)
- Strippednot stripped
热门文章
- 升级php7_PHP5.9 升级到PHP7 遇到的一些坑(phpfpm 图解)
- 钉钉获取免登授权码 php_php代码如何加域名授权?开源php项目如何保护版权 商业授权?...
- (传送门)Ubuntu 常用软件安装
- OpenTSDB介绍——基于Hbase的分布式的,可伸缩的时间序列数据库,而Hbase本质是列存储...
- 关于Eclispse连接Mysql的Jdbc
- mysql检查备份数据脚本并在zabbix上告警
- MySQL Transaction--快照读和当前读
- 7.11.4 第一个程序 设置环境变量
- Linux 集群时钟同步
- PHP AJAX JSONP实现跨域请求使用实例