数据框按行拼接_利用Python进行数据分析

1.一维数据分析

#导入numpy包
import numpy as np#导入panda包
import pandas as pd

numpy 一维数组 array

#定义：numpy一维数组array
a=np.array([1,2,3,4,5])

1）查询元素

#查询元素
a[0]

输出：

2）切片访问

#切片访问
a[1:4]

输出：

array([2, 3, 4])

3）循环访问

for i in a:print (i,'time 3 =',i*3)

输出：

1 time 3 = 3
2 time 3 = 6
3 time 3 = 9
4 time 3 = 12
5 time 3 = 15

4）数据类型

#数据类型
a.dtype

输出：

dtype('int32')

numpy 一维数组与列表的区别：

1）区别1：numpy 一维数组的统计功能

#一维数组的平均值
a.mean()

输出：

3.0

#一维数组的标准差
a.std()

输出：

1.4142135623730951

2）区别2：numpy 一维数组的向量化计算

#向量相加
a[0:2]+a[3:5]

输出：

array([5, 7])

#乘以标量
a[0:5]*10

输出：

array([10, 20, 30, 40, 50])

pandas 一维数组 series

#定义：pandas一维数组series
S1=pd.Series([1,2,3,4],index=['a','b','c','d'])

描述统计：

#获取描述统计信息
S1.describe()

输出：

count    4.000000
mean     2.500000
std      1.290994
min      1.000000
25%      1.750000
50%      2.500000
75%      3.250000
max      4.000000
dtype: float64

iloc 和 loc：

iloc属性用于根据位置查询值

#iloc属性用于根据位置获取值
S1.iloc[0]

输出：

loc属性用于根据索引获取值

#loc属性用于根据索引获取值
S1.loc['a']

输出：

向量相加

#向量化运算：向量相加
S1=pd.Series([1,2,3,4],index=['a','b','c','d'])
S2=pd.Series([5,6,7,8],index=['a','b','e','f'])
S3=S1+S2
S3

输出：

a    6.0
b    8.0
c    NaN
d    NaN
e    NaN
f    NaN
dtype: float64

以上存在缺失值。有以下解决方法：

方法1：删除缺失值

#删除缺失值
S1=pd.Series([1,2,3,4],index=['a','b','c','d'])
S2=pd.Series([5,6,7,8],index=['a','b','e','f'])
S4=S1+S2
S4.dropna()

输出：

a    6.0
b    8.0
dtype: float64

方法2：填充缺失值

#填充缺失值
S1=pd.Series([1,2,3,4],index=['a','b','c','d'])
S2=pd.Series([5,6,7,8],index=['a','b','e','f'])
S5=S1.add(S2,fill_value=0)
S5

输出：

a    6.0
b    8.0
c    3.0
d    4.0
e    7.0
f    8.0
dtype: float64

2.二维数据分析

numpy二维数据结构

#定义：numpy二维数组
a=np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

1）查询元素

#查询第一行，第三列元素
a[0,2]

输出：

2）获取第n行

#获取第2行
a[1,:]

输出：

array([5, 6, 7, 8])

3）获取第n列

#获取第3列
a[:,2]

输出：

array([ 3,  7, 11])

numpy数轴参数

1）按行计算

#按行计算：axis=1计算每一行
a.mean(axis=1)

输出：

array([  2.5,   6.5,  10.5])

1）按列计算

#按列计算：axis=0计算每一列
a.mean(axis=0)

输出：

array([ 5.,  6.,  7.,  8.])

pandas数据框（DataFrame）

#第1步：定义一个字典，映射列明与对应列的值
salesDict={'购药时间':['2008-01-01 星期五','2018-01-02 星期六','2018-01-26 星期三'],'社保卡号':['001616528','001616528','0012602828'],'商品编码':[236701,236701,236701],'商品名称':['强力VC银翘片','清热解毒口服液','感康'],'销售数量':[6,1,2],'应收金额':[82.8,28,16.8],'实收金额':[69,24.64,15]
}
#第2步：定义数据框，参数传入字典
saleDf=pd.DataFrame(salesDict)
saleDf

输出：

1）有序的数据框

#第1步：定义一个字典，映射列明与对应列的值
salesDict={'购药时间':['2008-01-01 星期五','2018-01-02 星期六','2018-01-26 星期三'],'社保卡号':['001616528','001616528','0012602828'],'商品编码':[236701,236701,236701],'商品名称':['强力VC银翘片','清热解毒口服液','感康'],'销售数量':[6,1,2],'应收金额':[82.8,28,16.8],'实收金额':[69,24.64,15]
}
#第2步：导入有序字典
from collections import OrderedDict
#第3步：定义一个有序字典
salesOrderDict=OrderedDict(salesDict)
#第4步：定义数据框：传入字典，列名
salesDf=pd.DataFrame(salesOrderDict)
salesDf

输出：

2）平均值

#按列计算平均值
salesDf.mean()

输出：

商品编码    236701.000000
销售数量         3.000000
应收金额        42.533333
实收金额        36.213333
dtype: float64

iloc属性用于根据位置查询值

1）查询元素

#查询元素
salesDf.iloc[1,2]

输出：

2）获取第n行

#获取第1行：
salesDf.iloc[0,:]

输出：

购药时间    2008-01-01 星期五
社保卡号         001616528
商品编码            236701
商品名称           强力VC银翘片
销售数量                 6
应收金额              82.8
实收金额                69
Name: 0, dtype: object

3）获取第n列

#获取第1列：
saleDf.iloc[:,0]

输出：

0    2008-01-01 星期五
1    2018-01-02 星期六
2    2018-01-26 星期三
Name: 购药时间, dtype: object

loc属性用于根据索引查询值

1）查询元素

#查询元素
salesDf.loc[0,'商品名称']

输出

'强力VC银翘片'

2）获取某行

#获取第1行：
salesDf.loc[0,:]

输出：

购药时间    2008-01-01 星期五
社保卡号         001616528
商品编码            236701
商品名称           强力VC银翘片
销售数量                 6
应收金额              82.8
实收金额                69
Name: 0, dtype: object

3）获取某列

#获取第1列：
salesDf.loc[:,'商品名称']

或者：

#查询 商品名称 列
salesDf['商品名称']

输出：

0    强力VC银翘片
1    清热解毒口服液
2         感康
Name: 商品名称, dtype: object

延伸：

#查询 商品编码 ，商品名称，销售数量 三列
salesDf[['商品编码','商品名称','销售数量']]

输出：

4）切片功能

#查询指定范围
salesDf.loc[:,'商品编码':'销售数量']

输出：

5）通过条件判断筛选

a. 构建查询条件

querySer=salesDf.loc[:,'销售数量']>2
querySer

输出：

0     True
1    False
2    False
Name: 销售数量, dtype: bool

#查看数据类型
type(querySer)

输出：

pandas.core.series.Series

b. 应用查询条件

salesDf.loc[querySer,:]

输出：

数据分析的基本过程

数据分析步骤：

提出问题→理解数据→数据清洗→构建模型→数据可视化

1、提出问题

a.月均消费次数

b.月均消费金额

c.客单价

d.消费趋势

2、理解数据

1）读取Excel数据

#读取Excel数据
fileNameStr='.../朝阳医院2018年销售数据.xlsx'
xls=pd.ExcelFile(fileNameStr)
salesDf=xls.parse('Sheet1')

2）数据集描述统计信息

a. 打印前5行

#打印前5行
salesDf.head()

输出：

b. 统计行数，列数

#统计行数，列数
salesDf.shape

输出：

(6578, 7)

c. 查询某列的数据类型

#查看'购药时间'一列的数据类型
salesDf.loc[:,'购药时间'].dtype

输出：

dtype('O')

d. 查看所有列的数据类型

#查看所有列的数据类型
salesDf.dtypes

输出：

购药时间    object
社保卡号    object
商品编码    object
商品名称    object
销售数量    object
应收金额    object
实收金额    object
dtype: object

e.每一列的统计数

#每一列的统计数
salesDf.describe()

输出：

3、数据清洗

数据清洗的基本过程：

选择子集→列名重命名→缺失数据处理→数据类型转换→数据排序→异常值处理

1.选择子集

#选择子集
subSalesDf=salesDf.loc[0:4,'购药时间':'销售数量']
subSalesDf

输出：

2.列名重命名

colNameDict={'购药时间':'销售时间'}
'''
inplace=False,数据框本身不会变，而会创建一个新数据框，inplace默认Flase;
inplase=True,数据框本身会改动
'''
salesDf.rename(columns=colNameDict,inplace=True)
salesDf.head()

输出：

3.缺失数据处理

print('删除缺失值前的大小',salesDf.shape)
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')
print('删除缺失值后的大小',salesDf.shape)

输出：

删除缺失值前的大小 (6578, 7)
删除缺失值后的大小 (6575, 7)

4.数据类型转换

（1）字符串转化为数值

#字符串转化为数值（浮点数）
salesDf['销售数量']=salesDf['销售数量'].astype('float')
salesDf['应收金额']=salesDf['应收金额'].astype('float')
salesDf['实收金额']=salesDf['实收金额'].astype('float')
print('转化后的数据类型:n',salesDf.dtypes)

输出：

转化后的数据类型:销售时间     object
社保卡号     object
商品编码     object
商品名称     object
销售数量    float64
应收金额    float64
实收金额    float64
dtype: object

（2）处理日期

'''
定义函数：分割销售日期，获得销售日期
输出：timecolSer销售时间一列是Series数据类型
输出：分割后的时间，返回也是个Serries数据类型
'''
def splitSaletime(timeColSer):timeList=[]for value in timeColSer:dateStr=value.split(' ')[0]timeList.append(dateStr)#将列表转换为一维数据Series类型timeSer=pd.Series(timeList)return timeSer
#获取销售时间一列
timeSer=salesDf.loc[:,'销售时间']
#分割字符串，获取销售日期
dateSer=splitSaletime(timeSer)
#修改销售时间一列的值
salesDf.loc[:,'销售时间']=dateSer
salesDf.head()

输出

（3）字符串转换为日期

salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],format='%Y-%m-%d',errors='coerce')
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')
salesDf.dtypes

输出：

销售时间    datetime64[ns]
社保卡号            object
商品编码            object
商品名称            object
销售数量           float64
应收金额           float64
实收金额           float64
dtype: object

5.数据排序

#按销售日期进行升序排序
salesDf=salesDf.sort_values(by='销售时间',ascending=True)
salesDf.head()

输出

#重命名行名（index)
salesDf=salesDf.reset_index(drop=True)
salesDf.head()

输出：

#每列的描述统计信息
salesDf.describe()

输出：

（6）异常值处理

#删除异常值：通过条件判断筛选出数据
#查询条件
querySer=salesDf.loc[:,'销售数量']>0
#应用查询条件
print('删除异常值前：',salesDf.shape)
salesDf=salesDf.loc[querySer,:]
print('删除异常值后：',salesDf.shape)

输出：

删除异常值前： (6549, 7)
删除异常值后： (6506, 7)

4、构建模型

业务指标1：月均消费次数=总消费次数/月份数

（总消费次数：同一天内，同一个人发生的所有消费算作一次消费）

求总消费次数

#第一步：删除重复数据
kpi1_Df=salesDf.drop_duplicates(subset=['销售时间','社保卡号'])
#第二步：行数
totalⅠ=kpi1_Df.shape[0]
print('总消费次数=',totalⅠ)

输出：

总消费次数= 5342

求月份数

#第一步：排序
#按销售时间升序
kpi1_Df=kpi1_Df.sort_values(by='销售时间',ascending=True)
#重命名排名
kpi1_Df=kpi1_Df.reset_index(drop=True)
#第二步：获取时间范围
#最小时间值
startTime=kpi1_Df.loc[0,'销售时间']
#最大时间值
endTime=kpi1_Df.loc[totalⅠ-1,'销售时间']
#第三步：计算月份数
#天数
daysⅠ=(endTime-startTime).days
#月份数
monthsⅠ=daysⅠ//30
print('月份数：',monthsⅠ)

输出

求月均消费次数

kip1_Ⅰ=totalⅠ//monthsⅠ
print('业务指标1：月均消费次数=',kip1_Ⅰ)

输出：

业务指标1：月均消费次数= 890

业务指标2：月均消费金额=总消费金额/月份数

#总消费金额
totalMoneyF=salesDf.loc[:,'实收金额'].sum()
#月均消费金额
monthMoneyF=totalMoneyF/monthsⅠ
print('业务指标2：月均消费金额=',monthMoneyF)

输出

业务指标2：月均消费金额= 50668.351666666305

业务指标3：客单价=总消费金额/总消费次数

pct=totalMoneyF/totalⅠ
print('客单价：',pct)

输出：

客单价： 56.9094178210404

总结：

数据分析步骤：

提出问题→理解数据→数据清洗→构建模型→数据可视化

数据清洗步骤：

选择子集→列名重命名→缺失数据处理→数据类型转换→数据排序→异常值处理