提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

机器学习-数据科学库-day5

pandas学习
- pandas之DataFrame
- - pandas常用统计方法
  - - 将字符串离散化
    - 数据合并之join
    - 数据合并之merge
  - pandas的分组和聚合
  - - 分组和聚合python练习
  - 索引和复合索引
  - - 索引和复合索引练习
  - 动手练习-1
  - 动手练习-2
- day05总结

pandas学习

pandas之DataFrame

pandas常用统计方法

将字符串离散化

对于一组电影数据，如果我们希望统计电影分类(genre)的情况，应该如何处理数据？

思路：重新构造一个全为0的数组，列名为分类，如果某一条数据中分类出现过，就让0变为1

#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
import numpy as np
from matplotlib import pyplot as plt#设置行不限制数量
pd.set_option('display.max_rows',50)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',50)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80，默认为50
pd.set_option('max_colwidth',80)file_path="../day04/IMDB-Movie-Data.csv"
df=pd.read_csv(file_path)#print(df["Genre"])#统计分类的列表
temp_list=df["Genre"].str.split(",").tolist()   #[[],[],[]]
#print(temp_list)
genre_list=list(set([i for j in temp_list for i in j]))
#print(genre_list)#构造全为0的数组:zeros_df
zeros_df=pd.DataFrame(np.zeros((df.shape[0],len(genre_list)),dtype=int),columns=genre_list)
#print(zeros_df)#给每个电影出现分类的位置赋值1
for i in range(df.shape[0]):zeros_df.loc[i,temp_list[i]]=1
#print(zeros_df.head(3))#统计每个分类电影的数量和
genre_count=zeros_df.sum(axis=0)
#print(genre_count)
#排序
genre_count=genre_count.sort_values()
print(genre_count)_x=genre_count.index
#print(_x)
_y=genre_count.values
#print(_y)#画图
plt.figure(figsize=(20,12),dpi=80)
plt.bar(range(len(_x)),_y,width=0.5,color="orange")
plt.xticks(range(len(_x)),_x)
plt.yticks(range(0,600,50))plt.grid()
plt.show()

运行结果：

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page125.py
Musical        5
Western        7
War           13
Music         16
Sport         18
History       29
Animation     49
Family        51
Biography     81
Fantasy      101
Mystery      106
Horror       119
Sci-Fi       120
Romance      141
Crime        150
Thriller     195
Adventure    259
Comedy       279
Action       303
Drama        513
dtype: int64Process finished with exit code 0

数据合并之join

join:默认情况下他是把行索引相同的数据合并到一起

数据合并之merge

merge:按照指定的列把数据按照一定的方式合并到一起

#!usr/bin/env python
# -*- coding:utf-8 _*-
import pandas as pd
import numpy as np#join:默认情况下,是把行索引相同的数据合并到一起，join按照index进行df1=pd.DataFrame(np.ones((2,4),dtype=int),index=["A","B"],columns=[list("abcd")])
df2=pd.DataFrame(np.zeros((3,3),dtype=int),index=["A","B","C"],columns=[list("xyz")])print(df1)
print(df2)
print("*"*100)
print(df1.join(df2))
print("*"*100)
print(df2.join(df1))#merge:按照指定的列把数据按照一定的方式合并到一起，merge按照columns进行
df3=pd.DataFrame(np.ones((3,4)),index=["A","B","C"],columns=list("MNOP"))
df3.loc[:,"O"]=["a","b","c"]
print(df3)df4=pd.DataFrame(np.zeros((2,5)),index=["A","B"],columns=list("VWXYZ"))
df4.loc[:,"X"]=["c","d"]
print(df4)#默认的合并方式inner，交集
print(df3.merge(df4,left_on="O",right_on="X"))
print(df3.merge(df4,left_on="O",right_on="X",how="inner"))#merge outer，并集，NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="outer"))
#merge left，左边为准，NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="left"))
#merge right，右边为准，NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="right"))

运行结果：

C:\ANACONDA\python.exe "C:/Users/Lenovo/PycharmProjects/Code/day05/test pandas_join and merge.py"a  b  c  d
A  1  1  1  1
B  1  1  1  1x  y  z
A  0  0  0
B  0  0  0
C  0  0  0
****************************************************************************************************a  b  c  d  x  y  z
A  1  1  1  1  0  0  0
B  1  1  1  1  0  0  0
****************************************************************************************************x  y  z    a    b    c    d
A  0  0  0  1.0  1.0  1.0  1.0
B  0  0  0  1.0  1.0  1.0  1.0
C  0  0  0  NaN  NaN  NaN  NaNM    N  O    P
A  1.0  1.0  a  1.0
B  1.0  1.0  b  1.0
C  1.0  1.0  c  1.0V    W  X    Y    Z
A  0.0  0.0  c  0.0  0.0
B  0.0  0.0  d  0.0  0.0M    N  O    P    V    W  X    Y    Z
0  1.0  1.0  c  1.0  0.0  0.0  c  0.0  0.0M    N  O    P    V    W  X    Y    Z
0  1.0  1.0  c  1.0  0.0  0.0  c  0.0  0.0M    N    O    P    V    W    X    Y    Z
0  1.0  1.0    a  1.0  NaN  NaN  NaN  NaN  NaN
1  1.0  1.0    b  1.0  NaN  NaN  NaN  NaN  NaN
2  1.0  1.0    c  1.0  0.0  0.0    c  0.0  0.0
3  NaN  NaN  NaN  NaN  0.0  0.0    d  0.0  0.0M    N  O    P    V    W    X    Y    Z
0  1.0  1.0  a  1.0  NaN  NaN  NaN  NaN  NaN
1  1.0  1.0  b  1.0  NaN  NaN  NaN  NaN  NaN
2  1.0  1.0  c  1.0  0.0  0.0    c  0.0  0.0M    N    O    P    V    W  X    Y    Z
0  1.0  1.0    c  1.0  0.0  0.0  c  0.0  0.0
1  NaN  NaN  NaN  NaN  0.0  0.0  d  0.0  0.0Process finished with exit code 0

pandas的分组和聚合

现在我们有一组关于全球星巴克店铺的统计数据，如果我想知道美国的星巴克数量和中国的哪个多，或者我想知道中国每个省份星巴克的数量的情况，那么应该怎么办？

在pandas中类似的分组的操作我们有很简单的方式来完成

df.groupby(by=“columns_name”)

grouped = df.groupby(by=“columns_name”)
grouped是一个DataFrameGroupBy对象，是可迭代的
grouped中的每一个元素是一个元组
元组里面是（索引(分组的值)，分组之后的DataFrame）

要统计美国和中国的星巴克的数量，我们应该怎么做？

DataFrameGroupBy对象有很多经过优化的方法

如果我们需要对国家和省份进行分组统计，应该怎么操作呢？

grouped = df.groupby(by=[df[“Country”],df[“State/Province”]])

很多时候我们只希望对获取分组之后的某一部分数据，或者说我们只希望对某几列数据进行分组，这个时候我们应该怎么办呢？

获取分组之后的某一部分数据：
df.groupby(by=[“Country”,“State/Province”])[“Country”].count()

对某几列数据进行分组：
df[“Country”].groupby(by=[df[“Country”],df[“State/Province”]]).count()

观察结果，由于只选择了一列数据，所以结果是一个Series类型
如果我想返回一个DataFrame类型呢？

t1 = df[[“Country”]].groupby(by[df[“Country”],df[“State/Province”]]).count()
t2 = df.groupby(by=[“Country”,“State/Province”])[[“Country”]].count()

以上的两条命令结果一样
和之前的结果的区别在于当前返回的是一个DataFrame类型

分组和聚合python练习

import pandas as pd
import numpy as np#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80，默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)
# print(df.head(3))
#print(df.info())
grouped=df.groupby(by="Country")
#print(grouped)
# print("*"*100)
#DataFrameGroupBy
#可以进行遍历# for i,j in grouped:
#     print(i,type(i))
#     print("*" * 100)
#     print(j,type(j))
#     print("-"*100)# print(df[df["Country"]=="US"])# 调用聚合方法
country_count=grouped["Brand"].count()
print(country_count)
print(country_count["US"])
print(country_count["CN"])#统计中国每个省店铺的数量
china_data=df[df["Country"]=="CN"]
provice_grouped=china_data.groupby(by="State/Province").count()["Brand"]
print(provice_grouped)#数据按照多个条件进行分组,返回series
#print(df["Brand"])
grouped=df["Brand"].groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped)
print(type(grouped))#数据按照多个条件进行分组,返回DataFrame
grouped1=df[["Brand"]].groupby(by=[df["Country"],df["State/Province"]]).count()
grouped2=df.groupby(by=[df["Country"],df["State/Province"]])[["Brand"]].count()
grouped3=df.groupby(by=[df["Country"],df["State/Province"]]).count()[["Brand"]]print(grouped1,type(grouped1))
print("*"*100)
print(grouped2,type(grouped2))
print("*"*100)
print(grouped3,type(grouped3))#索引的方法和属性
print(grouped1.index)
# print(grouped2.index)
# print(grouped3.index)

运行结果：

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page130.py
Country
AD        1
AE      144
AR      108
AT       18
AU       22
AW        3
AZ        4
BE       19
BG        5
BH       21
BN        5
BO        4
BR      102
BS       10
CA     1468
CH       61
CL       96
CN     2734
CO       11
CR       11
CW        3
CY       10
CZ       28
DE      160
DK       21
EG       31
ES      101
FI        8
FR      132
GB      901
GR       28
GT        7
HU       16
ID      268
IE       73
IN       88
JO       17
JP     1237
KH        4
KR      993
KW      106
KZ        8
LB       29
LU        2
MA        9
MC        2
MX      579
MY      234
NL       59
NO       17
NZ       24
OM       12
PA        5
PE       89
PH      298
PL       53
PR       24
PT       11
QA       18
RO       27
RU      109
SA      102
SE       18
SG      130
SK        3
SV       11
TH      289
TR      326
TT        3
TW      394
US    13608
VN       25
ZA        3
Name: Brand, dtype: int64
13608
2734
State/Province
11    236
12     58
13     24
14      8
15      8
21     57
22     13
23     16
31    551
32    354
33    315
34     26
35     75
36     13
37     75
41     21
42     76
43     35
44    333
45     21
46     16
50     41
51    104
52      9
53     24
61     42
62      3
63      3
64      2
91    162
92     13
Name: Brand, dtype: int64
Country  State/Province
AD       7                  1
AE       AJ                 2AZ                48DU                82FU                 2..
US       WV                25WY                23
VN       HN                 6SG                19
ZA       GT                 3
Name: Brand, Length: 545, dtype: int64
<class 'pandas.core.series.Series'>Brand
Country State/Province
AD      7                   1
AE      AJ                  2AZ                 48DU                 82FU                  2
...                       ...
US      WV                 25WY                 23
VN      HN                  6SG                 19
ZA      GT                  3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
****************************************************************************************************Brand
Country State/Province
AD      7                   1
AE      AJ                  2AZ                 48DU                 82FU                  2
...                       ...
US      WV                 25WY                 23
VN      HN                  6SG                 19
ZA      GT                  3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
****************************************************************************************************Brand
Country State/Province
AD      7                   1
AE      AJ                  2AZ                 48DU                 82FU                  2
...                       ...
US      WV                 25WY                 23
VN      HN                  6SG                 19
ZA      GT                  3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
MultiIndex([('AD',  '7'),('AE', 'AJ'),('AE', 'AZ'),('AE', 'DU'),('AE', 'FU'),('AE', 'RK'),('AE', 'SH'),('AE', 'UQ'),('AR',  'B'),('AR',  'C'),...('US', 'UT'),('US', 'VA'),('US', 'VT'),('US', 'WA'),('US', 'WI'),('US', 'WV'),('US', 'WY'),('VN', 'HN'),('VN', 'SG'),('ZA', 'GT')],names=['Country', 'State/Province'], length=545)Process finished with exit code 0

索引和复合索引

简单的索引操作：
获取index：df.index
指定index ：df.index = [‘x’,‘y’]
重新设置index : df.reindex(list(“abcedf”))
指定某一列作为index ：df.set_index(“Country”,drop=False)
返回index的唯一值：df.set_index(“Country”).index.unique()

索引和复合索引练习

#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
import numpy as np
#索引和复合索引
a = pd.DataFrame({'a': range(7),'b': range(7, 0, -1),'c': ['one','one','one','two','two','two', 'two'],'d': list("hjklmno")})
print(a)b=a.set_index(["c","d"])
print(b)
print(type(b))c=b["a"]
print(c)
print(type(c))#Series复合索引
print(c["one"])
print(c["one"]["j"])#用swaplevel(),交换索引的位置，便于筛选。  对于Series，直接加["值"]； 对于DataFrame,需要用.loc加["值"]
d=a.set_index(["d","c"])
print(d,type(d))
print(d.swaplevel().loc["one"])e=a.set_index(["d","c"])["a"]
print(e,type(e))
print(e.swaplevel()["one"])

运行结果：

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/test_fuhesuoyi.pya  b    c  d
0  0  7  one  h
1  1  6  one  j
2  2  5  one  k
3  3  4  two  l
4  4  3  two  m
5  5  2  two  n
6  6  1  two  oa  b
c   d
one h  0  7j  1  6k  2  5
two l  3  4m  4  3n  5  2o  6  1
<class 'pandas.core.frame.DataFrame'>
c    d
one  h    0j    1k    2
two  l    3m    4n    5o    6
Name: a, dtype: int64
<class 'pandas.core.series.Series'>
d
h    0
j    1
k    2
Name: a, dtype: int64
1a  b
d c
h one  0  7
j one  1  6
k one  2  5
l two  3  4
m two  4  3
n two  5  2
o two  6  1 <class 'pandas.core.frame.DataFrame'>a  b
d
h  0  7
j  1  6
k  2  5
d  c
h  one    0
j  one    1
k  one    2
l  two    3
m  two    4
n  two    5
o  two    6
Name: a, dtype: int64 <class 'pandas.core.series.Series'>
d
h    0
j    1
k    2
Name: a, dtype: int64Process finished with exit code 0

动手练习-1

使用matplotlib呈现出店铺总数排名前10的国家

#!usr/bin/env python
# -*- coding:utf-8 _*-
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量#设置value的显示长度为80，默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)#使用matplotlib呈现出店铺总数排名前10的国家#准备数据
data1=df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]
print(data1)_x=data1.index
_y=data1.values#画图
plt.figure(figsize=(20,16),dpi=80)plt.bar(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x)
plt.grid()
plt.show()

运行结果：

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page140.py
Country
US    13608
CN     2734
CA     1468
JP     1237
KR      993
GB      901
MX      579
TW      394
TR      326
PH      298
Name: Brand, dtype: int64Process finished with exit code 0

2. 使用matplotlib呈现出每个中国每个城市的店铺数量

#!usr/bin/env python
# -*- coding:utf-8 _*-
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from matplotlib import font_manager#设置中文字体（指定具体的字体文件路径，然后在需要显示中文的地方添加fontproperties参数）
my_font=font_manager.FontProperties(fname="C:/Windows/Fonts/simhei.ttf")#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量#设置value的显示长度为80，默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)
df=df[df["Country"]=="CN"]#使用matplotlib呈现出每个中国每个城市的店铺数量
#准备数据
data1=df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:25]
print(data1)_x=data1.index
_y=data1.values#画图
plt.figure(figsize=(20,16),dpi=80)
# plt.bar(range(len(_x)),_y,width=0.3,color="orange")
plt.barh(range(len(_x)),_y,height=0.3,color="orange")# plt.xticks(range(len(_x)),_x,fontproperties=my_font)
plt.yticks(range(len(_x)),_x,fontproperties=my_font)
plt.grid()
plt.show()

运行结果：

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page140_2.py
City
上海市          542
北京市          234
杭州市          117
深圳市          113
广州市          106
Hong Kong    104
成都市           98
苏州市           90
南京市           73
武汉市           67
宁波市           59
天津市           58
重庆市           41
西安市           40
无锡市           40
佛山市           33
东莞市           31
厦门市           31
青岛市           28
长沙市           26
常州市           26
大连市           25
沈阳市           24
福州市           23
昆明市           21
Name: Brand, dtype: int64Process finished with exit code 0

动手练习-2

现在我们有全球排名靠前的10000本书的数据，那么请统计一下下面几个问题：

不同年份书的数量
不同年份书的平均评分情况

#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
from matplotlib import pyplot as plt#设置行不限制数量
pd.set_option('display.max_rows',None)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',None)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80，默认为50
pd.set_option('max_colwidth',None)file_path="./books.csv"
df=pd.read_csv(file_path)# print(df.head(1))
# print(df.info())#不同年份书的数量
data1=df[pd.notnull(df["original_publication_year"])]   #布尔运算将对应列“original_publication_year”的nan行删除
grouped=data1.groupby(by="original_publication_year").count()["title"]
print(grouped)#不同年份书的平均评分情况data1=df[pd.notnull(df["original_publication_year"])]   #布尔运算将对应列“original_publication_year”的nan行删除
grouped=data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()
# grouped_1=data1["average_rating"].groupby(by=data1["original_publication_year"]).count()
print(grouped)
# print(grouped_1)#画图
_x=grouped.index
_y=grouped.valuesplt.figure(figsize=(20,12),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(list(range(len(_x)))[::10],_x[::10].astype("int"),rotation=45)
plt.show()

运行结果：

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page141.py
original_publication_year
-1750.0      1
-762.0       1
-750.0       2
-720.0       1
-560.0       1
-500.0       3
-476.0       1
-458.0       2
-441.0       1
-440.0       1
-431.0       1
-430.0       1
-411.0       2
-401.0       1
-400.0       2
-390.0       1
-385.0       2
-380.0       1
-350.0       2
-335.0       1
-330.0       1
-300.0       1
-17.0        18.0         1119.0       1180.0       1397.0       1609.0       1800.0       1975.0       11120.0      11273.0      11308.0      11320.0      31353.0      11380.0      11390.0      21418.0      11485.0      11513.0      11516.0      11519.0      11532.0      11550.0      11554.0      11563.0      11589.0      11590.0      11591.0      11592.0      11593.0      11594.0      11595.0      31596.0      11597.0      11598.0      11599.0      31600.0      21601.0      11603.0      31604.0      11605.0      11606.0      21611.0      11623.0      21637.0      21641.0      11645.0      11651.0      11664.0      11666.0      11667.0      11677.0      11678.0      11689.0      31691.0      11719.0      11722.0      11726.0      11729.0      21748.0      11749.0      11759.0      11762.0      11764.0      11767.0      11774.0      11776.0      51781.0      11782.0      11785.0      11787.0      21789.0      11791.0      11796.0      11798.0      11807.0      11808.0      11811.0      11812.0      41813.0      21814.0      11815.0      11817.0      21818.0      11819.0      21820.0      21825.0      11826.0      11830.0      21831.0      11832.0      11833.0      31834.0      11835.0      31836.0      21837.0      11838.0      11839.0      31840.0      31841.0      21842.0      41843.0      81844.0      51845.0      41846.0      11847.0      41848.0      61849.0      51850.0      21851.0      21852.0      11853.0      51854.0      41855.0      21856.0      21857.0      31859.0      61860.0      31861.0      41862.0      41863.0      11864.0      31865.0      61866.0      31867.0      11868.0      41869.0      51871.0      51872.0      51874.0      31876.0      41877.0      21878.0      21879.0      11880.0      61881.0      31882.0      21883.0      31884.0      41885.0      41886.0      91887.0      51888.0      41889.0      31890.0      61891.0      31892.0      41893.0      31894.0      61895.0      81896.0      31897.0      61898.0      11899.0      81900.0      61901.0      41902.0      61903.0      41904.0      61905.0      61906.0      51907.0      21908.0      71909.0      51910.0      31911.0      41912.0      91913.0      51914.0      51915.0     101916.0      41917.0      21918.0      21919.0      61920.0      71921.0      31922.0     111923.0      61924.0      91925.0     111926.0     121927.0     131928.0      71929.0     101930.0     141931.0      51932.0     101933.0     111934.0     101935.0      81936.0     171937.0     141938.0     171939.0     151940.0     191941.0     111942.0     191943.0     151944.0     101945.0     161946.0     141947.0     221948.0     161949.0     131950.0     141951.0     131952.0     191953.0     261954.0     211955.0     241956.0     261957.0     191958.0     241959.0     241960.0     221961.0     331962.0     321963.0     311964.0     191965.0     231966.0     211967.0     241968.0     351969.0     321970.0     331971.0     311972.0     301973.0     351974.0     401975.0     401976.0     391977.0     561978.0     481979.0     481980.0     541981.0     501982.0     751983.0     441984.0     671985.0     771986.0     781987.0     831988.0     891989.0     871990.0     991991.0     981992.0    1121993.0    1151994.0    1211995.0    1261996.0    1631997.0    1681998.0    1721999.0    1862000.0    2092001.0    2262002.0    2252003.0    2882004.0    3072005.0    3262006.0    3622007.0    3632008.0    3832009.0    4322010.0    4732011.0    5562012.0    5682013.0    5182014.0    4372015.0    3062016.0    1982017.0     11
Name: title, dtype: int64
original_publication_year
-1750.0    3.630000
-762.0     4.030000
-750.0     4.005000
-720.0     3.730000
-560.0     4.050000
-500.0     4.146667
-476.0     3.820000
-458.0     3.905000
-441.0     3.600000
-440.0     3.970000
-431.0     3.830000
-430.0     3.670000
-411.0     3.855000
-401.0     3.960000
-400.0     4.080000
-390.0     4.150000
-385.0     4.055000
-380.0     3.900000
-350.0     3.910000
-335.0     3.810000
-330.0     4.000000
-300.0     4.310000
-17.0      3.8100008.0       4.030000119.0     4.050000180.0     4.200000397.0     3.880000609.0     4.340000800.0     4.060000975.0     3.4200001120.0    4.1800001273.0    4.4400001308.0    4.0600001320.0    3.9800001353.0    3.8600001380.0    4.6300001390.0    3.5800001418.0    4.1900001485.0    3.9200001513.0    3.7800001516.0    3.5000001519.0    3.9700001532.0    3.7100001550.0    3.7800001554.0    3.4900001563.0    4.2500001589.0    3.7100001590.0    3.5500001591.0    3.9200001592.0    4.2400001593.0    3.8100001594.0    3.7400001595.0    3.8100001596.0    3.7800001597.0    3.8100001598.0    4.0600001599.0    3.7833331600.0    3.8450001601.0    3.9700001603.0    3.8133331604.0    3.7900001605.0    3.8500001606.0    3.7750001611.0    4.4300001623.0    4.1450001637.0    3.6850001641.0    3.6900001645.0    4.0900001651.0    3.6600001664.0    3.6600001666.0    3.7800001667.0    3.8000001677.0    4.0100001678.0    3.9800001689.0    3.7933331691.0    4.3200001719.0    3.6600001722.0    3.5000001726.0    3.5500001729.0    4.0450001748.0    3.9000001749.0    3.7300001759.0    3.7600001762.0    3.7500001764.0    3.1800001767.0    3.7400001774.0    3.6300001776.0    4.0720001781.0    3.9200001782.0    4.0700001785.0    3.7800001787.0    4.2950001789.0    4.1100001791.0    3.8300001796.0    3.8000001798.0    3.9300001807.0    3.9100001808.0    3.9300001811.0    4.0600001812.0    4.1575001813.0    4.3950001814.0    3.8400001815.0    3.9900001817.0    3.9650001818.0    3.7500001819.0    3.8400001820.0    3.9900001825.0    4.1300001826.0    3.6900001830.0    4.1200001831.0    3.9700001832.0    3.9700001833.0    4.0133331834.0    3.8200001835.0    4.1233331836.0    3.9700001837.0    3.8200001838.0    3.8500001839.0    3.8800001840.0    3.9400001841.0    4.0300001842.0    4.0825001843.0    4.1012501844.0    4.1020001845.0    4.0900001846.0    4.0900001847.0    3.8325001848.0    3.8650001849.0    4.1740001850.0    3.6700001851.0    3.4550001852.0    3.8300001853.0    3.9300001854.0    3.8450001855.0    4.0450001856.0    3.8100001857.0    3.9866671859.0    3.9100001860.0    3.8733331861.0    3.8400001862.0    3.9525001863.0    3.7400001864.0    4.0533331865.0    4.0250001866.0    4.0433331867.0    3.7100001868.0    4.0100001869.0    3.9120001871.0    3.7200001872.0    3.9760001874.0    4.0066671876.0    3.9525001877.0    3.9800001878.0    3.6000001879.0    3.6900001880.0    4.0050001881.0    3.8766671882.0    4.0400001883.0    3.9866671884.0    3.9725001885.0    4.0000001886.0    3.8811111887.0    4.0200001888.0    3.9825001889.0    3.8533331890.0    4.0383331891.0    4.0166671892.0    4.1500001893.0    3.8900001894.0    4.1116671895.0    3.8875001896.0    4.1133331897.0    3.8616671898.0    3.4500001899.0    3.8787501900.0    3.9200001901.0    3.9575001902.0    4.0450001903.0    3.9600001904.0    3.9683331905.0    4.1266671906.0    3.9400001907.0    3.7800001908.0    4.1528571909.0    4.2640001910.0    3.8733331911.0    3.7475001912.0    3.8900001913.0    3.9900001914.0    4.0740001915.0    4.0070001916.0    4.0925001917.0    4.1950001918.0    3.9750001919.0    4.0300001920.0    3.8871431921.0    4.1233331922.0    3.9327271923.0    4.0633331924.0    3.9377781925.0    3.9327271926.0    4.1533331927.0    4.0353851928.0    3.9028571929.0    3.9850001930.0    3.9871431931.0    4.1140001932.0    4.0110001933.0    3.9518181934.0    4.0230001935.0    4.0500001936.0    4.0547061937.0    3.9921431938.0    3.9611761939.0    4.1126671940.0    4.0784211941.0    4.0936361942.0    4.0705261943.0    4.0840001944.0    4.1060001945.0    4.0187501946.0    4.1750001947.0    4.0727271948.0    4.0987501949.0    4.0607691950.0    4.0750001951.0    4.0253851952.0    4.0163161953.0    4.0311541954.0    4.0100001955.0    4.0745831956.0    4.1019231957.0    4.0294741958.0    4.0020831959.0    4.0091671960.0    4.1359091961.0    4.0430301962.0    4.0237501963.0    4.0900001964.0    4.0526321965.0    4.1078261966.0    3.9947621967.0    4.0870831968.0    4.0762861969.0    4.0512501970.0    3.9918181971.0    4.0822581972.0    3.9563331973.0    4.0282861974.0    4.0290001975.0    4.0460001976.0    4.0769231977.0    4.0250001978.0    4.0827081979.0    4.0595831980.0    3.9903701981.0    3.9910001982.0    4.0582671983.0    3.9909091984.0    4.0359701985.0    4.0110391986.0    4.0933331987.0    4.0048191988.0    4.0475281989.0    4.0590801990.0    4.0576771991.0    4.0345921992.0    4.0294641993.0    4.0452171994.0    4.0344631995.0    4.0154761996.0    4.0479751997.0    4.0108931998.0    4.0087791999.0    4.0025272000.0    3.9960772001.0    3.9823892002.0    3.9835562003.0    3.9793062004.0    3.9855052005.0    3.9632822006.0    3.9705802007.0    3.9670802008.0    3.9731852009.0    3.9842822010.0    3.9986892011.0    3.9976982012.0    4.0087502013.0    4.0122972014.0    3.9853782015.0    3.9546412016.0    4.0275762017.0    4.100909
Name: average_rating, dtype: float64Process finished with exit code 0

day05总结

机器学习-数据科学库-day5相关推荐

机器学习-数据科学库-day6
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档机器学习-数据科学库-day6 pandas学习动手练习 pandas中的时间序列生成一段时间范围关于频率的更多缩写在Data ...
机器学习-数据科学库-day1
机器学习-数据科学库-day1 机器学习-数据科学库-day1 matplotlib 机器学习-数据科学库-day1 数据分析课程包括: 基础概念与环境 matplotlib numpy pandas ...
机器学习-数据科学库：matplotlib绘图
机器学习-数据科学库:matplotlib绘图 matplotlib绘图 matplotlib折线图 matplotlib散点图 matplotlib条形图 matplotlib直方图对比常用统计图 ...
机器学习-数据科学库：Pandas总结（1）
机器学习-数据科学库:Pandas总结(1) Pandas pandas的常用数据类型 pandas之Series创建 pandas之Series切片和索引 pandas之读取外部数据 pandas之 ...
HuaPu在学：机器学习——数据科学库【matplotlib】
数据科学库[matplotlib] 文章目录数据科学库[matplotlib] 前言一.数据分析介绍及环境安装 1.为什么要数据分析??? 2.环境安装二.matplotlib 1.为什么学习m ...
机器学习-数据科学库（第三天）
14.numpy的数组的创建什么是numpy 一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型.多维数组上执行数值运算(数组就是列表.列表 ...
机器学习-数据科学库（第六天）
37.pandas时间序列01 现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况, ...
机器学习-数据科学库（第五天）
31.数据的合并和分组聚合--字符串离散化的案例字符串离散化的案例刚刚我们学会了数据分合并,那么接下来,我们按照电影分类(genre)信息把数据呈现出来 import numpy as np im ...
机器学习-数据科学库（第四天）
23.pandas的series的了解为什么要学习pandas numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于numpy),还能够帮助我们处理其他类型的数据 pandas的常 ...

机器学习-数据科学库-day5

机器学习-数据科学库-day5

pandas学习

pandas之DataFrame

pandas常用统计方法

将字符串离散化

数据合并之join

数据合并之merge

pandas的分组和聚合

分组和聚合python练习

索引和复合索引

索引和复合索引练习

动手练习-1

动手练习-2

day05总结

机器学习-数据科学库-day5相关推荐

最新文章

热门文章