提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

机器学习-数据科学库-day5

  • pandas学习
    • pandas之DataFrame
      • pandas常用统计方法
        • 将字符串离散化
        • 数据合并之join
        • 数据合并之merge
      • pandas的分组和聚合
        • 分组和聚合python练习
      • 索引和复合索引
        • 索引和复合索引练习
      • 动手练习-1
      • 动手练习-2
    • day05总结

pandas学习

pandas之DataFrame

pandas常用统计方法

将字符串离散化

对于一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?

思路:重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1

#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
import numpy as np
from matplotlib import pyplot as plt#设置行不限制数量
pd.set_option('display.max_rows',50)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',50)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',80)file_path="../day04/IMDB-Movie-Data.csv"
df=pd.read_csv(file_path)#print(df["Genre"])#统计分类的列表
temp_list=df["Genre"].str.split(",").tolist()   #[[],[],[]]
#print(temp_list)
genre_list=list(set([i for j in temp_list for i in j]))
#print(genre_list)#构造全为0的数组:zeros_df
zeros_df=pd.DataFrame(np.zeros((df.shape[0],len(genre_list)),dtype=int),columns=genre_list)
#print(zeros_df)#给每个电影出现分类的位置赋值1
for i in range(df.shape[0]):zeros_df.loc[i,temp_list[i]]=1
#print(zeros_df.head(3))#统计每个分类电影的数量和
genre_count=zeros_df.sum(axis=0)
#print(genre_count)
#排序
genre_count=genre_count.sort_values()
print(genre_count)_x=genre_count.index
#print(_x)
_y=genre_count.values
#print(_y)#画图
plt.figure(figsize=(20,12),dpi=80)
plt.bar(range(len(_x)),_y,width=0.5,color="orange")
plt.xticks(range(len(_x)),_x)
plt.yticks(range(0,600,50))plt.grid()
plt.show()

运行结果:

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page125.py
Musical        5
Western        7
War           13
Music         16
Sport         18
History       29
Animation     49
Family        51
Biography     81
Fantasy      101
Mystery      106
Horror       119
Sci-Fi       120
Romance      141
Crime        150
Thriller     195
Adventure    259
Comedy       279
Action       303
Drama        513
dtype: int64Process finished with exit code 0

数据合并之join

join:默认情况下他是把行索引相同的数据合并到一起

数据合并之merge

merge:按照指定的列把数据按照一定的方式合并到一起

#!usr/bin/env python
# -*- coding:utf-8 _*-
import pandas as pd
import numpy as np#join:默认情况下,是把行索引相同的数据合并到一起,join按照index进行df1=pd.DataFrame(np.ones((2,4),dtype=int),index=["A","B"],columns=[list("abcd")])
df2=pd.DataFrame(np.zeros((3,3),dtype=int),index=["A","B","C"],columns=[list("xyz")])print(df1)
print(df2)
print("*"*100)
print(df1.join(df2))
print("*"*100)
print(df2.join(df1))#merge:按照指定的列把数据按照一定的方式合并到一起,merge按照columns进行
df3=pd.DataFrame(np.ones((3,4)),index=["A","B","C"],columns=list("MNOP"))
df3.loc[:,"O"]=["a","b","c"]
print(df3)df4=pd.DataFrame(np.zeros((2,5)),index=["A","B"],columns=list("VWXYZ"))
df4.loc[:,"X"]=["c","d"]
print(df4)#默认的合并方式inner,交集
print(df3.merge(df4,left_on="O",right_on="X"))
print(df3.merge(df4,left_on="O",right_on="X",how="inner"))#merge outer,并集,NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="outer"))
#merge left,左边为准,NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="left"))
#merge right,右边为准,NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="right"))

运行结果:

C:\ANACONDA\python.exe "C:/Users/Lenovo/PycharmProjects/Code/day05/test pandas_join and merge.py"a  b  c  d
A  1  1  1  1
B  1  1  1  1x  y  z
A  0  0  0
B  0  0  0
C  0  0  0
****************************************************************************************************a  b  c  d  x  y  z
A  1  1  1  1  0  0  0
B  1  1  1  1  0  0  0
****************************************************************************************************x  y  z    a    b    c    d
A  0  0  0  1.0  1.0  1.0  1.0
B  0  0  0  1.0  1.0  1.0  1.0
C  0  0  0  NaN  NaN  NaN  NaNM    N  O    P
A  1.0  1.0  a  1.0
B  1.0  1.0  b  1.0
C  1.0  1.0  c  1.0V    W  X    Y    Z
A  0.0  0.0  c  0.0  0.0
B  0.0  0.0  d  0.0  0.0M    N  O    P    V    W  X    Y    Z
0  1.0  1.0  c  1.0  0.0  0.0  c  0.0  0.0M    N  O    P    V    W  X    Y    Z
0  1.0  1.0  c  1.0  0.0  0.0  c  0.0  0.0M    N    O    P    V    W    X    Y    Z
0  1.0  1.0    a  1.0  NaN  NaN  NaN  NaN  NaN
1  1.0  1.0    b  1.0  NaN  NaN  NaN  NaN  NaN
2  1.0  1.0    c  1.0  0.0  0.0    c  0.0  0.0
3  NaN  NaN  NaN  NaN  0.0  0.0    d  0.0  0.0M    N  O    P    V    W    X    Y    Z
0  1.0  1.0  a  1.0  NaN  NaN  NaN  NaN  NaN
1  1.0  1.0  b  1.0  NaN  NaN  NaN  NaN  NaN
2  1.0  1.0  c  1.0  0.0  0.0    c  0.0  0.0M    N    O    P    V    W  X    Y    Z
0  1.0  1.0    c  1.0  0.0  0.0  c  0.0  0.0
1  NaN  NaN  NaN  NaN  0.0  0.0  d  0.0  0.0Process finished with exit code 0

pandas的分组和聚合

现在我们有一组关于全球星巴克店铺的统计数据,如果我想知道美国的星巴克数量和中国的哪个多,或者我想知道中国每个省份星巴克的数量的情况,那么应该怎么办?

在pandas中类似的分组的操作我们有很简单的方式来完成

df.groupby(by=“columns_name”)

grouped = df.groupby(by=“columns_name”)
grouped是一个DataFrameGroupBy对象,是可迭代的
grouped中的每一个元素是一个元组
元组里面是(索引(分组的值),分组之后的DataFrame)

要统计美国和中国的星巴克的数量,我们应该怎么做?

DataFrameGroupBy对象有很多经过优化的方法

如果我们需要对国家和省份进行分组统计,应该怎么操作呢?

grouped = df.groupby(by=[df[“Country”],df[“State/Province”]])

很多时候我们只希望对获取分组之后的某一部分数据,或者说我们只希望对某几列数据进行分组,这个时候我们应该怎么办呢?

获取分组之后的某一部分数据:
df.groupby(by=[“Country”,“State/Province”])[“Country”].count()

对某几列数据进行分组:
df[“Country”].groupby(by=[df[“Country”],df[“State/Province”]]).count()

观察结果,由于只选择了一列数据,所以结果是一个Series类型
如果我想返回一个DataFrame类型呢?

t1 = df[[“Country”]].groupby(by[df[“Country”],df[“State/Province”]]).count()
t2 = df.groupby(by=[“Country”,“State/Province”])[[“Country”]].count()

以上的两条命令结果一样
和之前的结果的区别在于当前返回的是一个DataFrame类型

分组和聚合python练习

import pandas as pd
import numpy as np#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)
# print(df.head(3))
#print(df.info())
grouped=df.groupby(by="Country")
#print(grouped)
# print("*"*100)
#DataFrameGroupBy
#可以进行遍历# for i,j in grouped:
#     print(i,type(i))
#     print("*" * 100)
#     print(j,type(j))
#     print("-"*100)# print(df[df["Country"]=="US"])# 调用聚合方法
country_count=grouped["Brand"].count()
print(country_count)
print(country_count["US"])
print(country_count["CN"])#统计中国每个省店铺的数量
china_data=df[df["Country"]=="CN"]
provice_grouped=china_data.groupby(by="State/Province").count()["Brand"]
print(provice_grouped)#数据按照多个条件进行分组,返回series
#print(df["Brand"])
grouped=df["Brand"].groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped)
print(type(grouped))#数据按照多个条件进行分组,返回DataFrame
grouped1=df[["Brand"]].groupby(by=[df["Country"],df["State/Province"]]).count()
grouped2=df.groupby(by=[df["Country"],df["State/Province"]])[["Brand"]].count()
grouped3=df.groupby(by=[df["Country"],df["State/Province"]]).count()[["Brand"]]print(grouped1,type(grouped1))
print("*"*100)
print(grouped2,type(grouped2))
print("*"*100)
print(grouped3,type(grouped3))#索引的方法和属性
print(grouped1.index)
# print(grouped2.index)
# print(grouped3.index)

运行结果:

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page130.py
Country
AD        1
AE      144
AR      108
AT       18
AU       22
AW        3
AZ        4
BE       19
BG        5
BH       21
BN        5
BO        4
BR      102
BS       10
CA     1468
CH       61
CL       96
CN     2734
CO       11
CR       11
CW        3
CY       10
CZ       28
DE      160
DK       21
EG       31
ES      101
FI        8
FR      132
GB      901
GR       28
GT        7
HU       16
ID      268
IE       73
IN       88
JO       17
JP     1237
KH        4
KR      993
KW      106
KZ        8
LB       29
LU        2
MA        9
MC        2
MX      579
MY      234
NL       59
NO       17
NZ       24
OM       12
PA        5
PE       89
PH      298
PL       53
PR       24
PT       11
QA       18
RO       27
RU      109
SA      102
SE       18
SG      130
SK        3
SV       11
TH      289
TR      326
TT        3
TW      394
US    13608
VN       25
ZA        3
Name: Brand, dtype: int64
13608
2734
State/Province
11    236
12     58
13     24
14      8
15      8
21     57
22     13
23     16
31    551
32    354
33    315
34     26
35     75
36     13
37     75
41     21
42     76
43     35
44    333
45     21
46     16
50     41
51    104
52      9
53     24
61     42
62      3
63      3
64      2
91    162
92     13
Name: Brand, dtype: int64
Country  State/Province
AD       7                  1
AE       AJ                 2AZ                48DU                82FU                 2..
US       WV                25WY                23
VN       HN                 6SG                19
ZA       GT                 3
Name: Brand, Length: 545, dtype: int64
<class 'pandas.core.series.Series'>Brand
Country State/Province
AD      7                   1
AE      AJ                  2AZ                 48DU                 82FU                  2
...                       ...
US      WV                 25WY                 23
VN      HN                  6SG                 19
ZA      GT                  3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
****************************************************************************************************Brand
Country State/Province
AD      7                   1
AE      AJ                  2AZ                 48DU                 82FU                  2
...                       ...
US      WV                 25WY                 23
VN      HN                  6SG                 19
ZA      GT                  3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
****************************************************************************************************Brand
Country State/Province
AD      7                   1
AE      AJ                  2AZ                 48DU                 82FU                  2
...                       ...
US      WV                 25WY                 23
VN      HN                  6SG                 19
ZA      GT                  3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
MultiIndex([('AD',  '7'),('AE', 'AJ'),('AE', 'AZ'),('AE', 'DU'),('AE', 'FU'),('AE', 'RK'),('AE', 'SH'),('AE', 'UQ'),('AR',  'B'),('AR',  'C'),...('US', 'UT'),('US', 'VA'),('US', 'VT'),('US', 'WA'),('US', 'WI'),('US', 'WV'),('US', 'WY'),('VN', 'HN'),('VN', 'SG'),('ZA', 'GT')],names=['Country', 'State/Province'], length=545)Process finished with exit code 0

索引和复合索引

简单的索引操作:
获取index:df.index
指定index :df.index = [‘x’,‘y’]
重新设置index : df.reindex(list(“abcedf”))
指定某一列作为index :df.set_index(“Country”,drop=False)
返回index的唯一值:df.set_index(“Country”).index.unique()

索引和复合索引练习

#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
import numpy as np
#索引和复合索引
a = pd.DataFrame({'a': range(7),'b': range(7, 0, -1),'c': ['one','one','one','two','two','two', 'two'],'d': list("hjklmno")})
print(a)b=a.set_index(["c","d"])
print(b)
print(type(b))c=b["a"]
print(c)
print(type(c))#Series复合索引
print(c["one"])
print(c["one"]["j"])#用swaplevel(),交换索引的位置,便于筛选。  对于Series,直接加["值"]; 对于DataFrame,需要用.loc加["值"]
d=a.set_index(["d","c"])
print(d,type(d))
print(d.swaplevel().loc["one"])e=a.set_index(["d","c"])["a"]
print(e,type(e))
print(e.swaplevel()["one"])

运行结果:

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/test_fuhesuoyi.pya  b    c  d
0  0  7  one  h
1  1  6  one  j
2  2  5  one  k
3  3  4  two  l
4  4  3  two  m
5  5  2  two  n
6  6  1  two  oa  b
c   d
one h  0  7j  1  6k  2  5
two l  3  4m  4  3n  5  2o  6  1
<class 'pandas.core.frame.DataFrame'>
c    d
one  h    0j    1k    2
two  l    3m    4n    5o    6
Name: a, dtype: int64
<class 'pandas.core.series.Series'>
d
h    0
j    1
k    2
Name: a, dtype: int64
1a  b
d c
h one  0  7
j one  1  6
k one  2  5
l two  3  4
m two  4  3
n two  5  2
o two  6  1 <class 'pandas.core.frame.DataFrame'>a  b
d
h  0  7
j  1  6
k  2  5
d  c
h  one    0
j  one    1
k  one    2
l  two    3
m  two    4
n  two    5
o  two    6
Name: a, dtype: int64 <class 'pandas.core.series.Series'>
d
h    0
j    1
k    2
Name: a, dtype: int64Process finished with exit code 0

动手练习-1

  1. 使用matplotlib呈现出店铺总数排名前10的国家
#!usr/bin/env python
# -*- coding:utf-8 _*-
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)#使用matplotlib呈现出店铺总数排名前10的国家#准备数据
data1=df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]
print(data1)_x=data1.index
_y=data1.values#画图
plt.figure(figsize=(20,16),dpi=80)plt.bar(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x)
plt.grid()
plt.show()

运行结果:

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page140.py
Country
US    13608
CN     2734
CA     1468
JP     1237
KR      993
GB      901
MX      579
TW      394
TR      326
PH      298
Name: Brand, dtype: int64Process finished with exit code 0


2. 使用matplotlib呈现出每个中国每个城市的店铺数量

#!usr/bin/env python
# -*- coding:utf-8 _*-
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from matplotlib import font_manager#设置中文字体(指定具体的字体文件路径,然后在需要显示中文的地方添加fontproperties参数)
my_font=font_manager.FontProperties(fname="C:/Windows/Fonts/simhei.ttf")#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)
df=df[df["Country"]=="CN"]#使用matplotlib呈现出每个中国每个城市的店铺数量
#准备数据
data1=df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:25]
print(data1)_x=data1.index
_y=data1.values#画图
plt.figure(figsize=(20,16),dpi=80)
# plt.bar(range(len(_x)),_y,width=0.3,color="orange")
plt.barh(range(len(_x)),_y,height=0.3,color="orange")# plt.xticks(range(len(_x)),_x,fontproperties=my_font)
plt.yticks(range(len(_x)),_x,fontproperties=my_font)
plt.grid()
plt.show()

运行结果:

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page140_2.py
City
上海市          542
北京市          234
杭州市          117
深圳市          113
广州市          106
Hong Kong    104
成都市           98
苏州市           90
南京市           73
武汉市           67
宁波市           59
天津市           58
重庆市           41
西安市           40
无锡市           40
佛山市           33
东莞市           31
厦门市           31
青岛市           28
长沙市           26
常州市           26
大连市           25
沈阳市           24
福州市           23
昆明市           21
Name: Brand, dtype: int64Process finished with exit code 0

动手练习-2

现在我们有全球排名靠前的10000本书的数据,那么请统计一下下面几个问题:

  1. 不同年份书的数量
  2. 不同年份书的平均评分情况
#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
from matplotlib import pyplot as plt#设置行不限制数量
pd.set_option('display.max_rows',None)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',None)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',None)file_path="./books.csv"
df=pd.read_csv(file_path)# print(df.head(1))
# print(df.info())#不同年份书的数量
data1=df[pd.notnull(df["original_publication_year"])]   #布尔运算将对应列“original_publication_year”的nan行删除
grouped=data1.groupby(by="original_publication_year").count()["title"]
print(grouped)#不同年份书的平均评分情况data1=df[pd.notnull(df["original_publication_year"])]   #布尔运算将对应列“original_publication_year”的nan行删除
grouped=data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()
# grouped_1=data1["average_rating"].groupby(by=data1["original_publication_year"]).count()
print(grouped)
# print(grouped_1)#画图
_x=grouped.index
_y=grouped.valuesplt.figure(figsize=(20,12),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(list(range(len(_x)))[::10],_x[::10].astype("int"),rotation=45)
plt.show()

运行结果:

C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page141.py
original_publication_year
-1750.0      1
-762.0       1
-750.0       2
-720.0       1
-560.0       1
-500.0       3
-476.0       1
-458.0       2
-441.0       1
-440.0       1
-431.0       1
-430.0       1
-411.0       2
-401.0       1
-400.0       2
-390.0       1
-385.0       2
-380.0       1
-350.0       2
-335.0       1
-330.0       1
-300.0       1
-17.0        18.0         1119.0       1180.0       1397.0       1609.0       1800.0       1975.0       11120.0      11273.0      11308.0      11320.0      31353.0      11380.0      11390.0      21418.0      11485.0      11513.0      11516.0      11519.0      11532.0      11550.0      11554.0      11563.0      11589.0      11590.0      11591.0      11592.0      11593.0      11594.0      11595.0      31596.0      11597.0      11598.0      11599.0      31600.0      21601.0      11603.0      31604.0      11605.0      11606.0      21611.0      11623.0      21637.0      21641.0      11645.0      11651.0      11664.0      11666.0      11667.0      11677.0      11678.0      11689.0      31691.0      11719.0      11722.0      11726.0      11729.0      21748.0      11749.0      11759.0      11762.0      11764.0      11767.0      11774.0      11776.0      51781.0      11782.0      11785.0      11787.0      21789.0      11791.0      11796.0      11798.0      11807.0      11808.0      11811.0      11812.0      41813.0      21814.0      11815.0      11817.0      21818.0      11819.0      21820.0      21825.0      11826.0      11830.0      21831.0      11832.0      11833.0      31834.0      11835.0      31836.0      21837.0      11838.0      11839.0      31840.0      31841.0      21842.0      41843.0      81844.0      51845.0      41846.0      11847.0      41848.0      61849.0      51850.0      21851.0      21852.0      11853.0      51854.0      41855.0      21856.0      21857.0      31859.0      61860.0      31861.0      41862.0      41863.0      11864.0      31865.0      61866.0      31867.0      11868.0      41869.0      51871.0      51872.0      51874.0      31876.0      41877.0      21878.0      21879.0      11880.0      61881.0      31882.0      21883.0      31884.0      41885.0      41886.0      91887.0      51888.0      41889.0      31890.0      61891.0      31892.0      41893.0      31894.0      61895.0      81896.0      31897.0      61898.0      11899.0      81900.0      61901.0      41902.0      61903.0      41904.0      61905.0      61906.0      51907.0      21908.0      71909.0      51910.0      31911.0      41912.0      91913.0      51914.0      51915.0     101916.0      41917.0      21918.0      21919.0      61920.0      71921.0      31922.0     111923.0      61924.0      91925.0     111926.0     121927.0     131928.0      71929.0     101930.0     141931.0      51932.0     101933.0     111934.0     101935.0      81936.0     171937.0     141938.0     171939.0     151940.0     191941.0     111942.0     191943.0     151944.0     101945.0     161946.0     141947.0     221948.0     161949.0     131950.0     141951.0     131952.0     191953.0     261954.0     211955.0     241956.0     261957.0     191958.0     241959.0     241960.0     221961.0     331962.0     321963.0     311964.0     191965.0     231966.0     211967.0     241968.0     351969.0     321970.0     331971.0     311972.0     301973.0     351974.0     401975.0     401976.0     391977.0     561978.0     481979.0     481980.0     541981.0     501982.0     751983.0     441984.0     671985.0     771986.0     781987.0     831988.0     891989.0     871990.0     991991.0     981992.0    1121993.0    1151994.0    1211995.0    1261996.0    1631997.0    1681998.0    1721999.0    1862000.0    2092001.0    2262002.0    2252003.0    2882004.0    3072005.0    3262006.0    3622007.0    3632008.0    3832009.0    4322010.0    4732011.0    5562012.0    5682013.0    5182014.0    4372015.0    3062016.0    1982017.0     11
Name: title, dtype: int64
original_publication_year
-1750.0    3.630000
-762.0     4.030000
-750.0     4.005000
-720.0     3.730000
-560.0     4.050000
-500.0     4.146667
-476.0     3.820000
-458.0     3.905000
-441.0     3.600000
-440.0     3.970000
-431.0     3.830000
-430.0     3.670000
-411.0     3.855000
-401.0     3.960000
-400.0     4.080000
-390.0     4.150000
-385.0     4.055000
-380.0     3.900000
-350.0     3.910000
-335.0     3.810000
-330.0     4.000000
-300.0     4.310000
-17.0      3.8100008.0       4.030000119.0     4.050000180.0     4.200000397.0     3.880000609.0     4.340000800.0     4.060000975.0     3.4200001120.0    4.1800001273.0    4.4400001308.0    4.0600001320.0    3.9800001353.0    3.8600001380.0    4.6300001390.0    3.5800001418.0    4.1900001485.0    3.9200001513.0    3.7800001516.0    3.5000001519.0    3.9700001532.0    3.7100001550.0    3.7800001554.0    3.4900001563.0    4.2500001589.0    3.7100001590.0    3.5500001591.0    3.9200001592.0    4.2400001593.0    3.8100001594.0    3.7400001595.0    3.8100001596.0    3.7800001597.0    3.8100001598.0    4.0600001599.0    3.7833331600.0    3.8450001601.0    3.9700001603.0    3.8133331604.0    3.7900001605.0    3.8500001606.0    3.7750001611.0    4.4300001623.0    4.1450001637.0    3.6850001641.0    3.6900001645.0    4.0900001651.0    3.6600001664.0    3.6600001666.0    3.7800001667.0    3.8000001677.0    4.0100001678.0    3.9800001689.0    3.7933331691.0    4.3200001719.0    3.6600001722.0    3.5000001726.0    3.5500001729.0    4.0450001748.0    3.9000001749.0    3.7300001759.0    3.7600001762.0    3.7500001764.0    3.1800001767.0    3.7400001774.0    3.6300001776.0    4.0720001781.0    3.9200001782.0    4.0700001785.0    3.7800001787.0    4.2950001789.0    4.1100001791.0    3.8300001796.0    3.8000001798.0    3.9300001807.0    3.9100001808.0    3.9300001811.0    4.0600001812.0    4.1575001813.0    4.3950001814.0    3.8400001815.0    3.9900001817.0    3.9650001818.0    3.7500001819.0    3.8400001820.0    3.9900001825.0    4.1300001826.0    3.6900001830.0    4.1200001831.0    3.9700001832.0    3.9700001833.0    4.0133331834.0    3.8200001835.0    4.1233331836.0    3.9700001837.0    3.8200001838.0    3.8500001839.0    3.8800001840.0    3.9400001841.0    4.0300001842.0    4.0825001843.0    4.1012501844.0    4.1020001845.0    4.0900001846.0    4.0900001847.0    3.8325001848.0    3.8650001849.0    4.1740001850.0    3.6700001851.0    3.4550001852.0    3.8300001853.0    3.9300001854.0    3.8450001855.0    4.0450001856.0    3.8100001857.0    3.9866671859.0    3.9100001860.0    3.8733331861.0    3.8400001862.0    3.9525001863.0    3.7400001864.0    4.0533331865.0    4.0250001866.0    4.0433331867.0    3.7100001868.0    4.0100001869.0    3.9120001871.0    3.7200001872.0    3.9760001874.0    4.0066671876.0    3.9525001877.0    3.9800001878.0    3.6000001879.0    3.6900001880.0    4.0050001881.0    3.8766671882.0    4.0400001883.0    3.9866671884.0    3.9725001885.0    4.0000001886.0    3.8811111887.0    4.0200001888.0    3.9825001889.0    3.8533331890.0    4.0383331891.0    4.0166671892.0    4.1500001893.0    3.8900001894.0    4.1116671895.0    3.8875001896.0    4.1133331897.0    3.8616671898.0    3.4500001899.0    3.8787501900.0    3.9200001901.0    3.9575001902.0    4.0450001903.0    3.9600001904.0    3.9683331905.0    4.1266671906.0    3.9400001907.0    3.7800001908.0    4.1528571909.0    4.2640001910.0    3.8733331911.0    3.7475001912.0    3.8900001913.0    3.9900001914.0    4.0740001915.0    4.0070001916.0    4.0925001917.0    4.1950001918.0    3.9750001919.0    4.0300001920.0    3.8871431921.0    4.1233331922.0    3.9327271923.0    4.0633331924.0    3.9377781925.0    3.9327271926.0    4.1533331927.0    4.0353851928.0    3.9028571929.0    3.9850001930.0    3.9871431931.0    4.1140001932.0    4.0110001933.0    3.9518181934.0    4.0230001935.0    4.0500001936.0    4.0547061937.0    3.9921431938.0    3.9611761939.0    4.1126671940.0    4.0784211941.0    4.0936361942.0    4.0705261943.0    4.0840001944.0    4.1060001945.0    4.0187501946.0    4.1750001947.0    4.0727271948.0    4.0987501949.0    4.0607691950.0    4.0750001951.0    4.0253851952.0    4.0163161953.0    4.0311541954.0    4.0100001955.0    4.0745831956.0    4.1019231957.0    4.0294741958.0    4.0020831959.0    4.0091671960.0    4.1359091961.0    4.0430301962.0    4.0237501963.0    4.0900001964.0    4.0526321965.0    4.1078261966.0    3.9947621967.0    4.0870831968.0    4.0762861969.0    4.0512501970.0    3.9918181971.0    4.0822581972.0    3.9563331973.0    4.0282861974.0    4.0290001975.0    4.0460001976.0    4.0769231977.0    4.0250001978.0    4.0827081979.0    4.0595831980.0    3.9903701981.0    3.9910001982.0    4.0582671983.0    3.9909091984.0    4.0359701985.0    4.0110391986.0    4.0933331987.0    4.0048191988.0    4.0475281989.0    4.0590801990.0    4.0576771991.0    4.0345921992.0    4.0294641993.0    4.0452171994.0    4.0344631995.0    4.0154761996.0    4.0479751997.0    4.0108931998.0    4.0087791999.0    4.0025272000.0    3.9960772001.0    3.9823892002.0    3.9835562003.0    3.9793062004.0    3.9855052005.0    3.9632822006.0    3.9705802007.0    3.9670802008.0    3.9731852009.0    3.9842822010.0    3.9986892011.0    3.9976982012.0    4.0087502013.0    4.0122972014.0    3.9853782015.0    3.9546412016.0    4.0275762017.0    4.100909
Name: average_rating, dtype: float64Process finished with exit code 0

day05总结

机器学习-数据科学库-day5相关推荐

  1. 机器学习-数据科学库-day6

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 机器学习-数据科学库-day6 pandas学习 动手练习 pandas中的时间序列 生成一段时间范围 关于频率的更多缩写 在Data ...

  2. 机器学习-数据科学库-day1

    机器学习-数据科学库-day1 机器学习-数据科学库-day1 matplotlib 机器学习-数据科学库-day1 数据分析课程包括: 基础概念与环境 matplotlib numpy pandas ...

  3. 机器学习-数据科学库:matplotlib绘图

    机器学习-数据科学库:matplotlib绘图 matplotlib绘图 matplotlib折线图 matplotlib散点图 matplotlib条形图 matplotlib直方图 对比常用统计图 ...

  4. 机器学习-数据科学库:Pandas总结(1)

    机器学习-数据科学库:Pandas总结(1) Pandas pandas的常用数据类型 pandas之Series创建 pandas之Series切片和索引 pandas之读取外部数据 pandas之 ...

  5. HuaPu在学:机器学习——数据科学库【matplotlib】

    数据科学库[matplotlib] 文章目录 数据科学库[matplotlib] 前言 一.数据分析介绍及环境安装 1.为什么要数据分析??? 2.环境安装 二.matplotlib 1.为什么学习m ...

  6. 机器学习-数据科学库(第三天)

    14.numpy的数组的创建 什么是numpy 一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型.多维数组上执行数值运算(数组就是列表.列表 ...

  7. 机器学习-数据科学库(第六天)

    37.pandas时间序列01 现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况, ...

  8. 机器学习-数据科学库(第五天)

    31.数据的合并和分组聚合--字符串离散化的案例 字符串离散化的案例 刚刚我们学会了数据分合并,那么接下来,我们按照电影分类(genre)信息把数据呈现出来 import numpy as np im ...

  9. 机器学习-数据科学库(第四天)

    23.pandas的series的了解 为什么要学习pandas numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于numpy),还能够帮助我们处理其他类型的数据 pandas的常 ...

最新文章

  1. 【LeetCode OJ】Remove Duplicates from Sorted List
  2. linux系统获取用户信息失败怎么办,异常详细信息: System.Data.SqlClient.SqlException: 用户 'NT AUTHORITY\IUSR' 登录失败解决办法...
  3. spring boot 表单的实体提交错误:Validation failed for object='book'. Error count: 2
  4. confusion_matrix(混淆矩阵)
  5. CSDN光合计划-纯干货-推荐几个Java全系列学习教程
  6. linux将所有文件生成lst_Linux自定义repo文件
  7. Java笔记-spring-rabbitmq中queue设置argument(添加x-message-ttl)
  8. Eclipse之Project facet Java version 1.8 is not supported.
  9. Thumbnailator java图片压缩,加水印,批量生成缩略图
  10. 力特usb转232驱动程序下载_电脑USB接口、U盘接口不能使用的原因及解决方法
  11. pc软件签名:数字证书的使用
  12. Python 微信自动化工具开发系列03_自动向微信好友发送信息和文件(2022年10月可用)
  13. 计算机能连上手机热点却无法连上无线网络,笔记本电脑win10系统无法连接手机热点,却能连上WiFi怎么办?...
  14. 编写程序,生成一种贯穿10×10字符数组(初始时全为字符‘.‘)的“随机步法”。
  15. vb msgbox各种图标样式及按钮样式
  16. unity设置中文版
  17. 浅谈数码相机成像中 ISO(感光度)的作用
  18. 接口测试入门番外篇——如何在谷歌浏览器中集成postman这款接口测试工具呢?
  19. 谷粒商城-分布式事务
  20. C++的反思(知乎精华)

热门文章

  1. 【云计算】阿里云云计算架构师ACE成长路线v2
  2. 轻量化html编辑器,web端实现富文本编辑器
  3. window.location.href如何多次请求_测试同学必会系列之如何进行幂等性的测试
  4. 2018届c++B 格雷码;调手表(lowbit运算)
  5. C++练习题(数组1)
  6. C#基础16:事件与观察者模式
  7. bzoj 2803: [Poi2012]Prefixuffix(双Hash)
  8. C++ STL min_element和max_element的使用方法
  9. [转] 面向对象编程介绍
  10. js系列教程5-数据结构和算法全解