机器学习-数据科学库-day5
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
机器学习-数据科学库-day5
- pandas学习
- pandas之DataFrame
- pandas常用统计方法
- 将字符串离散化
- 数据合并之join
- 数据合并之merge
- pandas的分组和聚合
- 分组和聚合python练习
- 索引和复合索引
- 索引和复合索引练习
- 动手练习-1
- 动手练习-2
- day05总结
pandas学习
pandas之DataFrame
pandas常用统计方法
将字符串离散化
对于一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?
思路:重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1
#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
import numpy as np
from matplotlib import pyplot as plt#设置行不限制数量
pd.set_option('display.max_rows',50)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',50)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',80)file_path="../day04/IMDB-Movie-Data.csv"
df=pd.read_csv(file_path)#print(df["Genre"])#统计分类的列表
temp_list=df["Genre"].str.split(",").tolist() #[[],[],[]]
#print(temp_list)
genre_list=list(set([i for j in temp_list for i in j]))
#print(genre_list)#构造全为0的数组:zeros_df
zeros_df=pd.DataFrame(np.zeros((df.shape[0],len(genre_list)),dtype=int),columns=genre_list)
#print(zeros_df)#给每个电影出现分类的位置赋值1
for i in range(df.shape[0]):zeros_df.loc[i,temp_list[i]]=1
#print(zeros_df.head(3))#统计每个分类电影的数量和
genre_count=zeros_df.sum(axis=0)
#print(genre_count)
#排序
genre_count=genre_count.sort_values()
print(genre_count)_x=genre_count.index
#print(_x)
_y=genre_count.values
#print(_y)#画图
plt.figure(figsize=(20,12),dpi=80)
plt.bar(range(len(_x)),_y,width=0.5,color="orange")
plt.xticks(range(len(_x)),_x)
plt.yticks(range(0,600,50))plt.grid()
plt.show()
运行结果:
C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page125.py
Musical 5
Western 7
War 13
Music 16
Sport 18
History 29
Animation 49
Family 51
Biography 81
Fantasy 101
Mystery 106
Horror 119
Sci-Fi 120
Romance 141
Crime 150
Thriller 195
Adventure 259
Comedy 279
Action 303
Drama 513
dtype: int64Process finished with exit code 0
数据合并之join
join:默认情况下他是把行索引相同的数据合并到一起
数据合并之merge
merge:按照指定的列把数据按照一定的方式合并到一起
#!usr/bin/env python
# -*- coding:utf-8 _*-
import pandas as pd
import numpy as np#join:默认情况下,是把行索引相同的数据合并到一起,join按照index进行df1=pd.DataFrame(np.ones((2,4),dtype=int),index=["A","B"],columns=[list("abcd")])
df2=pd.DataFrame(np.zeros((3,3),dtype=int),index=["A","B","C"],columns=[list("xyz")])print(df1)
print(df2)
print("*"*100)
print(df1.join(df2))
print("*"*100)
print(df2.join(df1))#merge:按照指定的列把数据按照一定的方式合并到一起,merge按照columns进行
df3=pd.DataFrame(np.ones((3,4)),index=["A","B","C"],columns=list("MNOP"))
df3.loc[:,"O"]=["a","b","c"]
print(df3)df4=pd.DataFrame(np.zeros((2,5)),index=["A","B"],columns=list("VWXYZ"))
df4.loc[:,"X"]=["c","d"]
print(df4)#默认的合并方式inner,交集
print(df3.merge(df4,left_on="O",right_on="X"))
print(df3.merge(df4,left_on="O",right_on="X",how="inner"))#merge outer,并集,NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="outer"))
#merge left,左边为准,NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="left"))
#merge right,右边为准,NaN补全
print(df3.merge(df4,left_on="O",right_on="X",how="right"))
运行结果:
C:\ANACONDA\python.exe "C:/Users/Lenovo/PycharmProjects/Code/day05/test pandas_join and merge.py"a b c d
A 1 1 1 1
B 1 1 1 1x y z
A 0 0 0
B 0 0 0
C 0 0 0
****************************************************************************************************a b c d x y z
A 1 1 1 1 0 0 0
B 1 1 1 1 0 0 0
****************************************************************************************************x y z a b c d
A 0 0 0 1.0 1.0 1.0 1.0
B 0 0 0 1.0 1.0 1.0 1.0
C 0 0 0 NaN NaN NaN NaNM N O P
A 1.0 1.0 a 1.0
B 1.0 1.0 b 1.0
C 1.0 1.0 c 1.0V W X Y Z
A 0.0 0.0 c 0.0 0.0
B 0.0 0.0 d 0.0 0.0M N O P V W X Y Z
0 1.0 1.0 c 1.0 0.0 0.0 c 0.0 0.0M N O P V W X Y Z
0 1.0 1.0 c 1.0 0.0 0.0 c 0.0 0.0M N O P V W X Y Z
0 1.0 1.0 a 1.0 NaN NaN NaN NaN NaN
1 1.0 1.0 b 1.0 NaN NaN NaN NaN NaN
2 1.0 1.0 c 1.0 0.0 0.0 c 0.0 0.0
3 NaN NaN NaN NaN 0.0 0.0 d 0.0 0.0M N O P V W X Y Z
0 1.0 1.0 a 1.0 NaN NaN NaN NaN NaN
1 1.0 1.0 b 1.0 NaN NaN NaN NaN NaN
2 1.0 1.0 c 1.0 0.0 0.0 c 0.0 0.0M N O P V W X Y Z
0 1.0 1.0 c 1.0 0.0 0.0 c 0.0 0.0
1 NaN NaN NaN NaN 0.0 0.0 d 0.0 0.0Process finished with exit code 0
pandas的分组和聚合
现在我们有一组关于全球星巴克店铺的统计数据,如果我想知道美国的星巴克数量和中国的哪个多,或者我想知道中国每个省份星巴克的数量的情况,那么应该怎么办?
在pandas中类似的分组的操作我们有很简单的方式来完成
df.groupby(by=“columns_name”)
grouped = df.groupby(by=“columns_name”)
grouped是一个DataFrameGroupBy对象,是可迭代的
grouped中的每一个元素是一个元组
元组里面是(索引(分组的值),分组之后的DataFrame)
要统计美国和中国的星巴克的数量,我们应该怎么做?
DataFrameGroupBy对象有很多经过优化的方法
如果我们需要对国家和省份进行分组统计,应该怎么操作呢?
grouped = df.groupby(by=[df[“Country”],df[“State/Province”]])
很多时候我们只希望对获取分组之后的某一部分数据,或者说我们只希望对某几列数据进行分组,这个时候我们应该怎么办呢?
获取分组之后的某一部分数据:
df.groupby(by=[“Country”,“State/Province”])[“Country”].count()
对某几列数据进行分组:
df[“Country”].groupby(by=[df[“Country”],df[“State/Province”]]).count()
观察结果,由于只选择了一列数据,所以结果是一个Series类型
如果我想返回一个DataFrame类型呢?
t1 = df[[“Country”]].groupby(by[df[“Country”],df[“State/Province”]]).count()
t2 = df.groupby(by=[“Country”,“State/Province”])[[“Country”]].count()
以上的两条命令结果一样
和之前的结果的区别在于当前返回的是一个DataFrame类型
分组和聚合python练习
import pandas as pd
import numpy as np#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)
# print(df.head(3))
#print(df.info())
grouped=df.groupby(by="Country")
#print(grouped)
# print("*"*100)
#DataFrameGroupBy
#可以进行遍历# for i,j in grouped:
# print(i,type(i))
# print("*" * 100)
# print(j,type(j))
# print("-"*100)# print(df[df["Country"]=="US"])# 调用聚合方法
country_count=grouped["Brand"].count()
print(country_count)
print(country_count["US"])
print(country_count["CN"])#统计中国每个省店铺的数量
china_data=df[df["Country"]=="CN"]
provice_grouped=china_data.groupby(by="State/Province").count()["Brand"]
print(provice_grouped)#数据按照多个条件进行分组,返回series
#print(df["Brand"])
grouped=df["Brand"].groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped)
print(type(grouped))#数据按照多个条件进行分组,返回DataFrame
grouped1=df[["Brand"]].groupby(by=[df["Country"],df["State/Province"]]).count()
grouped2=df.groupby(by=[df["Country"],df["State/Province"]])[["Brand"]].count()
grouped3=df.groupby(by=[df["Country"],df["State/Province"]]).count()[["Brand"]]print(grouped1,type(grouped1))
print("*"*100)
print(grouped2,type(grouped2))
print("*"*100)
print(grouped3,type(grouped3))#索引的方法和属性
print(grouped1.index)
# print(grouped2.index)
# print(grouped3.index)
运行结果:
C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page130.py
Country
AD 1
AE 144
AR 108
AT 18
AU 22
AW 3
AZ 4
BE 19
BG 5
BH 21
BN 5
BO 4
BR 102
BS 10
CA 1468
CH 61
CL 96
CN 2734
CO 11
CR 11
CW 3
CY 10
CZ 28
DE 160
DK 21
EG 31
ES 101
FI 8
FR 132
GB 901
GR 28
GT 7
HU 16
ID 268
IE 73
IN 88
JO 17
JP 1237
KH 4
KR 993
KW 106
KZ 8
LB 29
LU 2
MA 9
MC 2
MX 579
MY 234
NL 59
NO 17
NZ 24
OM 12
PA 5
PE 89
PH 298
PL 53
PR 24
PT 11
QA 18
RO 27
RU 109
SA 102
SE 18
SG 130
SK 3
SV 11
TH 289
TR 326
TT 3
TW 394
US 13608
VN 25
ZA 3
Name: Brand, dtype: int64
13608
2734
State/Province
11 236
12 58
13 24
14 8
15 8
21 57
22 13
23 16
31 551
32 354
33 315
34 26
35 75
36 13
37 75
41 21
42 76
43 35
44 333
45 21
46 16
50 41
51 104
52 9
53 24
61 42
62 3
63 3
64 2
91 162
92 13
Name: Brand, dtype: int64
Country State/Province
AD 7 1
AE AJ 2AZ 48DU 82FU 2..
US WV 25WY 23
VN HN 6SG 19
ZA GT 3
Name: Brand, Length: 545, dtype: int64
<class 'pandas.core.series.Series'>Brand
Country State/Province
AD 7 1
AE AJ 2AZ 48DU 82FU 2
... ...
US WV 25WY 23
VN HN 6SG 19
ZA GT 3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
****************************************************************************************************Brand
Country State/Province
AD 7 1
AE AJ 2AZ 48DU 82FU 2
... ...
US WV 25WY 23
VN HN 6SG 19
ZA GT 3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
****************************************************************************************************Brand
Country State/Province
AD 7 1
AE AJ 2AZ 48DU 82FU 2
... ...
US WV 25WY 23
VN HN 6SG 19
ZA GT 3[545 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
MultiIndex([('AD', '7'),('AE', 'AJ'),('AE', 'AZ'),('AE', 'DU'),('AE', 'FU'),('AE', 'RK'),('AE', 'SH'),('AE', 'UQ'),('AR', 'B'),('AR', 'C'),...('US', 'UT'),('US', 'VA'),('US', 'VT'),('US', 'WA'),('US', 'WI'),('US', 'WV'),('US', 'WY'),('VN', 'HN'),('VN', 'SG'),('ZA', 'GT')],names=['Country', 'State/Province'], length=545)Process finished with exit code 0
索引和复合索引
简单的索引操作:
获取index:df.index
指定index :df.index = [‘x’,‘y’]
重新设置index : df.reindex(list(“abcedf”))
指定某一列作为index :df.set_index(“Country”,drop=False)
返回index的唯一值:df.set_index(“Country”).index.unique()
索引和复合索引练习
#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
import numpy as np
#索引和复合索引
a = pd.DataFrame({'a': range(7),'b': range(7, 0, -1),'c': ['one','one','one','two','two','two', 'two'],'d': list("hjklmno")})
print(a)b=a.set_index(["c","d"])
print(b)
print(type(b))c=b["a"]
print(c)
print(type(c))#Series复合索引
print(c["one"])
print(c["one"]["j"])#用swaplevel(),交换索引的位置,便于筛选。 对于Series,直接加["值"]; 对于DataFrame,需要用.loc加["值"]
d=a.set_index(["d","c"])
print(d,type(d))
print(d.swaplevel().loc["one"])e=a.set_index(["d","c"])["a"]
print(e,type(e))
print(e.swaplevel()["one"])
运行结果:
C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/test_fuhesuoyi.pya b c d
0 0 7 one h
1 1 6 one j
2 2 5 one k
3 3 4 two l
4 4 3 two m
5 5 2 two n
6 6 1 two oa b
c d
one h 0 7j 1 6k 2 5
two l 3 4m 4 3n 5 2o 6 1
<class 'pandas.core.frame.DataFrame'>
c d
one h 0j 1k 2
two l 3m 4n 5o 6
Name: a, dtype: int64
<class 'pandas.core.series.Series'>
d
h 0
j 1
k 2
Name: a, dtype: int64
1a b
d c
h one 0 7
j one 1 6
k one 2 5
l two 3 4
m two 4 3
n two 5 2
o two 6 1 <class 'pandas.core.frame.DataFrame'>a b
d
h 0 7
j 1 6
k 2 5
d c
h one 0
j one 1
k one 2
l two 3
m two 4
n two 5
o two 6
Name: a, dtype: int64 <class 'pandas.core.series.Series'>
d
h 0
j 1
k 2
Name: a, dtype: int64Process finished with exit code 0
动手练习-1
- 使用matplotlib呈现出店铺总数排名前10的国家
#!usr/bin/env python
# -*- coding:utf-8 _*-
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)#使用matplotlib呈现出店铺总数排名前10的国家#准备数据
data1=df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]
print(data1)_x=data1.index
_y=data1.values#画图
plt.figure(figsize=(20,16),dpi=80)plt.bar(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x)
plt.grid()
plt.show()
运行结果:
C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page140.py
Country
US 13608
CN 2734
CA 1468
JP 1237
KR 993
GB 901
MX 579
TW 394
TR 326
PH 298
Name: Brand, dtype: int64Process finished with exit code 0
2. 使用matplotlib呈现出每个中国每个城市的店铺数量
#!usr/bin/env python
# -*- coding:utf-8 _*-
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from matplotlib import font_manager#设置中文字体(指定具体的字体文件路径,然后在需要显示中文的地方添加fontproperties参数)
my_font=font_manager.FontProperties(fname="C:/Windows/Fonts/simhei.ttf")#设置行不限制数量
pd.set_option('display.max_rows',100)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',100)
#最后的的参数可以限制输出列的数量#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',100)file_path="./starbucks_store_worldwide.csv"df=pd.read_csv(file_path)
df=df[df["Country"]=="CN"]#使用matplotlib呈现出每个中国每个城市的店铺数量
#准备数据
data1=df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:25]
print(data1)_x=data1.index
_y=data1.values#画图
plt.figure(figsize=(20,16),dpi=80)
# plt.bar(range(len(_x)),_y,width=0.3,color="orange")
plt.barh(range(len(_x)),_y,height=0.3,color="orange")# plt.xticks(range(len(_x)),_x,fontproperties=my_font)
plt.yticks(range(len(_x)),_x,fontproperties=my_font)
plt.grid()
plt.show()
运行结果:
C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page140_2.py
City
上海市 542
北京市 234
杭州市 117
深圳市 113
广州市 106
Hong Kong 104
成都市 98
苏州市 90
南京市 73
武汉市 67
宁波市 59
天津市 58
重庆市 41
西安市 40
无锡市 40
佛山市 33
东莞市 31
厦门市 31
青岛市 28
长沙市 26
常州市 26
大连市 25
沈阳市 24
福州市 23
昆明市 21
Name: Brand, dtype: int64Process finished with exit code 0
动手练习-2
现在我们有全球排名靠前的10000本书的数据,那么请统计一下下面几个问题:
- 不同年份书的数量
- 不同年份书的平均评分情况
#!usr/bin/env python
# -*- coding:utf-8 _*-import pandas as pd
from matplotlib import pyplot as plt#设置行不限制数量
pd.set_option('display.max_rows',None)
#最后的的参数可以限制输出行的数量
#设置列不限制数量
pd.set_option('display.max_columns',None)
#最后的的参数可以限制输出列的数量
#设置value的显示长度为80,默认为50
pd.set_option('max_colwidth',None)file_path="./books.csv"
df=pd.read_csv(file_path)# print(df.head(1))
# print(df.info())#不同年份书的数量
data1=df[pd.notnull(df["original_publication_year"])] #布尔运算将对应列“original_publication_year”的nan行删除
grouped=data1.groupby(by="original_publication_year").count()["title"]
print(grouped)#不同年份书的平均评分情况data1=df[pd.notnull(df["original_publication_year"])] #布尔运算将对应列“original_publication_year”的nan行删除
grouped=data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()
# grouped_1=data1["average_rating"].groupby(by=data1["original_publication_year"]).count()
print(grouped)
# print(grouped_1)#画图
_x=grouped.index
_y=grouped.valuesplt.figure(figsize=(20,12),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(list(range(len(_x)))[::10],_x[::10].astype("int"),rotation=45)
plt.show()
运行结果:
C:\ANACONDA\python.exe C:/Users/Lenovo/PycharmProjects/Code/day05/page141.py
original_publication_year
-1750.0 1
-762.0 1
-750.0 2
-720.0 1
-560.0 1
-500.0 3
-476.0 1
-458.0 2
-441.0 1
-440.0 1
-431.0 1
-430.0 1
-411.0 2
-401.0 1
-400.0 2
-390.0 1
-385.0 2
-380.0 1
-350.0 2
-335.0 1
-330.0 1
-300.0 1
-17.0 18.0 1119.0 1180.0 1397.0 1609.0 1800.0 1975.0 11120.0 11273.0 11308.0 11320.0 31353.0 11380.0 11390.0 21418.0 11485.0 11513.0 11516.0 11519.0 11532.0 11550.0 11554.0 11563.0 11589.0 11590.0 11591.0 11592.0 11593.0 11594.0 11595.0 31596.0 11597.0 11598.0 11599.0 31600.0 21601.0 11603.0 31604.0 11605.0 11606.0 21611.0 11623.0 21637.0 21641.0 11645.0 11651.0 11664.0 11666.0 11667.0 11677.0 11678.0 11689.0 31691.0 11719.0 11722.0 11726.0 11729.0 21748.0 11749.0 11759.0 11762.0 11764.0 11767.0 11774.0 11776.0 51781.0 11782.0 11785.0 11787.0 21789.0 11791.0 11796.0 11798.0 11807.0 11808.0 11811.0 11812.0 41813.0 21814.0 11815.0 11817.0 21818.0 11819.0 21820.0 21825.0 11826.0 11830.0 21831.0 11832.0 11833.0 31834.0 11835.0 31836.0 21837.0 11838.0 11839.0 31840.0 31841.0 21842.0 41843.0 81844.0 51845.0 41846.0 11847.0 41848.0 61849.0 51850.0 21851.0 21852.0 11853.0 51854.0 41855.0 21856.0 21857.0 31859.0 61860.0 31861.0 41862.0 41863.0 11864.0 31865.0 61866.0 31867.0 11868.0 41869.0 51871.0 51872.0 51874.0 31876.0 41877.0 21878.0 21879.0 11880.0 61881.0 31882.0 21883.0 31884.0 41885.0 41886.0 91887.0 51888.0 41889.0 31890.0 61891.0 31892.0 41893.0 31894.0 61895.0 81896.0 31897.0 61898.0 11899.0 81900.0 61901.0 41902.0 61903.0 41904.0 61905.0 61906.0 51907.0 21908.0 71909.0 51910.0 31911.0 41912.0 91913.0 51914.0 51915.0 101916.0 41917.0 21918.0 21919.0 61920.0 71921.0 31922.0 111923.0 61924.0 91925.0 111926.0 121927.0 131928.0 71929.0 101930.0 141931.0 51932.0 101933.0 111934.0 101935.0 81936.0 171937.0 141938.0 171939.0 151940.0 191941.0 111942.0 191943.0 151944.0 101945.0 161946.0 141947.0 221948.0 161949.0 131950.0 141951.0 131952.0 191953.0 261954.0 211955.0 241956.0 261957.0 191958.0 241959.0 241960.0 221961.0 331962.0 321963.0 311964.0 191965.0 231966.0 211967.0 241968.0 351969.0 321970.0 331971.0 311972.0 301973.0 351974.0 401975.0 401976.0 391977.0 561978.0 481979.0 481980.0 541981.0 501982.0 751983.0 441984.0 671985.0 771986.0 781987.0 831988.0 891989.0 871990.0 991991.0 981992.0 1121993.0 1151994.0 1211995.0 1261996.0 1631997.0 1681998.0 1721999.0 1862000.0 2092001.0 2262002.0 2252003.0 2882004.0 3072005.0 3262006.0 3622007.0 3632008.0 3832009.0 4322010.0 4732011.0 5562012.0 5682013.0 5182014.0 4372015.0 3062016.0 1982017.0 11
Name: title, dtype: int64
original_publication_year
-1750.0 3.630000
-762.0 4.030000
-750.0 4.005000
-720.0 3.730000
-560.0 4.050000
-500.0 4.146667
-476.0 3.820000
-458.0 3.905000
-441.0 3.600000
-440.0 3.970000
-431.0 3.830000
-430.0 3.670000
-411.0 3.855000
-401.0 3.960000
-400.0 4.080000
-390.0 4.150000
-385.0 4.055000
-380.0 3.900000
-350.0 3.910000
-335.0 3.810000
-330.0 4.000000
-300.0 4.310000
-17.0 3.8100008.0 4.030000119.0 4.050000180.0 4.200000397.0 3.880000609.0 4.340000800.0 4.060000975.0 3.4200001120.0 4.1800001273.0 4.4400001308.0 4.0600001320.0 3.9800001353.0 3.8600001380.0 4.6300001390.0 3.5800001418.0 4.1900001485.0 3.9200001513.0 3.7800001516.0 3.5000001519.0 3.9700001532.0 3.7100001550.0 3.7800001554.0 3.4900001563.0 4.2500001589.0 3.7100001590.0 3.5500001591.0 3.9200001592.0 4.2400001593.0 3.8100001594.0 3.7400001595.0 3.8100001596.0 3.7800001597.0 3.8100001598.0 4.0600001599.0 3.7833331600.0 3.8450001601.0 3.9700001603.0 3.8133331604.0 3.7900001605.0 3.8500001606.0 3.7750001611.0 4.4300001623.0 4.1450001637.0 3.6850001641.0 3.6900001645.0 4.0900001651.0 3.6600001664.0 3.6600001666.0 3.7800001667.0 3.8000001677.0 4.0100001678.0 3.9800001689.0 3.7933331691.0 4.3200001719.0 3.6600001722.0 3.5000001726.0 3.5500001729.0 4.0450001748.0 3.9000001749.0 3.7300001759.0 3.7600001762.0 3.7500001764.0 3.1800001767.0 3.7400001774.0 3.6300001776.0 4.0720001781.0 3.9200001782.0 4.0700001785.0 3.7800001787.0 4.2950001789.0 4.1100001791.0 3.8300001796.0 3.8000001798.0 3.9300001807.0 3.9100001808.0 3.9300001811.0 4.0600001812.0 4.1575001813.0 4.3950001814.0 3.8400001815.0 3.9900001817.0 3.9650001818.0 3.7500001819.0 3.8400001820.0 3.9900001825.0 4.1300001826.0 3.6900001830.0 4.1200001831.0 3.9700001832.0 3.9700001833.0 4.0133331834.0 3.8200001835.0 4.1233331836.0 3.9700001837.0 3.8200001838.0 3.8500001839.0 3.8800001840.0 3.9400001841.0 4.0300001842.0 4.0825001843.0 4.1012501844.0 4.1020001845.0 4.0900001846.0 4.0900001847.0 3.8325001848.0 3.8650001849.0 4.1740001850.0 3.6700001851.0 3.4550001852.0 3.8300001853.0 3.9300001854.0 3.8450001855.0 4.0450001856.0 3.8100001857.0 3.9866671859.0 3.9100001860.0 3.8733331861.0 3.8400001862.0 3.9525001863.0 3.7400001864.0 4.0533331865.0 4.0250001866.0 4.0433331867.0 3.7100001868.0 4.0100001869.0 3.9120001871.0 3.7200001872.0 3.9760001874.0 4.0066671876.0 3.9525001877.0 3.9800001878.0 3.6000001879.0 3.6900001880.0 4.0050001881.0 3.8766671882.0 4.0400001883.0 3.9866671884.0 3.9725001885.0 4.0000001886.0 3.8811111887.0 4.0200001888.0 3.9825001889.0 3.8533331890.0 4.0383331891.0 4.0166671892.0 4.1500001893.0 3.8900001894.0 4.1116671895.0 3.8875001896.0 4.1133331897.0 3.8616671898.0 3.4500001899.0 3.8787501900.0 3.9200001901.0 3.9575001902.0 4.0450001903.0 3.9600001904.0 3.9683331905.0 4.1266671906.0 3.9400001907.0 3.7800001908.0 4.1528571909.0 4.2640001910.0 3.8733331911.0 3.7475001912.0 3.8900001913.0 3.9900001914.0 4.0740001915.0 4.0070001916.0 4.0925001917.0 4.1950001918.0 3.9750001919.0 4.0300001920.0 3.8871431921.0 4.1233331922.0 3.9327271923.0 4.0633331924.0 3.9377781925.0 3.9327271926.0 4.1533331927.0 4.0353851928.0 3.9028571929.0 3.9850001930.0 3.9871431931.0 4.1140001932.0 4.0110001933.0 3.9518181934.0 4.0230001935.0 4.0500001936.0 4.0547061937.0 3.9921431938.0 3.9611761939.0 4.1126671940.0 4.0784211941.0 4.0936361942.0 4.0705261943.0 4.0840001944.0 4.1060001945.0 4.0187501946.0 4.1750001947.0 4.0727271948.0 4.0987501949.0 4.0607691950.0 4.0750001951.0 4.0253851952.0 4.0163161953.0 4.0311541954.0 4.0100001955.0 4.0745831956.0 4.1019231957.0 4.0294741958.0 4.0020831959.0 4.0091671960.0 4.1359091961.0 4.0430301962.0 4.0237501963.0 4.0900001964.0 4.0526321965.0 4.1078261966.0 3.9947621967.0 4.0870831968.0 4.0762861969.0 4.0512501970.0 3.9918181971.0 4.0822581972.0 3.9563331973.0 4.0282861974.0 4.0290001975.0 4.0460001976.0 4.0769231977.0 4.0250001978.0 4.0827081979.0 4.0595831980.0 3.9903701981.0 3.9910001982.0 4.0582671983.0 3.9909091984.0 4.0359701985.0 4.0110391986.0 4.0933331987.0 4.0048191988.0 4.0475281989.0 4.0590801990.0 4.0576771991.0 4.0345921992.0 4.0294641993.0 4.0452171994.0 4.0344631995.0 4.0154761996.0 4.0479751997.0 4.0108931998.0 4.0087791999.0 4.0025272000.0 3.9960772001.0 3.9823892002.0 3.9835562003.0 3.9793062004.0 3.9855052005.0 3.9632822006.0 3.9705802007.0 3.9670802008.0 3.9731852009.0 3.9842822010.0 3.9986892011.0 3.9976982012.0 4.0087502013.0 4.0122972014.0 3.9853782015.0 3.9546412016.0 4.0275762017.0 4.100909
Name: average_rating, dtype: float64Process finished with exit code 0
day05总结
机器学习-数据科学库-day5相关推荐
- 机器学习-数据科学库-day6
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 机器学习-数据科学库-day6 pandas学习 动手练习 pandas中的时间序列 生成一段时间范围 关于频率的更多缩写 在Data ...
- 机器学习-数据科学库-day1
机器学习-数据科学库-day1 机器学习-数据科学库-day1 matplotlib 机器学习-数据科学库-day1 数据分析课程包括: 基础概念与环境 matplotlib numpy pandas ...
- 机器学习-数据科学库:matplotlib绘图
机器学习-数据科学库:matplotlib绘图 matplotlib绘图 matplotlib折线图 matplotlib散点图 matplotlib条形图 matplotlib直方图 对比常用统计图 ...
- 机器学习-数据科学库:Pandas总结(1)
机器学习-数据科学库:Pandas总结(1) Pandas pandas的常用数据类型 pandas之Series创建 pandas之Series切片和索引 pandas之读取外部数据 pandas之 ...
- HuaPu在学:机器学习——数据科学库【matplotlib】
数据科学库[matplotlib] 文章目录 数据科学库[matplotlib] 前言 一.数据分析介绍及环境安装 1.为什么要数据分析??? 2.环境安装 二.matplotlib 1.为什么学习m ...
- 机器学习-数据科学库(第三天)
14.numpy的数组的创建 什么是numpy 一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型.多维数组上执行数值运算(数组就是列表.列表 ...
- 机器学习-数据科学库(第六天)
37.pandas时间序列01 现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况, ...
- 机器学习-数据科学库(第五天)
31.数据的合并和分组聚合--字符串离散化的案例 字符串离散化的案例 刚刚我们学会了数据分合并,那么接下来,我们按照电影分类(genre)信息把数据呈现出来 import numpy as np im ...
- 机器学习-数据科学库(第四天)
23.pandas的series的了解 为什么要学习pandas numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于numpy),还能够帮助我们处理其他类型的数据 pandas的常 ...
最新文章
- 【LeetCode OJ】Remove Duplicates from Sorted List
- linux系统获取用户信息失败怎么办,异常详细信息: System.Data.SqlClient.SqlException: 用户 'NT AUTHORITY\IUSR' 登录失败解决办法...
- spring boot 表单的实体提交错误:Validation failed for object='book'. Error count: 2
- confusion_matrix(混淆矩阵)
- CSDN光合计划-纯干货-推荐几个Java全系列学习教程
- linux将所有文件生成lst_Linux自定义repo文件
- Java笔记-spring-rabbitmq中queue设置argument(添加x-message-ttl)
- Eclipse之Project facet Java version 1.8 is not supported.
- Thumbnailator java图片压缩,加水印,批量生成缩略图
- 力特usb转232驱动程序下载_电脑USB接口、U盘接口不能使用的原因及解决方法
- pc软件签名:数字证书的使用
- Python 微信自动化工具开发系列03_自动向微信好友发送信息和文件(2022年10月可用)
- 计算机能连上手机热点却无法连上无线网络,笔记本电脑win10系统无法连接手机热点,却能连上WiFi怎么办?...
- 编写程序,生成一种贯穿10×10字符数组(初始时全为字符‘.‘)的“随机步法”。
- vb msgbox各种图标样式及按钮样式
- unity设置中文版
- 浅谈数码相机成像中 ISO(感光度)的作用
- 接口测试入门番外篇——如何在谷歌浏览器中集成postman这款接口测试工具呢?
- 谷粒商城-分布式事务
- C++的反思(知乎精华)
热门文章
- 【云计算】阿里云云计算架构师ACE成长路线v2
- 轻量化html编辑器,web端实现富文本编辑器
- window.location.href如何多次请求_测试同学必会系列之如何进行幂等性的测试
- 2018届c++B 格雷码;调手表(lowbit运算)
- C++练习题(数组1)
- C#基础16:事件与观察者模式
- bzoj 2803: [Poi2012]Prefixuffix(双Hash)
- C++ STL min_element和max_element的使用方法
- [转] 面向对象编程介绍
- js系列教程5-数据结构和算法全解