IMDB-Movie-Data.csv

# 导包
import pandas  as pd
import numpy as np
from matplotlib import pyplot as plt# 读取文件显示前5行信息
path = "./data/IMDB-Movie-Data.csv"
#读取文件
df = pd.read_csv(path)
df.head()

1.电影数据中评分的平均分

df["Rating"].mean()
# 6.723199999999999

2.导演的人数

np.unique(df["Director"]).shape[0]
# 644

3.呈现rating，runtime的分布情况

# Rating分布# 1.创建画布
plt.figure(figsize=(20, 8), dpi=100)# 2.绘制图像
plt.hist(df["Rating"].values, bins=20)# 2.1 添加刻度
max_ = df["Rating"].max()
min_ = df["Rating"].min()t1 = np.linspace(min_, max_, num=21)plt.xticks(t1)# 2.2 添加网格
plt.grid()# 3.显示
plt.show()

# Runtime (Minutes)分布# 1.创建画布
plt.figure(figsize=(20, 8), dpi=100)# 2.绘制图像
plt.hist(df["Runtime (Minutes)"].values, bins=20)# 2.1 添加刻度
max_ = df["Runtime (Minutes)"].max()
min_ = df["Runtime (Minutes)"].min()t1 = np.linspace(min_, max_, num=21)plt.xticks(t1)# 2.2 添加网格
plt.grid()# 3.显示
plt.show()

4.统计电影分类(genre)的情况

temp_list = [i.split(',') for i in df["Genre"]]
temp_list

# 获取电影的分类
genre_list = np.unique([i for j in temp_list for i in j])
genre_list

temp_df = pd.DataFrame(np.zeros([df.shape[0],genre_list.shape[0]]),columns=genre_list)
temp_df.shape
# (1000, 20)

temp_df.head()

for i in range(df.shape[0]):temp_df.ix[i,temp_list[i]]=1
temp_df.head()

temp_df.sum().sort_values(ascending=False)

temp_df.sum().sort_values(ascending=False).plot(kind="bar",figsize=(20,8),fontsize=20, color='r', rot=45)

pandas练习 IMDB-Movie相关推荐

ML之NB、LoR：基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类
ML之NB.LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类注:LoR code waiting 目录输出结果核心代码输出结果数据集:Dat ...
[NLP]基于IMDB影评情感分析之BERT实战-测试集上92.24%
系列文章目录深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...
数据科学入门与实战：玩转pandas之二
Series,DateFrame的排序功能引入相关的包 import numpy as np import pandas as pd from pandas import Series,DataFr ...
数据科学 IPython 笔记本 7.4 Pandas 对象介绍
7.4 Pandas 对象介绍原文:Introducing Pandas Objects 译者:飞龙协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册>(Pyth ...
从imdb爬取ml-100k的电影封面
从imdb爬取ml-100k的电影封面 ml-100k:数据集,只用到了./ml-100k/u.item result: 电影封面电影id.jpg,可以用u.item找到id->电影名称对应关 ...
萌新向Python数据分析及数据挖掘第二章 pandas 第一节 pandas使用基础QA 1-15
这是油管上的一个帅哥的网课地址如下 https://www.youtube.com/watch?v=yzIMircGU5I&list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5 ...
电影评论情感分析-IMDB数据集 | python 利用朴素贝叶斯、神经网络模型
载入包 import torch # torch==1.7.1 import torch.nn as nn from torch.utils.data import Dataset from torc ...
python pandas库详解_Pandas 库的详解和使用补充
pandas 库总体说明 Pandas 基亍 NumPy.SciPy 补充了大量数据操作功能,能实现统计.凾组.排序.透规表,可以代替 Excel 的绛大部凾功能. Pandas 主要有 2 种重要 ...
Pandas的常用操作(一)
Pandas (Series, Dataframe) Pandas是一个强大的分析结构化数据的工具集:它的使用基础是Numpy(提供高性能的矩阵运算):用于数据挖掘,清洗和数据分析. import p ...
【DeepLearning 文本分类实战】IMDB Data Preprocessing数据预处理
一.Introduction 数据集下载地址 Sentiment Analysis (stanford.edu) 斯坦佛官方描述IMDB非常详细:用于二分类情感分类的数据集,包含25k训练集和25k测 ...

pandas练习 IMDB-Movie

IMDB-Movie-Data.csv

pandas练习 IMDB-Movie相关推荐

最新文章

热门文章