pandas练习 IMDB-Movie
IMDB-Movie-Data.csv
# 导包
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt# 读取文件显示前5行信息
path = "./data/IMDB-Movie-Data.csv"
#读取文件
df = pd.read_csv(path)
df.head()
1.电影数据中评分的平均分
df["Rating"].mean()
# 6.723199999999999
2.导演的人数
np.unique(df["Director"]).shape[0]
# 644
3.呈现rating,runtime的分布情况
# Rating分布# 1.创建画布
plt.figure(figsize=(20, 8), dpi=100)# 2.绘制图像
plt.hist(df["Rating"].values, bins=20)# 2.1 添加刻度
max_ = df["Rating"].max()
min_ = df["Rating"].min()t1 = np.linspace(min_, max_, num=21)plt.xticks(t1)# 2.2 添加网格
plt.grid()# 3.显示
plt.show()
# Runtime (Minutes)分布# 1.创建画布
plt.figure(figsize=(20, 8), dpi=100)# 2.绘制图像
plt.hist(df["Runtime (Minutes)"].values, bins=20)# 2.1 添加刻度
max_ = df["Runtime (Minutes)"].max()
min_ = df["Runtime (Minutes)"].min()t1 = np.linspace(min_, max_, num=21)plt.xticks(t1)# 2.2 添加网格
plt.grid()# 3.显示
plt.show()
4.统计电影分类(genre)的情况
temp_list = [i.split(',') for i in df["Genre"]]
temp_list
# 获取电影的分类
genre_list = np.unique([i for j in temp_list for i in j])
genre_list
temp_df = pd.DataFrame(np.zeros([df.shape[0],genre_list.shape[0]]),columns=genre_list)
temp_df.shape
# (1000, 20)
temp_df.head()
for i in range(df.shape[0]):temp_df.ix[i,temp_list[i]]=1
temp_df.head()
temp_df.sum().sort_values(ascending=False)
temp_df.sum().sort_values(ascending=False).plot(kind="bar",figsize=(20,8),fontsize=20, color='r', rot=45)
pandas练习 IMDB-Movie相关推荐
- ML之NB、LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类
ML之NB.LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类 注:LoR code waiting 目录 输出结果 核心代码 输出结果 数据集:Dat ...
- [NLP]基于IMDB影评情感分析之BERT实战-测试集上92.24%
系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...
- 数据科学入门与实战:玩转pandas之二
Series,DateFrame的排序功能 引入相关的包 import numpy as np import pandas as pd from pandas import Series,DataFr ...
- 数据科学 IPython 笔记本 7.4 Pandas 对象介绍
7.4 Pandas 对象介绍 原文:Introducing Pandas Objects 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册>(Pyth ...
- 从imdb爬取ml-100k的电影封面
从imdb爬取ml-100k的电影封面 ml-100k:数据集,只用到了./ml-100k/u.item result: 电影封面 电影id.jpg,可以用u.item找到id->电影名称对应关 ...
- 萌新向Python数据分析及数据挖掘 第二章 pandas 第一节 pandas使用基础QA 1-15
这是油管上的一个帅哥的网课地址如下 https://www.youtube.com/watch?v=yzIMircGU5I&list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5 ...
- 电影评论情感分析-IMDB数据集 | python 利用朴素贝叶斯、神经网络模型
载入包 import torch # torch==1.7.1 import torch.nn as nn from torch.utils.data import Dataset from torc ...
- python pandas库详解_Pandas 库的详解和使用补充
pandas 库总体说明 Pandas 基亍 NumPy.SciPy 补充了大量数据操作功能,能实现统计.凾组.排序.透规 表,可以代替 Excel 的绛大部凾功能. Pandas 主要有 2 种重要 ...
- Pandas的常用操作(一)
Pandas (Series, Dataframe) Pandas是一个强大的分析结构化数据的工具集:它的使用基础是Numpy(提供高性能的矩阵运算):用于数据挖掘,清洗和数据分析. import p ...
- 【DeepLearning 文本分类实战】IMDB Data Preprocessing数据预处理
一.Introduction 数据集下载地址 Sentiment Analysis (stanford.edu) 斯坦佛官方描述IMDB非常详细:用于二分类情感分类的数据集,包含25k训练集和25k测 ...
最新文章
- 华为正式宣布养猪,网友沸腾:支持华为自救!
- 第六周项目一-分数类的雏形(1)
- [转载]使用awk进行数字计算,保留指定位小数
- 第一节 Java语言发展史
- django mysql返回json_Django 1.8.11 查询数据库返回JSON格式数据
- google chrome 浏览器 必备插件
- VS开发中,常见编译问题解决方案
- SNMP简单网络管理协议及开发测试工具
- 搜索引擎的原理以及倒排索引技术
- rancher报错Not using `--random-fully` in the MASQUERADE rule for iptables because the local version of
- 使用md5进行密码的加密和验证
- c++中的有符号数与无符号数一起运算
- 关于苹果开发者账号应用的那些事
- 力扣第十五题-三数之和
- 2019 My excel
- 程序员笔试面试注意事项-1
- html png图片不显示,IE打开网页时部分图片无法显示(PNG图片显示为叉叉)的解决办法...
- CutPaste: Self-Supervised Learning for Anomaly Detection and Localization 全文翻译+详细解读
- MEM/MBA 英语强化(01)完形填空
- python节日贺卡图片_节日贺卡图片制作手工