IMDB-Movie-Data.csv

# 导包
import pandas  as pd
import numpy as np
from matplotlib import pyplot as plt# 读取文件显示前5行信息
path = "./data/IMDB-Movie-Data.csv"
#读取文件
df = pd.read_csv(path)
df.head()


1.电影数据中评分的平均分

df["Rating"].mean()
# 6.723199999999999

2.导演的人数

np.unique(df["Director"]).shape[0]
# 644

3.呈现rating,runtime的分布情况

# Rating分布# 1.创建画布
plt.figure(figsize=(20, 8), dpi=100)# 2.绘制图像
plt.hist(df["Rating"].values, bins=20)# 2.1 添加刻度
max_ = df["Rating"].max()
min_ = df["Rating"].min()t1 = np.linspace(min_, max_, num=21)plt.xticks(t1)# 2.2 添加网格
plt.grid()# 3.显示
plt.show()

# Runtime (Minutes)分布# 1.创建画布
plt.figure(figsize=(20, 8), dpi=100)# 2.绘制图像
plt.hist(df["Runtime (Minutes)"].values, bins=20)# 2.1 添加刻度
max_ = df["Runtime (Minutes)"].max()
min_ = df["Runtime (Minutes)"].min()t1 = np.linspace(min_, max_, num=21)plt.xticks(t1)# 2.2 添加网格
plt.grid()# 3.显示
plt.show()


4.统计电影分类(genre)的情况

temp_list = [i.split(',') for i in df["Genre"]]
temp_list

# 获取电影的分类
genre_list = np.unique([i for j in temp_list for i in j])
genre_list

temp_df = pd.DataFrame(np.zeros([df.shape[0],genre_list.shape[0]]),columns=genre_list)
temp_df.shape
# (1000, 20)
temp_df.head()

for i in range(df.shape[0]):temp_df.ix[i,temp_list[i]]=1
temp_df.head()

temp_df.sum().sort_values(ascending=False)

temp_df.sum().sort_values(ascending=False).plot(kind="bar",figsize=(20,8),fontsize=20, color='r', rot=45)

pandas练习 IMDB-Movie相关推荐

  1. ML之NB、LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类

    ML之NB.LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类 注:LoR code waiting 目录 输出结果 核心代码 输出结果 数据集:Dat ...

  2. [NLP]基于IMDB影评情感分析之BERT实战-测试集上92.24%

    系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...

  3. 数据科学入门与实战:玩转pandas之二

    Series,DateFrame的排序功能 引入相关的包 import numpy as np import pandas as pd from pandas import Series,DataFr ...

  4. 数据科学 IPython 笔记本 7.4 Pandas 对象介绍

    7.4 Pandas 对象介绍 原文:Introducing Pandas Objects 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册>(Pyth ...

  5. 从imdb爬取ml-100k的电影封面

    从imdb爬取ml-100k的电影封面 ml-100k:数据集,只用到了./ml-100k/u.item result: 电影封面 电影id.jpg,可以用u.item找到id->电影名称对应关 ...

  6. 萌新向Python数据分析及数据挖掘 第二章 pandas 第一节 pandas使用基础QA 1-15

    这是油管上的一个帅哥的网课地址如下 https://www.youtube.com/watch?v=yzIMircGU5I&list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5 ...

  7. 电影评论情感分析-IMDB数据集 | python 利用朴素贝叶斯、神经网络模型

    载入包 import torch # torch==1.7.1 import torch.nn as nn from torch.utils.data import Dataset from torc ...

  8. python pandas库详解_Pandas 库的详解和使用补充

    pandas 库总体说明 Pandas 基亍 NumPy.SciPy 补充了大量数据操作功能,能实现统计.凾组.排序.透规 表,可以代替 Excel 的绛大部凾功能. Pandas 主要有 2 种重要 ...

  9. Pandas的常用操作(一)

    Pandas (Series, Dataframe) Pandas是一个强大的分析结构化数据的工具集:它的使用基础是Numpy(提供高性能的矩阵运算):用于数据挖掘,清洗和数据分析. import p ...

  10. 【DeepLearning 文本分类实战】IMDB Data Preprocessing数据预处理

    一.Introduction 数据集下载地址 Sentiment Analysis (stanford.edu) 斯坦佛官方描述IMDB非常详细:用于二分类情感分类的数据集,包含25k训练集和25k测 ...

最新文章

  1. 华为正式宣布养猪,网友沸腾:支持华为自救!
  2. 第六周项目一-分数类的雏形(1)
  3. [转载]使用awk进行数字计算,保留指定位小数
  4. 第一节 Java语言发展史
  5. django mysql返回json_Django 1.8.11 查询数据库返回JSON格式数据
  6. google chrome 浏览器 必备插件
  7. VS开发中,常见编译问题解决方案
  8. SNMP简单网络管理协议及开发测试工具
  9. 搜索引擎的原理以及倒排索引技术
  10. rancher报错Not using `--random-fully` in the MASQUERADE rule for iptables because the local version of
  11. 使用md5进行密码的加密和验证
  12. c++中的有符号数与无符号数一起运算
  13. 关于苹果开发者账号应用的那些事
  14. 力扣第十五题-三数之和
  15. 2019 My excel
  16. 程序员笔试面试注意事项-1
  17. html png图片不显示,IE打开网页时部分图片无法显示(PNG图片显示为叉叉)的解决办法...
  18. CutPaste: Self-Supervised Learning for Anomaly Detection and Localization 全文翻译+详细解读
  19. MEM/MBA 英语强化(01)完形填空
  20. python节日贺卡图片_节日贺卡图片制作手工

热门文章

  1. 新一代“独角兽”,上汽集团网约车获10亿融资,稳坐龙头
  2. 人脸识别-分类、指标(参考商汤官网产品)
  3. macbook 网卡配置
  4. 计算机网络之TCP详解
  5. 【C++】哈希(闭散列,开散列)
  6. 大白话5分钟带你走进人工智能-第十三节多项式回归之维度爆炸和过拟合
  7. python判断闰年_Python 判断闰年
  8. npm,node更新最新版本
  9. 浅谈linux学习路线
  10. 这对情侣火了,你猜是因为啥