Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略

目录

Rotten Tomatoes影评数据集简介

Rotten Tomatoes影评数据集下载

Rotten Tomatoes影评数据集使用方法


Rotten Tomatoes影评数据集简介

烂番茄(Rotten Tomatoes)网站影评短语数据,对电影进行评价。每个影评可以归入下面5个类项:

  • 不给力(negative),
  • 不太给力(somewhat negative),
  • 中等(neutral),
  • 有点给力(somewhat positive),
  • 给力(positive)。

解释变量不会总是直白的语言,因为影评内容千差万别,有讽刺的,否定的,以及其他语义的表述,语义并不直白,这些都会让分类充满挑战。

Sentiment是响应变量,0是不给力(negative),4是给力(positive),其他以此类推。Phrase列是影评的内容。影评中每句话都被分割成一行。我们不需要考虑PhraseId列和SentenceId列。
     通过下边的代码,可以看出,近51%都是评价为2中等(neutral)的电影。可见,在这个问题里,准确率不是一个有信息量的评价指标,因为即使很烂的分类器预测出中等水平的结果,其准确率也是51%。3有点给力(somewhat positive)的电影占21%, 4给力(positive)的电影占6%,共占27%。剩下的21%就是不给力(negative),不太给力(somewhat negative)的电影。

Rotten Tomatoes影评数据集下载

Rotten Tomatoes影评数据集下载

Rotten Tomatoes影评数据集使用方法

import zipfile
# 压缩节省空间
z = zipfile.ZipFile('mlslpic/train.zip')
df = pd.read_csv(z.open(z.namelist()[0]), header=0, delimiter='\t')df.head()
df.count()
-------------------------
PhraseId      156060
SentenceId    156060
Phrase        156060
Sentiment     156060
dtype: int64df.Phrase.head(10)
df.Sentiment.describe()
-----------------------
count    156060.000000
mean          2.063578
std           0.893832
min           0.000000
25%           2.000000
50%           2.000000
75%           3.000000
max           4.000000
Name: Sentiment, dtype: float64df.Sentiment.value_counts()
-----------------------
2    79582
3    32927
1    27273
4     9206
0     7072
dtype: int64df.Sentiment.value_counts()/df.Sentiment.count()
2    0.509945
3    0.210989
1    0.174760
4    0.058990
0    0.045316
dtype: float64可以看出,近51%都是评价为2中等(neutral)的电影。可见,在这个问题里,准确率不是一个有信息量的评价指标,
因为即使很烂的分类器预测出中等水平的结果,其准确率也是51%。3有点给力(somewhat positive)的电影占21%,
4给力(positive)的电影占6%,共占27%。剩下的21%就是不给力(negative),不太给力(somewhat negative)的电影。

Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略相关推荐

  1. Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

    Dataset:GiveMeSomeCredit数据集的简介.下载.使用方法之详细攻略 目录 GiveMeSomeCredit数据集的简介 1.数据集基本描述 2.EDA后总结 3.数据集基本形状 G ...

  2. Dataset之babyboom.dat:babyboom.dat数据集的简介、安装、使用方法之详细攻略

    Dataset之babyboom.dat:babyboom.dat数据集的简介.安装.使用方法之详细攻略 目录 babyboom.dat数据集的简介.安装.使用方法 babyboom.dat数据集的简 ...

  3. Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略

    Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介.安装.使用方法之详细攻略 目录 fetch_20newsgroups(20类新闻文本)数据集的简介 1.数据集信息 ...

  4. Dataset之MapillaryVistas:MapillaryVistas数据集的简介、下载、使用方法之详细攻略

    Dataset之MapillaryVistas:MapillaryVistas数据集的简介.下载.使用方法之详细攻略 目录 MapillaryVistas数据集的简介 1.数据集特点 Mapillar ...

  5. Dataset之CamVid:CamVid数据集的简介、下载、使用方法之详细攻略

    Dataset之CamVid:CamVid数据集的简介.下载.使用方法之详细攻略 目录 CamVid数据集的简介 CamVid数据集的下载 CamVid数据集的使用方法 CamVid数据集的简介 Ca ...

  6. Dataset之BDD100K:BDD100K数据集的简介、下载、使用方法之详细攻略

    Dataset之BDD100K:BDD100K数据集的简介.下载.使用方法之详细攻略 目录 BDD100K数据集的简介 BDD100K数据集的下载 BDD100K数据集的使用方法 BDD100K数据集 ...

  7. Dataset之Knifey-Spoony:Knifey-Spoony数据集的简介、下载、使用方法之详细攻略

    Dataset之Knifey-Spoony:Knifey-Spoony数据集的简介.下载.使用方法之详细攻略 目录 Knifey-Spoony数据集的简介 ##The Knifey-Spoony Da ...

  8. Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

    Dataset之WebVision:WebVision数据集简介.下载.使用方法之详细攻略 目录 WebVision数据集简介 1.WebVision数据集挑战 WebVision数据集下载 WebV ...

  9. Dataset之Fashion-MNIST:Fashion-MNIST数据集简介、下载、使用方法之详细攻略

    Dataset之Fashion-MNIST:Fashion-MNIST数据集简介.下载.使用方法之详细攻略 目录 Fashion-MNIST数据集简介 1.Why we made Fashion-MN ...

最新文章

  1. hexo-github-博客搭建指南
  2. Java开发的环境搭建
  3. EAST 自然场景文本检测
  4. 宿州市人力资源和社会保障局数据保护及容灾系统方案公示
  5. VMware虚拟机不能联网的解决办法
  6. Java中方法参数的传递
  7. linux 部署php svn,Linux服务器搭建svn环境方法详解
  8. 2014值得期待的Erlang两本新书
  9. [译] Node.js, Express.js 搭建 HTTP/2 服务器
  10. go java websocket_java的连接wss的websocket服务器代码如何转成go代码
  11. 磁盘管理,quota,RAID,LVM
  12. 两款专业卸载软件 Revo Uninstaller Pro 专业版 + msi专业卸载工具
  13. 【REDIS】redis安装
  14. 鸿蒙系统可以安装当贝市场吗,荣耀智慧屏安装软件全攻略,新手党必备!当贝市场推荐...
  15. java扫码枪对接支付宝,支付宝扫码枪如何应用?
  16. 专升本英语——语法知识——基础语法——第一节 名词和代词【学习笔记】
  17. GPU显存占满但利用率却很低
  18. 键盘弹不出来情况(一)
  19. 图标icon,图标icon资源
  20. Word~Word修改行间距磅值

热门文章

  1. python创建实例时显示没有参数-OSError无法创建文件无效参数
  2. LNMP架构之环境搭建
  3. Java中的数据结构
  4. 我去,为什么最左前缀原则失效了?
  5. 不要再问了,数据库不建议上Docker
  6. 你觉得什么才是 Java 的基础知识?
  7. 「mysql优化专题」你们要的多表查询优化来啦!请查收(4)
  8. 「mysql优化专题」90%程序员都会忽略的增删改优化(2)
  9. 一文告诉你 Java RMI 和 RPC 的区别!
  10. UBUNTU下gedit编辑器出现中文乱码现象