Dataset之Rotten Tomatoes：Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略

Rotten Tomatoes影评数据集简介

Rotten Tomatoes影评数据集下载

Rotten Tomatoes影评数据集使用方法

Rotten Tomatoes影评数据集简介

烂番茄（Rotten Tomatoes）网站影评短语数据，对电影进行评价。每个影评可以归入下面5个类项：

不给力（negative），
不太给力（somewhat negative），
中等（neutral），
有点给力（somewhat positive）,
给力（positive）。

解释变量不会总是直白的语言，因为影评内容千差万别，有讽刺的，否定的，以及其他语义的表述，语义并不直白，这些都会让分类充满挑战。

Sentiment是响应变量，0是不给力（negative），4是给力（positive），其他以此类推。Phrase列是影评的内容。影评中每句话都被分割成一行。我们不需要考虑PhraseId列和SentenceId列。
通过下边的代码，可以看出，近51%都是评价为2中等（neutral）的电影。可见，在这个问题里，准确率不是一个有信息量的评价指标，因为即使很烂的分类器预测出中等水平的结果，其准确率也是51%。3有点给力（somewhat positive）的电影占21%, 4给力（positive）的电影占6%，共占27%。剩下的21%就是不给力（negative），不太给力（somewhat negative）的电影。

Rotten Tomatoes影评数据集下载

Rotten Tomatoes影评数据集使用方法

import zipfile
# 压缩节省空间
z = zipfile.ZipFile('mlslpic/train.zip')
df = pd.read_csv(z.open(z.namelist()[0]), header=0, delimiter='\t')df.head()
df.count()
-------------------------
PhraseId      156060
SentenceId    156060
Phrase        156060
Sentiment     156060
dtype: int64df.Phrase.head(10)
df.Sentiment.describe()
-----------------------
count    156060.000000
mean          2.063578
std           0.893832
min           0.000000
25%           2.000000
50%           2.000000
75%           3.000000
max           4.000000
Name: Sentiment, dtype: float64df.Sentiment.value_counts()
-----------------------
2    79582
3    32927
1    27273
4     9206
0     7072
dtype: int64df.Sentiment.value_counts()/df.Sentiment.count()
2    0.509945
3    0.210989
1    0.174760
4    0.058990
0    0.045316
dtype: float64可以看出，近51%都是评价为2中等（neutral）的电影。可见，在这个问题里，准确率不是一个有信息量的评价指标，
因为即使很烂的分类器预测出中等水平的结果，其准确率也是51%。3有点给力（somewhat positive）的电影占21%,
4给力（positive）的电影占6%，共占27%。剩下的21%就是不给力（negative），不太给力（somewhat negative）的电影。

Dataset之Rotten Tomatoes：Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略相关推荐

Dataset：GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略
Dataset:GiveMeSomeCredit数据集的简介.下载.使用方法之详细攻略目录 GiveMeSomeCredit数据集的简介 1.数据集基本描述 2.EDA后总结 3.数据集基本形状 G ...
Dataset之babyboom.dat：babyboom.dat数据集的简介、安装、使用方法之详细攻略
Dataset之babyboom.dat:babyboom.dat数据集的简介.安装.使用方法之详细攻略目录 babyboom.dat数据集的简介.安装.使用方法 babyboom.dat数据集的简 ...
Dataset：fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略
Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介.安装.使用方法之详细攻略目录 fetch_20newsgroups(20类新闻文本)数据集的简介 1.数据集信息 ...
Dataset之MapillaryVistas：MapillaryVistas数据集的简介、下载、使用方法之详细攻略
Dataset之MapillaryVistas:MapillaryVistas数据集的简介.下载.使用方法之详细攻略目录 MapillaryVistas数据集的简介 1.数据集特点 Mapillar ...
Dataset之CamVid：CamVid数据集的简介、下载、使用方法之详细攻略
Dataset之CamVid:CamVid数据集的简介.下载.使用方法之详细攻略目录 CamVid数据集的简介 CamVid数据集的下载 CamVid数据集的使用方法 CamVid数据集的简介 Ca ...
Dataset之BDD100K：BDD100K数据集的简介、下载、使用方法之详细攻略
Dataset之BDD100K:BDD100K数据集的简介.下载.使用方法之详细攻略目录 BDD100K数据集的简介 BDD100K数据集的下载 BDD100K数据集的使用方法 BDD100K数据集 ...
Dataset之Knifey-Spoony：Knifey-Spoony数据集的简介、下载、使用方法之详细攻略
Dataset之Knifey-Spoony:Knifey-Spoony数据集的简介.下载.使用方法之详细攻略目录 Knifey-Spoony数据集的简介 ##The Knifey-Spoony Da ...
Dataset之WebVision：WebVision数据集简介、下载、使用方法之详细攻略
Dataset之WebVision:WebVision数据集简介.下载.使用方法之详细攻略目录 WebVision数据集简介 1.WebVision数据集挑战 WebVision数据集下载 WebV ...
Dataset之Fashion-MNIST：Fashion-MNIST数据集简介、下载、使用方法之详细攻略
Dataset之Fashion-MNIST:Fashion-MNIST数据集简介.下载.使用方法之详细攻略目录 Fashion-MNIST数据集简介 1.Why we made Fashion-MN ...

Dataset之Rotten Tomatoes：Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略

Rotten Tomatoes影评数据集简介

Rotten Tomatoes影评数据集下载

Rotten Tomatoes影评数据集使用方法

Dataset之Rotten Tomatoes：Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略相关推荐

最新文章

热门文章