豆瓣评论【数据集分享】
相信很多做自然语言处理、数据分析的小伙伴们都接触过豆瓣评论数据集。
最近 《脱口秀大会5》 比较火,所以我就抓去了一份《脱5》的豆瓣短评数据集,样例如下表所示:
{"comment_time": "2022-11-02 22:37:41", "comment_score": "很差", "comment_vote": "21", "comment_content": "\"不敢说所有,至少有一部分人初心变了。不好笑不要赖观众,心思都放在稿子和段子上了吗,那广告接得,秀走得,不好笑也正常啊。\"", "comment_username": "江湖谝子"
}
- 其中,
comment_score
表示豆瓣评分,总共五颗星,对应总分为 10分。每一颗星对应2分。
不同星数对应的中文描述为:
{'力荐': 5, '推荐': 4, '还行': 3, '较差': 2, '很差': 1
}
comment_vote
代表的是有多少人赞同这条短评。
其实,豆瓣网站有严格的数据获取限制,用户仅仅能访问最热门的短评数据集共计 600
条。然后再进行翻页,网站系统则会禁止。
同时豆瓣也仅提供 200
条最新的短评。根据这些数据,我做了一个加权统计,《脱5》的豆瓣加权平均分仅仅有3.3分。口碑大大滑坡。
我还对《脱5》的豆瓣评论做了详细的数据分析,感兴趣可以看看。数据集以 json 格式给出。有需要的小伙伴可以关注下面公众号自取。
步骤如下:
- 1 关注微信gong—zhong号JioNLP
- 2 回复【脱口秀大会5】获取下载链接
- 3 该数据集是免费的
如何在程序中加载
如果有编程经验,可以用python进行操作
- 1 安装 jionlp 工具包
$ pip install jionlp
- 2 编写以下代码执行
import jionlp as jio
comment_list = jio.read_file_by_line(/path/to/short_comment_has_watched_highest_tuokouxiudahui5.txt) # 解压后替换为下载路径
数据将定期更新,未来也会根据国务院的行政区划调整进行重新抓取。
我已经把数据集公开出来,可以扫码关注微信gong—zong号JioNLP,回复脱口秀大会5获取。
JioNLP 是一个专注挖掘并分析互联网数据的gong—zhong号,还想要什么数据集?来看看这里有没有你想要的数据吧。
本文由mdnice多平台发布
本文由mdnice多平台发布
豆瓣评论【数据集分享】相关推荐
- 【python数据挖掘课程】二十六.基于SnowNLP的豆瓣评论情感分析
这是<Python数据挖掘课程>系列文章,前面很多文章都讲解了分类.聚类算法,而这篇文章主要讲解如何调用SnowNLP库实现情感分析,处理的对象是豆瓣<肖申克救赎>的评论文本. ...
- Python爬虫下载加州高速路网PeMS交通流量数据集以及交通公开数据集分享
由于PeMS(PeMS)下载交通数据集一次只能下载一周数据,并且要一次一次的点击,比较麻烦. 故写出了一个小的爬虫程序,自动下载PeMS路网上VDS的数据集(前提需要FQ,需要挂全局代理) 下载为5分 ...
- Python实现输入电影名字自动生成豆瓣评论词云图(带GUI界面)小程序
Python实现输入电影名字自动生成豆瓣评论词云图(带GUI界面)小程序 一.项目背景 电影逐渐成为人们生活的不可或缺的一部分,而了解一部电影的可以通过电影评分与大众推荐度,但以上的方式都太过于片面, ...
- 自然语言处理--Keras 实现LSTM循环神经网络分类 IMDB 电影评论数据集
LSTM 对于循环网络的每一层都引入了状态(state)的概念,状态作为网络的记忆(memory).但什么是记忆呢?记忆将由一个向量来表示,这个向量与元胞中神经元的元素数量相同.记忆单元将是一个由 n ...
- BeautifulSoup及爬取豆瓣评论
BS4的理解 BS4会将html文档对象转换为python可以识别的四种对象: Tag: 标签对象 NavigableString : 字符内容操作对象 BeautifulSoup: 文档对象 Com ...
- 改良的用于情感分类的餐馆评论数据集
改良的用于情感分类的餐馆评论数据集 原数据说明 字段说明 数据集改良 1.只保留 rating列 和comment列 2.数据集去重去空 3.按照rating大小二分类 4.均衡正负向评论 原数据说明 ...
- 记第一天使用node做爬虫——爬取猫眼电影票房总榜以及指定电影的豆瓣评论前200条
首先,我是一个做前端的应届生,今天朋友想让我帮忙爬取猫眼电影票房总榜的数据,但是我之前一点都没接触过爬虫,但我还是说:okk,我试试: 然后试试就逝世,各种坑接踵而来: 提前声明:这篇文章暂时只是获取 ...
- 数据集分享 | IWR1642呼吸心跳数据集
本文编辑:@调皮连续波,保持关注调皮哥,获得更多学习内容和建议! 各位大佬好,我是调皮哥,感谢大家的关注. 因为疫情,有的人回不了学校的实验室,因此早在先前我就想为大家采集一些数据,提供给大家做算法分 ...
- 最全自动驾驶数据集分享系列八 | 仿真数据集
目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列八: 「本期划重点」 全球首个多传感器虚拟标注数据集:51WORLD 最大的自动驾驶多任务合成数据集: ...
- kaggle数据集、mnist数据集、imdb数据集分享
数据集文件分享: kaggle数据集.mnist数据集.imdb数据集分享 mnist 数据集 链接:https://pan.baidu.com/s/1g5GQf1RhRprUNizwkazdJQ 提 ...
最新文章
- 马斯克要往火星轨道送跑车,在深空待10亿年,静候外星人
- 2D 游戏引擎 AlloyGameEngine
- ffmpegframegrabber 时间戳不同步_多传感器融合中的时间硬同步1-论文阅读
- SAP CRM product customizing下载的第二个队列
- Apache JMeter 记一次使用HTTP工具POST提交JSON数据进行送积分高并发压测(二)
- [flask]gunicorn配置文件
- logisticregression参数_通俗地说逻辑回归【Logistic regression】算法(二)sklearn逻辑回归实战...
- 【OpenCV 例程 200篇】98. 统计排序滤波器
- Oracle redo 日志切换时间频率
- 显示器信号接口的发展历程
- 如何安装Windows 8系统中的telnet组件
- 维护IBM DB2数据库所应了解的根蒂基本常识-9
- -XX:HandlePromotionFailure: 是否设置空间分配担保【了解】
- MyBatis官方文档——动态SQL部分
- 近来开发工作不忙,零零散散整理的Java基础
- 如何打造3D立体世界?跟随图片一同探寻
- 《机器学习》笔记:引言
- [bzoj4084][Sdoi2015]双旋转字符串_hash
- 服务器如何修改3389端口,怎么修改服务器3389端口
- 【文学文娱】《屌丝逆袭》-出任CEO、迎娶白富美、走上人生巅峰