相信很多做自然语言处理、数据分析的小伙伴们都接触过豆瓣评论数据集

最近 《脱口秀大会5》 比较火,所以我就抓去了一份《脱5》的豆瓣短评数据集,样例如下表所示:

{"comment_time": "2022-11-02 22:37:41", "comment_score": "很差", "comment_vote": "21", "comment_content": "\"不敢说所有,至少有一部分人初心变了。不好笑不要赖观众,心思都放在稿子和段子上了吗,那广告接得,秀走得,不好笑也正常啊。\"", "comment_username": "江湖谝子"
}
  • 其中,comment_score表示豆瓣评分,总共五颗星,对应总分为 10分。每一颗星对应2分。
    不同星数对应的中文描述为:
{'力荐': 5, '推荐': 4, '还行': 3, '较差': 2, '很差': 1
}
  • comment_vote 代表的是有多少人赞同这条短评。

其实,豆瓣网站有严格的数据获取限制,用户仅仅能访问最热门的短评数据集共计 600 条。然后再进行翻页,网站系统则会禁止。

同时豆瓣也仅提供 200 条最新的短评。根据这些数据,我做了一个加权统计,《脱5》的豆瓣加权平均分仅仅有3.3分。口碑大大滑坡。

我还对《脱5》的豆瓣评论做了详细的数据分析,感兴趣可以看看。数据集以 json 格式给出。有需要的小伙伴可以关注下面公众号自取。

步骤如下:

  • 1 关注微信gong—zhong号JioNLP
  • 2 回复【脱口秀大会5】获取下载链接
  • 3 该数据集是免费的

如何在程序中加载

如果有编程经验,可以用python进行操作

  • 1 安装 jionlp 工具包
$ pip install jionlp
  • 2 编写以下代码执行
import jionlp as jio
comment_list = jio.read_file_by_line(/path/to/short_comment_has_watched_highest_tuokouxiudahui5.txt)  # 解压后替换为下载路径

数据将定期更新,未来也会根据国务院的行政区划调整进行重新抓取。

我已经把数据集公开出来,可以扫码关注微信gong—zong号JioNLP,回复脱口秀大会5获取。

JioNLP 是一个专注挖掘并分析互联网数据的gong—zhong号,还想要什么数据集?来看看这里有没有你想要的数据吧。

本文由mdnice多平台发布

本文由mdnice多平台发布

豆瓣评论【数据集分享】相关推荐

  1. 【python数据挖掘课程】二十六.基于SnowNLP的豆瓣评论情感分析

    这是<Python数据挖掘课程>系列文章,前面很多文章都讲解了分类.聚类算法,而这篇文章主要讲解如何调用SnowNLP库实现情感分析,处理的对象是豆瓣<肖申克救赎>的评论文本. ...

  2. Python爬虫下载加州高速路网PeMS交通流量数据集以及交通公开数据集分享

    由于PeMS(PeMS)下载交通数据集一次只能下载一周数据,并且要一次一次的点击,比较麻烦. 故写出了一个小的爬虫程序,自动下载PeMS路网上VDS的数据集(前提需要FQ,需要挂全局代理) 下载为5分 ...

  3. Python实现输入电影名字自动生成豆瓣评论词云图(带GUI界面)小程序

    Python实现输入电影名字自动生成豆瓣评论词云图(带GUI界面)小程序 一.项目背景 电影逐渐成为人们生活的不可或缺的一部分,而了解一部电影的可以通过电影评分与大众推荐度,但以上的方式都太过于片面, ...

  4. 自然语言处理--Keras 实现LSTM循环神经网络分类 IMDB 电影评论数据集

    LSTM 对于循环网络的每一层都引入了状态(state)的概念,状态作为网络的记忆(memory).但什么是记忆呢?记忆将由一个向量来表示,这个向量与元胞中神经元的元素数量相同.记忆单元将是一个由 n ...

  5. BeautifulSoup及爬取豆瓣评论

    BS4的理解 BS4会将html文档对象转换为python可以识别的四种对象: Tag: 标签对象 NavigableString : 字符内容操作对象 BeautifulSoup: 文档对象 Com ...

  6. 改良的用于情感分类的餐馆评论数据集

    改良的用于情感分类的餐馆评论数据集 原数据说明 字段说明 数据集改良 1.只保留 rating列 和comment列 2.数据集去重去空 3.按照rating大小二分类 4.均衡正负向评论 原数据说明 ...

  7. 记第一天使用node做爬虫——爬取猫眼电影票房总榜以及指定电影的豆瓣评论前200条

    首先,我是一个做前端的应届生,今天朋友想让我帮忙爬取猫眼电影票房总榜的数据,但是我之前一点都没接触过爬虫,但我还是说:okk,我试试: 然后试试就逝世,各种坑接踵而来: 提前声明:这篇文章暂时只是获取 ...

  8. 数据集分享 | IWR1642呼吸心跳数据集

    本文编辑:@调皮连续波,保持关注调皮哥,获得更多学习内容和建议! 各位大佬好,我是调皮哥,感谢大家的关注. 因为疫情,有的人回不了学校的实验室,因此早在先前我就想为大家采集一些数据,提供给大家做算法分 ...

  9. 最全自动驾驶数据集分享系列八 | 仿真数据集

    目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列八: 「本期划重点」 全球首个多传感器虚拟标注数据集:51WORLD 最大的自动驾驶多任务合成数据集: ...

  10. kaggle数据集、mnist数据集、imdb数据集分享

    数据集文件分享: kaggle数据集.mnist数据集.imdb数据集分享 mnist 数据集 链接:https://pan.baidu.com/s/1g5GQf1RhRprUNizwkazdJQ 提 ...

最新文章

  1. 马斯克要往火星轨道送跑车,在深空待10亿年,静候外星人
  2. 2D 游戏引擎 AlloyGameEngine
  3. ffmpegframegrabber 时间戳不同步_多传感器融合中的时间硬同步1-论文阅读
  4. SAP CRM product customizing下载的第二个队列
  5. Apache JMeter 记一次使用HTTP工具POST提交JSON数据进行送积分高并发压测(二)
  6. [flask]gunicorn配置文件
  7. logisticregression参数_通俗地说逻辑回归【Logistic regression】算法(二)sklearn逻辑回归实战...
  8. 【OpenCV 例程 200篇】98. 统计排序滤波器
  9. Oracle redo 日志切换时间频率
  10. 显示器信号接口的发展历程
  11. 如何安装Windows 8系统中的telnet组件
  12. 维护IBM DB2数据库所应了解的根蒂基本常识-9
  13. -XX:HandlePromotionFailure: 是否设置空间分配担保【了解】
  14. MyBatis官方文档——动态SQL部分
  15. 近来开发工作不忙,零零散散整理的Java基础
  16. 如何打造3D立体世界?跟随图片一同探寻
  17. 《机器学习》笔记:引言
  18. [bzoj4084][Sdoi2015]双旋转字符串_hash
  19. 服务器如何修改3389端口,怎么修改服务器3389端口
  20. 【文学文娱】《屌丝逆袭》-出任CEO、迎娶白富美、走上人生巅峰

热门文章

  1. Qt处理图片背景为透明色
  2. 浅析Linux系统入侵排查与应急响应技术
  3. power query时间函数(思维导图)
  4. opencv学习十二(车牌识别)
  5. 代码比对工具-Diffmerge
  6. Ubuntu Kvm USB重定向问题解决
  7. 数据库系统工程师怎么备考?
  8. RDKit | RDKit中处理分子Mol对象
  9. idea svn分支与分支合并_IDEA用SVN创建分支和合并分支的方法步骤
  10. Librtmp的交叉编译详解