弹幕全是“二刷”,这部剧有多好看?用Python收集用1.1W弹幕,做词云分析
环境介绍
python 3.8
pycharm
requests >>> pip install requests
pyecharts >>> pip install pyecharts
视频弹幕收集
请求数据
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'
}
for page in range(15, 1500, 30):url = f'https://mfm.XXXX.com/danmu?otype=json&target_id=7712618480%26vid%3Dg00423lkmas&session_key=0%2C0%2C0×tamp={page}&_=1647931110703'response = requests.get(url=url, headers=headers)
获取数据 从一个字符串 变成了一个 字典 (容器)
json_data = response.json()
解析数据
for comment in json_data['comments']:commentid = comment['commentid']opername = comment['opername']content = comment['content']
保存数据
with open('弹幕.csv', encoding='utf-8-sig', mode='a', newline='') as f:csv_writer = csv.writer(f)csv_writer.writerow([commentid, opername, content])
运行代码,得到1W多条弹幕数据
词云可视化
导入数据
wordlist = []
data = pd.read_csv('弹幕.csv')['content']
data
词云图
a = [list(z) for z in zip(word, count)]
c = (WordCloud().add('', a, word_size_range=[10, 50], shape='circle').set_global_opts(title_opts=opts.TitleOpts(title="词云图"))
)
c.render_notebook()
弹幕全是“二刷”,这部剧有多好看?用Python收集用1.1W弹幕,做词云分析相关推荐
- 大江大河2弹幕数据之词云分析、情感极性分析、主题分析、共现网络分析
最近,自己在疯狂追<大江大河2>这部剧,作为当下最热门的电视剧之一,这部电视剧深受观众的喜爱,自从播出以后就好评不断 它主要讲述了改革开放三十年,一代人奋斗向阳的故事,看完之后深受启发,特 ...
- 哔哩哔哩视频弹幕词云分析
import requests import parsel import csv import timefor page in range(20,32):time.sleep(1)print('正在爬 ...
- Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
一 . Java爬取B站弹幕 弹幕的存储位置 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号, ...
- opencv中的美图技巧(祛斑,词云,风格迁移,抠图,插图,修改背景,图片二维码)等着你的女朋友夸你吧
个人ps 没掌握得怎么好,尝试用程序来完成ps的功能吧. 有斑点怎么办:祛斑. 只有一张城市白天图,像生成黑夜图怎么办,用风格迁移把. 人物抠图就不说啦吧. 没钱带女友旅游世界怎么办,我教你修改你背景 ...
- 萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下: http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这 ...
- 爬取钉钉在B站卑微道歉视频弹幕,做成词云
爬取钉钉在B站卑微道歉视频弹幕,做成词云|钉~ 听这美妙的声音 先看用户老爷们给出得评价 B弹幕爬取的方法 打开钉钉下跪视频 B站链接 然后进入控制台如图查看,打开控制台刷新下页面. 你就会在控制台看 ...
- Python生成中文词云图(二):不可指定词云特定的形状和颜色。
Python生成中文词云图(二):不可指定词云特定的形状和颜色. 什么是词云? 首先,什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关 ...
- python爬取b站弹幕分析_B站弹幕爬取原理解析(python)
感谢 原理 概念 cid : 爬取弹幕需要的id号,可以由BV号通过API接口获得 步骤BV转cid 浏览器输入:https://api.bilibili.com/x/player/pagelist? ...
- 爬虫数据云词图片怎么做?小姐姐教你用python做B站弹幕爬虫,并进行数据分析生成词云
hello大家好,我是你们的可爱丸,大家平时在B站看视频时有没有开弹幕的习惯呢?如果不把视频从头看到尾,那么多弹幕,我们怎么快速的知道大家都说了些什么并且持有什么观点呢? 今天小姐姐就教你做一个简单的 ...
最新文章
- 这款IDEA插件,可以让你用中文编码哟
- WebService大讲堂之Axis2(2):复合类型数据的传递
- 程序员保值的5个秘密
- Memcached的使用
- 请你说明一下TreeMap的底层实现?
- boost::hana::basic_tuple用法的测试程序
- PHP包含文件函数include、include_once、require、require_once区别
- 魅族6支持html吗,魅族手机浏览器兼容性调优最佳实践_html/css_WEB-ITnose
- SqlServer事务回滚失败
- mysql首字母排序,抛弃传统的php首字母排序
- Atitit 数据出入管理法v3 目录 1.1. 边界检查:web边界和sql边界	1 2. 检查条目	1 2.1. 数据种类检查 整数 小数 字符串(带长度,字符白名单校验)	1 2.2. 字符黑
- win10虚拟显示器开发
- HTML5 电子罗盘开发
- 海量数据搜索---demo展示百度、谷歌搜索引擎的实现
- oracle如何给临时表增加字段,Oracle 临时表用法
- macbook air 卸载java,macbook air如何卸载软件 macbook air卸载软件的方法
- 游戏引擎编程需要哪些基本数学知识?
- IBM在欧洲建首台量子计算机
- 求互质数对的两种方法:欧拉函数和容斥原理
- 突变测试_什么是突变测试?