爬取钉钉在B站卑微道歉视频弹幕,做成词云
爬取钉钉在B站卑微道歉视频弹幕,做成词云|钉~
听这美妙的声音
先看用户老爷们给出得评价
B弹幕爬取的方法
- 打开钉钉下跪视频 B站链接
- 然后进入控制台如图查看,打开控制台刷新下页面。
- 你就会在控制台看到一个最特殊的链接
- 然后你可以双击查看详细信息
- 最后复制这个URL打开
就会看到我们需要的弹幕了,接下来就是简单的爬虫编写
然后是爬取代码:很简单
import requests
import jieba
import numpy as np
from lxml import etree
from wordcloud import WordCloud as wc
from PIL import Image
url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=152796906'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}
result = []
html = etree.parse("./B站弹幕/bilibli.xml",etree.HTMLParser())
text = html.xpath("//d//text()")
with open ('./B站弹幕/a.txt',"a+",encoding="utf-8") as f:for t in text:f.write(t+'\n')
最后是词云制作
import jieba.analyse
from PIL import Image, ImageSequence
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGeneratorl = ''
f = open('./B站弹幕/a.txt', 'r',encoding='utf-8') # 这个就是你的数据源,打开数据时和数据进行截取可以使用结巴分词器
for i in f:l += f.read()result = jieba.analyse.textrank(l, topK=250, withWeight=True)
keyworlds = dict()
for i in result:keyworlds[i[0]] = i[1]# print(keyworlds)image = Image.open('./B站弹幕/timg.jpg') # 这个就是你的背景,想要好看的,背景图颜色多一点
graph = np.array(image)
wc = WordCloud(font_path='simhei.ttf', background_color='White', max_font_size=170, mask=graph)
wc.generate_from_frequencies(keyworlds)
image_color = ImageColorGenerator(graph)
plt.imshow(wc)
# plt.imshow(wc.recolor(color_func=image_color))
plt.axis('off')
plt.show()
wc.to_file('./B站弹幕/1.png')
爬取钉钉在B站卑微道歉视频弹幕,做成词云相关推荐
- 爬取B站视频弹幕生成词云
效果预览 以B站UP主可乐三太火影1-720集解说视频2020-08-07弹幕爬取为例,生成词云 代码 # -*- coding: utf-8 -*- # @Time : 2020/8/8 22:11 ...
- 爬取《水门桥》电影评论生成可视化数据及词云
一.爬取电影评论 壬寅年春节贺岁电影<长津湖-水门桥>,为了分析这部剧的各项数据,用爬虫的方法从猫眼上爬取了4万多条电影评论. 1.为了防止地址被禁,使用了代理地址池进行爬取: 设置代理地 ...
- python网易云歌词做成词云图_Python爬取李荣浩最短歌曲贝贝的网易云评论并做成词云图...
前言 在18 年的 10 月 17 号,李荣浩发了一张新专辑「耳朵」,专辑里有一首歌「贝贝」,只有 4 秒,歌词也就两个字.而且这首歌的作曲 .作词 .编曲.制作人.和声.录音师.混音师.录音室.混音 ...
- python爬取抖音用户数据的单位是_爬取并分析一下B站的最热视频排行榜,看看大家都喜欢看什么视频...
前言 现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉 ...
- 用Python爬取B站弹幕并做成词云
用Python爬取B站弹幕并做成词云 一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...
- 用Python爬取并分析了B站最热排行榜,我发现了这些秘密
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...
- JAVA爬取虎嗅网截图_java爬虫爬取网站使用多线程(虎嗅网站)
java爬虫爬取网站使用多线程(虎嗅网站) java爬虫爬取网站使用多线程(虎嗅网站) 图解虎嗅爬虫优化方案 pom 如下: org.apache.httpcomponents httpclient ...
- python b站 礼物_用Python爬取并分析了B站最热排行榜,我发现了这些秘密
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...
- python豆瓣爬虫爬取评论做成词云
前言 前一段时间学校有个project,做一个电影购票系统,当时就用springboot做了系统,用python抓了一些电影的基本信息.后来发现如果把评论做成词云那展示起来不是很酷炫么.于是乎把这个过 ...
最新文章
- Libra教程之:move语言的特点和例子
- 编写一个汇编语言程序,完成以下要求。从BUF单元处定义有10个带符号字数据:-1,3,24,94,62,72,55,0,-48,99,试找出他们中的最大值和平均值,并以此分别存放至该数据区的后两个单元
- SpringBoot使用@ServerEndpoint无法依赖注入问题解决 SpringBoot webSocket配置
- 怎么样配置java的jdk_如何安装java中的JDK以及配置
- Application Constants
- 远播教育集团PHP面试题,远播教育金牌升学规划师陈煜雯:如何规划孩子的升学?【摇号】...
- 集训8.16最小生成树讲解
- java模拟http post
- WM 仓库管理T-CODE
- C语言和C++中如何编写交换两个整形变量值的函数
- 英文期刊论文翻译格式要求和文献要求
- 10款超炫HTML5游戏 附游戏源码
- dweep_极度好玩智力游戏
- OUTLOOK 下邮件如何以人,文件夹来分类inbox
- 关于在电脑单机上面运行魔兽世界的方法
- 4种预测市场表现的方法
- 混凝土与水泥制品行业运行分析
- G2:一个由纯 javascript 编写、强大的语义化图表生成工具
- 浙江工商大学python试卷_浙江工商大学信息与电子工程学院
- 关于QUIC协议的连接、重传、多路复用、流量控制