爬取钉钉在B站卑微道歉视频弹幕,做成词云|钉~

听这美妙的声音

先看用户老爷们给出得评价

B弹幕爬取的方法

  • 打开钉钉下跪视频 B站链接
  • 然后进入控制台如图查看,打开控制台刷新下页面。
  • 你就会在控制台看到一个最特殊的链接
  • 然后你可以双击查看详细信息
  • 最后复制这个URL打开
    就会看到我们需要的弹幕了,接下来就是简单的爬虫编写

然后是爬取代码:很简单

import requests
import jieba
import numpy as np
from lxml import etree
from wordcloud import WordCloud as wc
from PIL import Image
url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=152796906'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}
result = []
html = etree.parse("./B站弹幕/bilibli.xml",etree.HTMLParser())
text = html.xpath("//d//text()")
with open ('./B站弹幕/a.txt',"a+",encoding="utf-8") as f:for t in text:f.write(t+'\n')

最后是词云制作

import jieba.analyse
from PIL import Image, ImageSequence
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGeneratorl = ''
f = open('./B站弹幕/a.txt', 'r',encoding='utf-8')  # 这个就是你的数据源,打开数据时和数据进行截取可以使用结巴分词器
for i in f:l += f.read()result = jieba.analyse.textrank(l, topK=250, withWeight=True)
keyworlds = dict()
for i in result:keyworlds[i[0]] = i[1]# print(keyworlds)image = Image.open('./B站弹幕/timg.jpg')  # 这个就是你的背景,想要好看的,背景图颜色多一点
graph = np.array(image)
wc = WordCloud(font_path='simhei.ttf', background_color='White', max_font_size=170, mask=graph)
wc.generate_from_frequencies(keyworlds)
image_color = ImageColorGenerator(graph)
plt.imshow(wc)
# plt.imshow(wc.recolor(color_func=image_color))
plt.axis('off')
plt.show()
wc.to_file('./B站弹幕/1.png')

爬取钉钉在B站卑微道歉视频弹幕,做成词云相关推荐

  1. 爬取B站视频弹幕生成词云

    效果预览 以B站UP主可乐三太火影1-720集解说视频2020-08-07弹幕爬取为例,生成词云 代码 # -*- coding: utf-8 -*- # @Time : 2020/8/8 22:11 ...

  2. 爬取《水门桥》电影评论生成可视化数据及词云

    一.爬取电影评论 壬寅年春节贺岁电影<长津湖-水门桥>,为了分析这部剧的各项数据,用爬虫的方法从猫眼上爬取了4万多条电影评论. 1.为了防止地址被禁,使用了代理地址池进行爬取: 设置代理地 ...

  3. python网易云歌词做成词云图_Python爬取李荣浩最短歌曲贝贝的网易云评论并做成词云图...

    前言 在18 年的 10 月 17 号,李荣浩发了一张新专辑「耳朵」,专辑里有一首歌「贝贝」,只有 4 秒,歌词也就两个字.而且这首歌的作曲 .作词 .编曲.制作人.和声.录音师.混音师.录音室.混音 ...

  4. python爬取抖音用户数据的单位是_爬取并分析一下B站的最热视频排行榜,看看大家都喜欢看什么视频...

    前言 现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉 ...

  5. 用Python爬取B站弹幕并做成词云

    用Python爬取B站弹幕并做成词云 一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...

  6. 用Python爬取并分析了B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  7. JAVA爬取虎嗅网截图_java爬虫爬取网站使用多线程(虎嗅网站)

    java爬虫爬取网站使用多线程(虎嗅网站) java爬虫爬取网站使用多线程(虎嗅网站) 图解虎嗅爬虫优化方案 pom 如下: org.apache.httpcomponents httpclient ...

  8. python b站 礼物_用Python爬取并分析了B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  9. python豆瓣爬虫爬取评论做成词云

    前言 前一段时间学校有个project,做一个电影购票系统,当时就用springboot做了系统,用python抓了一些电影的基本信息.后来发现如果把评论做成词云那展示起来不是很酷炫么.于是乎把这个过 ...

最新文章

  1. Libra教程之:move语言的特点和例子
  2. 编写一个汇编语言程序,完成以下要求。从BUF单元处定义有10个带符号字数据:-1,3,24,94,62,72,55,0,-48,99,试找出他们中的最大值和平均值,并以此分别存放至该数据区的后两个单元
  3. SpringBoot使用@ServerEndpoint无法依赖注入问题解决 SpringBoot webSocket配置
  4. 怎么样配置java的jdk_如何安装java中的JDK以及配置
  5. Application Constants
  6. 远播教育集团PHP面试题,远播教育金牌升学规划师陈煜雯:如何规划孩子的升学?【摇号】...
  7. 集训8.16最小生成树讲解
  8. java模拟http post
  9. WM 仓库管理T-CODE
  10. C语言和C++中如何编写交换两个整形变量值的函数
  11. 英文期刊论文翻译格式要求和文献要求
  12. 10款超炫HTML5游戏 附游戏源码
  13. dweep_极度好玩智力游戏
  14. OUTLOOK 下邮件如何以人,文件夹来分类inbox
  15. 关于在电脑单机上面运行魔兽世界的方法
  16. 4种预测市场表现的方法
  17. 混凝土与水泥制品行业运行分析
  18. G2:一个由纯 javascript 编写、强大的语义化图表生成工具
  19. 浙江工商大学python试卷_浙江工商大学信息与电子工程学院
  20. 关于QUIC协议的连接、重传、多路复用、流量控制

热门文章

  1. (UE4)UI小功能之按钮逐次显示
  2. 完整的十字架(漫画)
  3. 【求职】小米 2018 秋招测试开发工程师笔试题
  4. mongoTemplate查询指定字段
  5. QT 实现类似于qq的登录注册界面
  6. 一位十万粉博主的运营之路
  7. Android 工作记录1 有关界面和快捷操作的
  8. Python WindowsError
  9. Parker机电产品(运动控制/伺服电机/直线电机)在FPD行业应用
  10. html word 编辑表格,在Word文档中运用编辑表格的7个技巧