时隔一年,嵩哥带来他的新作《雨幕》。
他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上。
如此高品质的音乐,大家如何评价呢?通过哔哩哔哩上的视频弹幕,感受一下。01 实现思路
首先,利用哔哩哔哩的弹幕接口,把数据保存到本地。接着,对数据进行分词。最后,做了评论的可视化。02 弹幕数据

平常我们在看视频时,弹幕是出现在视频上的。实际上在网页中,弹幕是被隐藏在源代码中,以XML的数据格式进行加载的。
比如:https://comment.bilibili.com/123072475.xml一个固定的url地址 + 视频的cid + .xml
只要找到你想要的视频cid,替换这个url就可以爬取所有弹幕了(b站大部分网页给出的字幕限制是1000条)。一个视频的cid在哪里呢?
右键网页,打开网页源代码,搜索 "cid": 就能找到:

03 保存数据到本地
有了数据的接口链接,我们就可以利用request模块,获取数据了。
然后,再利用xpath简单的解析xml,就可以把所有的弹幕信息汇总到一个列表里了。最后,把列表转化成dataframe,保存到本地。# 许嵩新歌《雨幕》 # bilibili视频弹幕文件 url = 'https://comment.bilibili.com/123072475.xml' # 发送请求 response = requests.get(url) xml = etree.fromstring(response.content) # 解析数据 dm = xml.xpath("/i/d/text()") print(dm) # list # 把列表转换成 dataframe dm_df = pd.DataFrame(dm, columns=['弹幕内容']) print(dm_df) # 存到本地 # 解决了中文乱码问题 dm_df.to_csv('雨幕-弹幕.csv', encoding='utf_8_sig')
保存的csv数据:

04 对数据进行分词
制作词云前,需要把弹幕数据进行分词。
关于jieba分词,可以参考:https://blog.csdn.net/dnxbjyj/article/details/72854460# jieba分词 dm_str = " ".join(dm) words_list = jieba.lcut(dm_str) # 切分的是字符串,返回的是列表 words_str = " ".join(words_list)05 词云可视化
通过创建词云对象、设置词云参数,最终生成图片,保存到本地。# 读取本地文件 backgroud_Image = plt.imread('1.jpg') # 创建词云 wc = WordCloud( background_color='white', mask=backgroud_Image, font_path='./SourceHanSerifCN-Medium.otf', # 设置本地字体 max_words=2000, max_font_size=100, min_font_size=10, color_func=random_color_func, random_state=50, ) word_cloud = wc.generate(words_str) # 产生词云 word_cloud.to_file("yumu.jpg") #保存图片

bilibili 解析_用 Python 抓取 bilibili 弹幕并分析!相关推荐

  1. blob的真实地址怎么获得_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址

    之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...

  2. python 爬取加密视频_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址

    之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...

  3. python豆瓣影评_使用Python抓取豆瓣影评数据的方法

    抓取豆瓣影评评分 正常的抓取 分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=20& ...

  4. python 抓数_使用python抓取并分析数据

    本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...

  5. python抓取网站图片_利用python抓取网站图片

    看了网上关于python抓取网站图片的例子,所以自己也尝试着写一个,但是发现这个网站的src不是标准的路径,需要自己添加前面的目录地址,尝试了几次也不成功,所以希望有经验的朋友指导下. 本人是初学者, ...

  6. python新闻评论分析_使用 python 抓取并分析京东商品评论数据

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  7. python 搜索引擎_利用Python抓取搜索引擎结果

    前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童鞋不要再走弯路. 1. 搜索引擎的选取 选择一个好的搜索引擎 ...

  8. python爬取地图地址_用Python抓取百度地图里的店名,地址和联系方式

    原标题:用Python抓取百度地图里的店名,地址和联系方式 每日干货好文分享丨请点击+关注 欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区. 对商业智能BI.大数 ...

  9. python爬取b站用户_用Python爬取bilibili全站用户信息

    教你用Python爬取哔哩哔哩全站用户信息 运行 下载 git clone https://github.com/cexll/bili_user_Spider.git 复制代码 运行环境 Window ...

最新文章

  1. 06.SQLServer性能优化之---数据库级日记监控
  2. [OpenJudge] 百练2754 八皇后
  3. 7月份计划-----dream
  4. 数据可视化实现技术(canvas/svg/webGL)
  5. Spring Boot删除嵌入式Tomcat服务器,启用Jetty服务器
  6. 分布式、云原生技术之后,分布式云或成数字化转型新利器
  7. acer软件保护卡清除工具clear_使用Windows 10内置工具释放硬盘空间的最佳方法
  8. vue如何和PHP交互,VUE中如何使用Vue-resource完成交互
  9. vc无法连接的原因分析
  10. 在vmware中创建共享磁盘
  11. asp.net + jQuery + LINQ 简单登录
  12. python九九乘法表代码
  13. 2022世界电信日|九州云携车路协同OpenV2X探索5G边缘计算新生态
  14. Armbian安装Docker之后的100种玩儿法《动态域名解析DDNS自动更新》
  15. 【Vulnhub靶场】NOOB: 1
  16. Windows任务栏图标变白解决方案
  17. 我坚持写公众号的初衷是什么?
  18. python基础编程题(一)
  19. 从DS1302电路设计总结的晶振电路设计规范
  20. 更改 Windows 11 上的网络适配器优先级

热门文章

  1. 指标波动多大才算是异常?
  2. Java用链表写图书管理_C语言链表实现图书管理系统
  3. 加了元学习之后,少样本学习竟然可以变得这么简单!
  4. NLP Subword三大算法原理:BPE、WordPiece、ULM
  5. Hades:移动端静态分析框架
  6. Redis系列教程(一):Redis缓存的设计、性能、应用与数据集群同步
  7. PDFMiner:python 读取 pdf 内容
  8. 超详细中文注释的GPT2新闻标题生成项目
  9. 【TensorFlow】随机训练和批训练的比较与实现
  10. centos 6.5 防火墙开放指定端口