python爬取bilibili弹幕_用Python爬取B站视频弹幕
原标题:用Python爬取B站视频弹幕
via:菜J学Python
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列。通过分析弹幕,我们可以快速洞察广大观众对于视频的看法。
下面是通过一个关于《八佰》的视频弹幕数据,绘制了如下词云图,感觉效果还是可以的。
海量的弹幕数据不仅可以绘制此类词云图,还可以调用百度AI进行情感分析。
那么,我们该如何获取弹幕数据呢?
本文运用Python爬取B站视频弹幕,让你轻松获取主流视频网站弹幕数据。
1.网页分析
本文以爬取up主硬核的半佛仙人发布的《你知道奶茶加盟到底有多坑人吗?》视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url。
简单分析url参数,很显然,date参数表示发送弹幕的时间,其他参数均无变化。因此,只需要改变date参数,然后通过beautifulsoup解析到弹幕数据即可。
2.爬虫实战
importrequests #请求网页数据
frombs4 importBeautifulSoup #美味汤解析数据
importpandas aspd
importtime
fromtqdm importtrange #获取爬取速度
defget_bilibili_url(start, end):
url_list = []
date_list = [i fori inpd.date_range(start, end).strftime( '%Y-%m-%d')]
fordate indate_list:
url = f"https://api.bilibili.com/x/v2/dm/history?type=1&oid=141367679&date= {date}"
url_list.append(url)
returnurl_list
defget_bilibili_danmu(url_list):
headers = {
"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",
"cookie": "你自己的"#Headers中copy即可
}
file = open( "bilibili_danmu.txt", 'w')
fori intrange(len(url_list)):
url = url_list[i]
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text)
data = soup.find_all( "d")
danmu = [data[i].text fori inrange(len(data))]
foritems indanmu:
file.write(items)
file.write( "n")
time.sleep( 3)
file.close
if__name__ == "__main__":
start = '9/24/2020'#设置爬取弹幕的起始日
end = '9/26/2020'#设置爬取弹幕的终止日
url_list = get_bilibili_url(start, end)
get_bilibili_danmu(url_list)
print( "弹幕爬取完成")
3.数据预览
-----------------
希望系统、快速学习
数据抓取与文本挖掘知识
可以学习数据分析专家@文彤老师的
《跟文彤老师学文本抓取与挖掘》系列视频课程
系列课程包含以下三门课程
小白零编程网络爬虫实战
Python数据分析--玩转Pandas
Python数据分析--玩转文本挖掘
以上顺序也是学习的建议顺序
课程提供讲义(含代码)与数据供练习
学习过程有问题可加Q群与老师交流讨论
10.15~10.18期间参加课程学习
可享受5折优惠
今天最后一天,双11也没有这优惠力度
优惠价: 238.50元返回搜狐,查看更多
责任编辑:
python爬取bilibili弹幕_用Python爬取B站视频弹幕相关推荐
- python 爬取B站视频弹幕信息
获取B站视频弹幕,相对来说很简单,需要用到的知识点有requests.re两个库.requests用来获得网页信息,re正则匹配获取你需要的信息,当然还有其他的方法,例如Xpath. 进入你所观看的视 ...
- 教你快速爬取哔哩哔哩整部番剧的视频弹幕
快速爬取哔哩哔哩整部番剧的视频弹幕 使用工具:ibili 下载方式: npm i ibili 为了进行测试,现在我打算爬取 刀剑神域 Alicization 的整部番剧的视频弹幕 首先为了获取整部番剧 ...
- python爬取bilibili数据_如何使用Python爬取bilibili视频(详细教程)
Python爬取bilibili视频 摘要 为了解决PC端的bilibili无法下载视频的问题,使用python语言可以实现一个能够爬取bilibili某个视频资源(不包括会员视频)的程序.采用整个视 ...
- python爬取腾讯视频弹幕_用Python爬取腾讯视频弹幕
原标题:用Python爬取腾讯视频弹幕 via:菜J学Python 1.网页分析 本文以爬取<脱口秀大会 第3季>最后一期视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url. 通过删减 ...
- bilibili 解析_用 Python 抓取 bilibili 弹幕并分析!
时隔一年,嵩哥带来他的新作<雨幕>. 他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上. 如此高品质的音乐,大家如何评价呢?通过哔哩哔哩上的视频弹幕,感受一下.01 实现思路 首 ...
- python爬去朋友圈_利用Python爬取朋友圈数据,爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
- python爬取行业数据_用Python进行Web爬取数据
介绍 我们拥有的数据太少,无法建立机器学习模型.我们需要更多数据! 如果这句话听起来很熟悉,那么你并不孤单!希望获得更多数据来训练我们的机器学习模型是一个一直困扰人们的问题.我们无法在数据科学项目中获 ...
- python 开发安卓应用商店_用Python爬取各Android市场应用下载量(3分钟学会)
就是这么简单! 文章目录 前言 设计一个函数 构造要爬取的网址 确定要爬取的内容的位置 构建输入和调用部分 程序完整代码 0 前言 有时候,总有一些重复又琐碎的工作,却不得不做-- 一个个统计,也不是 ...
- java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析
引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...
最新文章
- 传真故障排除示例--传真模式不一致导致传真失败
- 各种卡的一些信息积累
- Eclipse中在线安装spring-tool-suite插件
- php判断对象属于哪个类,PHP instanceof:判断对象是否属于某个类
- 牛客网-数据结构笔试题目(四)-Powerful Ksenia问题解决方案(附源码)
- 系统没有远程桌面,如何安装远程桌面
- underscore源码剖析之整体架构
- 在苹果Mac中的“照片”应用中创建幻灯片放映?
- python数据处理太慢_使用Python将数据写入LMDB非常慢
- Ubuntu查看网速工具
- μC/OS源码官网下载链接
- 码蹄集 - MT2095 · 曲径折跃
- 内卷时代,文章排版当然要快人一步(附公文排版插件)
- 《游戏学习》街头霸王HTML游戏源码
- python命令行输入参数_Python命令行参数处理
- 旅游流的概念_旅游流概念的研究的探讨.doc
- n(n-1)到底是个啥
- 在安卓手机安装Linux
- 微信小程序流量主之ECPM
- 上海地铁+android+nfc,在上海手机竟然能当交通卡用!最全攻略来了!
热门文章
- 计算机python教程_Python 如何入门?附Python教程下载
- java生成图片二维码
- 模切行业选择ERP系统的方案
- 安徽大学大学生创新项目报销流程
- 世界《模拟电路》四大名著,传说中的圣经,经典中的经典。
- #私藏项目实操分享#Python爬虫实战,requests+xpath模块,Python实现爬取豆瓣影评
- 贾扬清:如何看待人工智能方向的重要问题?【相辅相成不可或缺的两位“大数据和AI”】
- git 多分支添加备注、查看分支备注
- EGE基础入门篇(九):双缓冲与手动渲染
- 期末ppt:week1 , 2