python抓取腾讯视频弹幕_Python爬虫练习:腾讯视频弹幕数据采集
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理
以下文章来源于菜鸟学Python数据分析
1.网页分析
本文以爬取《脱口秀大会 第3季》最后一期视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url。
通过删减各参数,发现仅有timestamp参数的变化会影响弹幕数据的爬取,且timestamp参数是首项为15,公差为30的等差数列。可以大胆猜测腾讯视频每30秒更新一页弹幕数据,该视频长度为12399秒。而数据格式为标准的json格式,因此json.loads直接解析数据即可。
2.爬虫实战
import requests
import json
import time
import pandas as pd
df = pd.DataFrame()
for page in range(15, 12399, 30):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
url = 'https://mfm.video.qq.com/danmu?otype=json×tamp={}&target_id=5938032297%26vid%3Dx0034hxucmw&count=80'.format(page)
print("正在提取第" + str(page) + "页")
html = requests.get(url,headers = headers)
bs = json.loads(html.text,strict = False) #strict参数解决部分内容json格式解析报错
time.sleep(1)
#遍历获取目标字段
for i in bs['comments']:
content = i['content'] #弹幕
upcount = i['upcount'] #点赞数
user_degree =i['uservip_degree'] #会员等级
timepoint = i['timepoint'] #发布时间
comment_id = i['commentid'] #弹幕id
cache = pd.DataFrame({'弹幕':[content],'会员等级':[user_degree],
'发布时间':[timepoint],'弹幕点赞':[upcount],'弹幕id':[comment_id]})
df = pd.concat([df,cache])
df.to_csv('tengxun_danmu.csv',encoding = 'utf-8')
print(df.shape)
3.数据预览
python抓取腾讯视频弹幕_Python爬虫练习:腾讯视频弹幕数据采集相关推荐
- python抓取直播源 并更新_Python爬虫实例(二)使用selenium抓取斗鱼直播平台数据...
程序说明:抓取斗鱼直播平台的直播房间号及其观众人数,最后统计出某一时刻的总直播人数和总观众人数. 过程分析: 进入平台首页,来到页面底部点击下一页,发现url地址没有发生变化,这样的话再使用urlli ...
- python 抓取微博评论破亿_Python爬虫实战演练:爬取微博大V的评论数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于IT共享之家 ,作者: IT共享者 理论篇 试想一个问题,如果我们要抓取某个微博大V ...
- python抓取网页数据并截图_python实现自动网页截图并裁剪图片
本文实例为大家分享了python自动网页截图并裁剪图片的具体代码,供大家参考,具体内容如下 代码: # coding=utf-8 import time from selenium import we ...
- python抓取pc端数据_「爬虫四步走」手把手教你使用Python抓取并存储网页数据!...
爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
- python爬取饿了么订单_python爬虫:爬取某图外卖数据有这篇文章就够了
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...
- python爬取去哪网数据_Python爬虫入门:使用Python爬取网络数据
1 网络爬虫 引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫 如何实现爬虫? 简单的讲,一共 ...
- python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据
python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...
- python抓取微博数据中心_微博爬虫开源项目汇总大全
作者:阿橙 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
- python爬取公众号历史文章_Python爬虫爬取微信公众号历史文章全部链接
因为朋友问我能不能找一下一个微信公众号的全部历史文章的链接,我就帮他弄了一下,通过百度和谷歌发现现在大家爬微信公众号的思路基本都是下面两种: 通过搜狗搜索微信公众号然后拿到链接 通过fiddler检测 ...
- python爬取微博评论破亿_Python爬虫实战演练:爬取微博大V的评论数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于IT共享之家 ,作者: IT共享者 理论篇 试想一个问题,如果我们要抓取某个微博大V ...
最新文章
- html 消息通知功能,HTML5之消息通知的使用(Web Notification)
- 中国有多少python程序员-“刚毕业1年,做Python能挣多少?”网友:吹的不多……...
- HDU 1199 amp;amp; ZOJ 2301 线段树离散化
- 我就改了一行代码,为什么就全超时了?
- 重磅!阿里云发布最新服务等级协议SLA ,多实例可用性升为99.995%
- 携程一次Redis迁移容器后Slowlog“异常”分析
- 相册选取图片和照相机取图片
- Hbase Cellutil源码
- OpenKG祝大家端午安康
- 电脑CPU的最佳工作温度是多少度
- android 局域网socket,Android基于局域网socket通信
- 军火库(第一期):无线电硬件安全大牛都用哪些利器?
- LSVGlobal Mapper应用----影像裁剪
- mysql人像伴随模型_还不了解MySQL跨行事务模型吗?看完这篇你也就差不多了!...
- iframe标签全屏
- 天下文章一大抄看你会抄不会抄devGridView凭证金额录入(万仟百拾元)
- sqlserver 属性 TextHeader 不可用于 StoredProcedure“[dbo].[x]”该对象可能没有此属性,也可能是访问权限不足而无法检索。 该文本已加密。
- 先进过程控制之一:浅说APC
- 高等数学笔记:导函数与原函数关于函数性质的研究
- 外挂太多怎么解?云上找出路