python抓取腾讯视频弹幕_Python爬虫练习：腾讯视频弹幕数据采集

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于菜鸟学Python数据分析

1.网页分析

本文以爬取《脱口秀大会第3季》最后一期视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

通过删减各参数，发现仅有timestamp参数的变化会影响弹幕数据的爬取，且timestamp参数是首项为15，公差为30的等差数列。可以大胆猜测腾讯视频每30秒更新一页弹幕数据，该视频长度为12399秒。而数据格式为标准的json格式，因此json.loads直接解析数据即可。

2.爬虫实战

import requests

import json

import time

import pandas as pd

df = pd.DataFrame()

for page in range(15, 12399, 30):

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

url = 'https://mfm.video.qq.com/danmu?otype=json×tamp={}&target_id=5938032297%26vid%3Dx0034hxucmw&count=80'.format(page)

print("正在提取第" + str(page) + "页")

html = requests.get(url,headers = headers)

bs = json.loads(html.text,strict = False) #strict参数解决部分内容json格式解析报错

time.sleep(1)

#遍历获取目标字段

for i in bs['comments']:

content = i['content'] #弹幕

upcount = i['upcount'] #点赞数

user_degree =i['uservip_degree'] #会员等级

timepoint = i['timepoint'] #发布时间

comment_id = i['commentid'] #弹幕id

cache = pd.DataFrame({'弹幕':[content],'会员等级':[user_degree],

'发布时间':[timepoint],'弹幕点赞':[upcount],'弹幕id':[comment_id]})

df = pd.concat([df,cache])

df.to_csv('tengxun_danmu.csv',encoding = 'utf-8')

print(df.shape)

3.数据预览

python抓取腾讯视频弹幕_Python爬虫练习：腾讯视频弹幕数据采集相关推荐

python抓取直播源并更新_Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据...
程序说明:抓取斗鱼直播平台的直播房间号及其观众人数,最后统计出某一时刻的总直播人数和总观众人数. 过程分析: 进入平台首页,来到页面底部点击下一页,发现url地址没有发生变化,这样的话再使用urlli ...
python 抓取微博评论破亿_Python爬虫实战演练：爬取微博大V的评论数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于IT共享之家 ,作者: IT共享者理论篇试想一个问题,如果我们要抓取某个微博大V ...
python抓取网页数据并截图_python实现自动网页截图并裁剪图片
本文实例为大家分享了python自动网页截图并裁剪图片的具体代码,供大家参考,具体内容如下代码: # coding=utf-8 import time from selenium import we ...
python抓取pc端数据_「爬虫四步走」手把手教你使用Python抓取并存储网页数据！...
爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
python爬取饿了么订单_python爬虫：爬取某图外卖数据有这篇文章就够了
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者:Python进阶者 ( 想要学习Python?Pyth ...
python爬取去哪网数据_Python爬虫入门：使用Python爬取网络数据
1 网络爬虫引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫如何实现爬虫? 简单的讲,一共 ...
python爬取微博评论点赞数_python 爬虫爬微博分析数据
python 爬虫爬微博分析数据最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来用python分析分析狗哥这几年微博的干了些啥. ...
python抓取微博数据中心_微博爬虫开源项目汇总大全
作者:阿橙网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
python爬取公众号历史文章_Python爬虫爬取微信公众号历史文章全部链接
因为朋友问我能不能找一下一个微信公众号的全部历史文章的链接,我就帮他弄了一下,通过百度和谷歌发现现在大家爬微信公众号的思路基本都是下面两种: 通过搜狗搜索微信公众号然后拿到链接通过fiddler检测 ...
python爬取微博评论破亿_Python爬虫实战演练：爬取微博大V的评论数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于IT共享之家 ,作者: IT共享者理论篇试想一个问题,如果我们要抓取某个微博大V ...

python抓取腾讯视频弹幕_Python爬虫练习：腾讯视频弹幕数据采集

python抓取腾讯视频弹幕_Python爬虫练习：腾讯视频弹幕数据采集相关推荐

最新文章

热门文章