爬取腾讯视频评论——以《三生三世，十里桃花》为例

#@kaiyiching
import requests
import re
import json
import io
import sys
import datetime
import time,random
import csv
import openpyxl sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')#每一集视频的ID地址
vids = [
'1743283224','1743283291','1744194068','1744194109','1745133738','1745133746','1746125178','1746125211',  '1747460419','1747460409','1748886128','1750117919','1750117958','1751794201','1751794196','1753505550',  '1753505443','1755270031','1755269984','1757037177','1757037063','1758825127','1758825036','1760156472',   '1761387060','1761387007','1763172513','1763172469','1764949073','1764949060','1766727104','1766727112',  '1768551535','1768551548','1770382580','1770382609','1771753979','1773023416','1773023418','1774863174',   '1774863184','1776738550','1776738647','1778383113','1778383305','1780599951','1780599966','1782554392',   '1782554400','1783960585','1785270823','1785270863','1787131235','1787131345','1789058581','1789058581',
'1791013007','1791013125'
]#评论的起始ID
start_commids = [
['6616644405906130203'],['6616664859394932771'],['6616672316945937236'],['6615962119770492170'],
['6616638773667540360'],['6616672659104676103'],['6616611398839191565'],['6616638804599519528'],
['6616641285764871460'],['6615805231621550508'],['6616632515422000843'],['6614549204063199940'],
['6616653318569078954'],['6616508559151056021'],['6616438746806460645'],['6614892737450189021'],
['6616541726632325456'],['6616491007411730598'],['6616482905998308867'],['6616650046032966419'],
['6616380103377493114'],['6616514002842793872'],['6616666724605826041'],['6615947305712546108'],
['6616673826644673892'],['6616668964007379730'],['6616562399103268939'],['6614501476259102517'],
['6615580397840873278'],['6616560843789979554'],['6615501928859976367'],['6616595094387017719'],
['6615857216740328480'],['6616563955453735997'],['6614396586108066634'],['6615562549724787697'],
['6615797262117749567'],['6616611457506818250'],['6616678069939487169'],['6616600135378079490'],
['6616655145532062117'],['6616559226108496403'],['6616670371548997639'],['6615186649276466275'],
['6616649222480168935'],['6616663931755886339'],['6616536528585866717'],['6616645511367176703'],
['6616681357352563095'],['6616675089028151111'],['6616631206095599091'],['6616282701895279731'],
['6616680859552956805'],['6616345117194691322'],['6616324008295513548'],['6616324008295513548'],
['6616670658119611261'],['6616600879377658275']
]infos = []for k in range(5):
# k表示集数，为了不给服务器太大压力，所以只设置了爬取5集的部分评论vid = vids[k]commids = start_commids[k]for i in range(10):# 这里的10表示每一集爬取的评论数量commid = commids[i]vurl='https://video.coral.qq.com/varticle/1743283224/comment/v2?callback=_varticle'+vid+'commentv2&orinum=10&oriorder=t&pageflag=1&cursor='+str(commid)+'&scorecursor=&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1577498740192'# 获取url的内容res_vurl = requests.get(vurl)# url内容为字节，故需要转换成str，因为re模块作用于strres_vurl_1 = bytes.decode(res_vurl.content)# 进行re.sub进行替换无用的字符串，以及首尾两个括号，使格式变为jsondic_data = re.sub('_varticle'+str(vid)+'commentv2|\(|\)','',res_vurl_1)# 进行str转字节data_bytes = str.encode(dic_data)# 读取data内容data = json.loads(data_bytes)['data']last_commid = data['last']print(last_commid)commids.append(last_commid)comments  = data['oriCommList']for comment in comments:time = comment['time']# 将时间戳转化成日期timeStamp = int(time)dateArray = datetime.datetime.utcfromtimestamp(timeStamp)ep = k+1date = dateArray.strftime("%Y-%m-%d") content = comment['content']infos.append([ep,date,content])#将爬取的内容写入Excel表格：
wb = openpyxl.Workbook()
sheet = wb.active
sheet.title = 'tencent-comment'
sheet['A1'] = '三生三世，十里桃花'
for info in infos:sheet.append(info)
# 存储表格
wb.save('Tencent-comment.xlsx')

至于怎么批量获取视频的ID和评论的ID我之后再想想办法。

爬取腾讯视频评论——以《三生三世，十里桃花》为例相关推荐

Python爬虫爬取腾讯视频评论内容
Python爬虫爬取腾讯视频评论内容腾讯视频评论内容在源码里是不可见,所以要使用抓包分析. 可安装fiddler代理服务器实现. 下面爬了腾讯视频评论内容(不包括回复),及发表评论者的id.昵称和 ...
python实现qq登录腾讯视频_Python爬取腾讯视频评论的思路详解
一.前提条件安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于代理服务器有Python的编译环境,一般选择Py ...
谷歌爬虫ua_Python爬虫，实战爬取腾讯视频评论！
文章目录: 一.前提条件二.分析思路三.代码编写四.结果展示一.前提条件安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyO ...
网络爬虫---抓包分析，用抓包分析爬取腾讯视频某视频所有评论（Fiddler工具包的分享）
抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享) 文章目录抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享) 一.抓包分析 1.下载工具并安装 ...
python爬虫取腾讯视频评论
文章目录 1. 爬取评论内容代码 2.爬取评论时间代码 3.数据处理部分 3.1 评论的时间戳转换为正常时间 3.2 评论内容读入csv 3.3 统计一天各个时间段内的评论数 3.4 统计最近评论数 ...
python爬虫学习笔记（一）—— 爬取腾讯视频影评
前段时间我忽然想起来,以前本科的时候总有一些公众号,能够为我们提供成绩查询.课表查询等服务.我就一直好奇它是怎么做到的,经过一番学习,原来是运用了爬虫的原理,自动登陆教务系统爬取的成绩等内容.我觉得挺 ...
Python 爬取腾讯电视剧评论
定向爬取腾讯电视剧评论本例思路:打开评论页面,通过fiddler提取加载评论页面的网址,对比分析url,构造内容和用户pattern,然后爬取输出. 1,打开电视剧如果爱页面https://v.qq ...
python爬取b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...
爬取腾讯视频网站数据
1 数据获取腾讯视频的网站中隐含的是一个非结构化的数据.R语言的"XML"包中htmlParse和getNodeSet非常强大,通过htmlParse可以抓取页面数据并形成树状结 ...

爬取腾讯视频评论——以《三生三世，十里桃花》为例

爬取腾讯视频评论——以《三生三世，十里桃花》为例相关推荐

最新文章

热门文章