腾讯视频评论爬虫实战
文章目录
- 腾讯视频评论爬虫实战(深度长评)
- 腾讯视频评论爬虫实战(短评)
腾讯视频评论爬虫实战(深度长评)
程序文件:xajh_cp.py 结果保存:./tencent_comment/xajh_cp.txt
深度长评的URL地址格式为:https://video.coral.qq.com/filmreviewr/c/upcomment/[视频id]?&reqnum=3&commentid=[评论id]
fildder
requests-re
用户代理
《新笑傲江湖》DVD版评论
抓包经过简化得到的url: https://video.coral.qq.com/filmreviewr/c/upcomment/4baf2nzoljqyobl?&reqnum=3&commentid=0
xajh_cp.py
import requests
import re
import randomdef get_html(url,params):uapools=['Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14' ]thisua=random.choice(uapools)headers={"User-Agent":thisua}r=requests.get(url,headers=headers,params=params)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textdef parse_page(infolist,data):titlepat= '"title":"(.*?)"'commentpat='"abstract":"(.*?)"'lastpat='"last":"(.*?)"'titleall=re.compile(titlepat,re.S).findall(data)commentall=re.compile(commentpat,re.S).findall(data)next_cid=re.compile(lastpat).findall(data)[0]infolist.append([titleall[:len(commentall)],commentall])return next_ciddef print_comment_list(infolist):j=0for page in infolist:print('第'+str(j+1)+'页\n')titleall=page[0]commentall=page[1]for i in range(0,len(commentall)):print('='*30)print('评论标题:'+eval('u'+"'"+titleall[i]+"'")+'\n')print('评论内容:'+eval('u'+"'"+commentall[i]+"'")+'\n')j+=1def save_to_txt(infolist,path):fw=open(path,'w+',encoding='utf-8')j=0for page in infolist:fw.write('第'+str(j+1)+'页\n')titleall=page[0]commentall=page[1]for i in range(0,len(commentall)):fw.write('='*30+'\n')fw.write('评论标题:'+eval('u'+"'"+titleall[i]+"'")+'\n')fw.write('评论内容是:'+eval('u'+"'"+commentall[i]+"'")+'\n')j+=1fw.close()
def main():infolist=[] #page_nnum x 2(titleall,commentall) x req_numvid= '4baf2nzoljqyobl'; next_cid='0'; page_num=2for i in range(page_num):url='https://video.coral.qq.com/filmreviewr/c/upcomment/'+vid+'?'params={'commentid': next_cid,'reqnum': '3'}html=get_html(url,params)next_cid=parse_page(infolist,html)print_comment_list(infolist)save_to_txt(infolist,'./tencent_comment/xajh_cp.txt')main()
腾讯视频评论爬虫实战(短评)
程序文件:xajh_dp.py 结果保存:./tencent_comment/xajh_dp.txt
全部短评评论的URL地址格式为:https://video.coral.qq.com/varticle/[视频编号]/comment/v2?&orinum=[返回评论个数]&cursor=[评论标号]"
fildder
requests-re
用户代理
《新笑傲江湖》DVD版评论
抓包经过简化得到的url: https://video.coral.qq.com/varticle/1001103527/comment/v2?&orinum=12&cursor=0
xajh_cp.py
import requests
import re
import randomdef get_html(url,params):uapools=['Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14' ]thisua=random.choice(uapools)headers={"User-Agent":thisua}r=requests.get(url,headers=headers,params=params)r.raise_for_status()r.encoding=r.apparent_encodingr.encoding='utf-8' # 不加此句出现乱码return r.textdef parse_page(infolist,data):commentpat='"content":"(.*?)"'lastpat='"last":"(.*?)"'commentall=re.compile(commentpat,re.S).findall(data)next_cid=re.compile(lastpat).findall(data)[0]infolist.append(commentall)return next_ciddef print_comment_list(infolist):j=0for page in infolist:print('第'+str(j+1)+'页\n')commentall=pagefor i in range(0,len(commentall)):print('评论内容:'+commentall[i]+'\n')j+=1def save_to_txt(infolist,path):fw=open(path,'w+',encoding='utf-8')j=0for page in infolist:fw.write('第'+str(j+1)+'页\n')commentall=pagefor i in range(0,len(commentall)):fw.write('评论内容:'+commentall[i]+'\n')j+=1fw.close()def main():infolist=[]vid='1001103527'; cid = "0"; page_num=2url = 'https://video.coral.qq.com/varticle/'+vid+'/comment/v2'for i in range(page_num):params={'orinum':'10','cursor':cid}html=get_html(url,params)cid=parse_page(infolist,html)print_comment_list(infolist)save_to_txt(infolist,'./tencent_comment/xajh_dp.txt')main()
腾讯视频评论爬虫实战相关推荐
- 数据分析与爬虫实战视频——学习笔记(二)(千图网图片爬虫、fiddler抓包分析、腾讯视频评论爬虫、多线程爬虫(糗百))
网址:[数据挖掘]2019年最新python3 数据分析与数据爬虫实战 https://www.bilibili.com/video/av22571713/?p=26 第三周第二节课 1抓包分析实战 ...
- Python爬虫 爬取腾讯视频评论内容
Python爬虫 爬取腾讯视频评论内容 腾讯视频评论内容在源码里是不可见,所以要使用抓包分析. 可安装fiddler代理服务器实现. 下面爬了腾讯视频评论内容(不包括回复),及发表评论者的id.昵称和 ...
- python实现qq登录腾讯视频_Python爬取腾讯视频评论的思路详解
一.前提条件 安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于代理服务器 有Python的编译环境,一般选择Py ...
- 腾讯视频下载官方_腾讯视频评论在哪
本文给大家整理了腾讯视频下载官方_腾讯视频评论在哪方面的内容.腾讯视频影音是一款界面轻松友好,功能全面完善,方便好用,绿色安全,完全免费的.专注视频播放的客户端软件,您可运行腾讯视频影音,在线享受腾讯 ...
- 谷歌爬虫ua_Python爬虫,实战爬取腾讯视频评论!
文章目录: 一.前提条件 二.分析思路 三.代码编写 四.结果展示 一.前提条件 安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyO ...
- 【网络爬虫实战】抓取腾讯视频评论
首先 腾讯视频(青云志)中的评论是有多页的,涉及到翻页.猜测评论不是都在网页源码中的,查看网页源码确实不在. 第二, 这里通过fiddler获得firefox中新的js网页的url,然后打开此网页.这 ...
- python爬虫取腾讯视频评论
文章目录 1. 爬取评论内容代码 2.爬取评论时间代码 3.数据处理部分 3.1 评论的时间戳转换为正常时间 3.2 评论内容读入csv 3.3 统计一天各个时间段内的评论数 3.4 统计最近评论数 ...
- python 项目实战视频_腾讯视频 Python 爬虫项目实战
做了一些小项目,用的技术和技巧会比较散比较杂,写一个小品文记录一下,帮助熟悉. 需求:经常在腾讯视频上看电影,在影片库里有一个"豆瓣好评"板块.我一般会在这个条目下面挑电影.但是电 ...
- 腾讯视频 Python 爬虫项目实战 !
做了一些小项目,用的技术和技巧会比较散比较杂,写一个小品文记录一下,帮助熟悉. 需求:经常在腾讯视频上看电影,在影片库里有一个"豆瓣好评"板块.我一般会在这个条目下面挑电影.但是电 ...
最新文章
- \\s+ split替换
- WM8962 HPOUT 信号强度 时间周期
- react中component存在性能问题
- Java面试笔试题整理
- .Android项目导入时,出现的Could not write file 。。。。。。.classpath错误解决办法
- postman安装路径_OpenStack Swift 安装及使用
- 教程-上传应用公钥并获取支付宝公钥
- java 百度poi_Android应用中使用百度地图API之POI(三)
- 实战:通过组策略为用户部署软件
- c++去除图片上的文字_图片文字修改去除方法
- Pandas Index 转换排序联表选取
- Android设置按钮点击后变色(导航栏变色)
- 程序运行中(BSS段、数据段、代码段、堆栈)
- 【限时免费】架构和运维技术高峰论坛 (成都站)
- HDU-单词的前缀 字典树
- [高通SDM450][Android9.0]CTA认证--去掉通话记录功能
- 最“燃”智能硬件供需对接会,中城-闯客网春季新启航
- Flink中subTask,并行度,slot你分得清吗?
- 水滴互助完成腾讯领投5亿元B轮融资,未来或将对标凯撒医疗...
- iOS之UI--通讯录的实例关键知识技术点积累