思路&代码参考微信公众号:Python与Excel之交 ,作者小刀

以电影《怒火.重案》为例子

网页:高清视频在线观看 - 芒果TV

弹幕

进入浏览器的开发者模式

弹幕放在0.json里面,每分钟生成一个json

真实网址:https://bullet-ws.hitv.com/bullet/2021/11/17/231055/14289123/0.json

代码

import pandas as pd
import requests
import timeheaders = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
}df = pd.DataFrame()for i in range(0,9):print(f'正在爬取第{i}页')resposen = requests.get(f'https://bullet-ws.hitv.com/bullet/2021/11/17/231055/14289123/{i}.json',headers = headers)time.sleep(1)for e in resposen.json()['data']['items']:ids = e['ids']content = e['content']times = e['time']text = pd.DataFrame({'ids':[ids],'弹幕':[content],'发生时间':[times]})df = pd.concat([df,text])

评论

评论在页面最下面,查看下一页评论需要点击”查看更多评论“

进入浏览器的开发者模式

真实的url:

https://comment.mgtv.com/v4/comment/getCommentList?page=1&subjectType=hunantv2014&subjectId=14289123&callback=jQuery18202897836638645481_1637167911008&_support=10000000&_=1637167916757https://comment.mgtv.com/v4/comment/getCommentList?page=2&subjectType=hunantv2014&subjectId=14289123&callback=jQuery18202897836638645481_1637167911007&_support=10000000&_=1637168155756

page=是第几页评论

callback=这段删除不影响

最后的&_=是时间戳,删除不影响

最后的url:

https://comment.mgtv.com/v4/comment/getCommentList?page=1&subjectType=hunantv2014&subjectId=14289123&_support=10000000

代码:

import requests
import pandas as pd
import timeheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
}df = pd.DataFrame()
for i in range(1,5):print(f'正在爬取第{i}页')url = f'https://comment.mgtv.com/v4/comment/getCommentList?page={i}&subjectType=hunantv2014&subjectId=14289123&&_support=10000000'res = requests.get(url,headers = headers).json()time.sleep(2)for e in res['data']['list']:nickName = e['user']['nickName'] #用户名称praiseNum = e['praiseNum'] #被点赞数date = e['date']  #发送日期content = e['content'] #评论内容text = pd.DataFrame({'nickName':[nickName],'praiseNum':[praiseNum],'date':[date],'content':[content]})df=pd.concat([df,text])

爬虫-芒果TV-弹幕评论相关推荐

  1. Python爬虫实战,requests模块,Python实现抓取芒果TV弹幕

    前言 利用Python实现抓取芒果TV弹幕,废话不多说. 让我们愉快地开始吧~ 开发工具 Python版本: 3.6.4 相关模块: requests模块: pandas模块 以及一些Python自带 ...

  2. 用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕

    众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...

  3. 芒果TV——百变大咖秀爬虫与数据可视化

    本期是对芒果TV视频评论的一次爬虫与数据分析,耗时两个晚上,总体来说比较普通,值得注意的一点是时间戳的处理. 爬虫方面:由于芒果的评论数据是封装在json里面,所以只需要找到json文件,对需要的数据 ...

  4. python爬取乘风破浪的姐姐弹幕--芒果TV爬虫

    不知道大家有木有收看兴风作浪 乘风破浪的姐姐们吖?你最喜欢哪个姐姐呢?看看哪个姐姐最受弹幕欢迎吧 今天(昨天),先把芒果TV的<乘风破浪的姐姐>弹幕爬下来再说 from bs4 impor ...

  5. 你一定不知道爬虫js逆向还能登录芒果TV吧!

    前言 最近在捣鼓js这一块的知识,顺便给大家分享一个练手学习的小项目,让自己在多了解一下爬虫的魅力,js逆向登录芒果TV 目标地址 网址:8ec200330de7c741bd39afc56e043e6 ...

  6. python爬取芒果TV《乘风破浪的姐姐》弹幕数据(已完成)

    爬取平台:芒果TV 爬取内容:<乘风破浪的姐姐>弹幕数据(以前6期为例) 爬取工具:Anaconda3 Spyder 爬取日期:2020年7月1日 打开节目网页,通过开发者工具Networ ...

  7. 芒果TV登陆爬虫练习

    因为最近学了点简单的js逆向,就拿芒果TV练练手 https://www.mgtv.com/ 一:分析参数 1.首先打开登陆页面并找到登陆时发起的请求链接 2.经观察所发现,登陆需要这几个参数.其中, ...

  8. 芒果TV 2021 互联网人才招聘

    长沙,关键词是什么? 小龙虾.臭豆腐 马栏山 中国最具幸福感城市 芒果TV,关键词是什么? 天生青春,NO.1 中国互联网百强 世界媒体五百强 理想,非得在北上广实现么? 其实,追梦的路上不一定是冰冷 ...

  9. 苹果cmsv10仿芒果TV小说免费简约模板源码

    模板主题介绍: 模板名称:苹果cmsv10仿芒果TV小说免费简约模板 模板程序:苹果cmsv10 模板类型:小说模板 空间支持:php5.6+mysql 模板颜色:白色 模板来源:来自网络收集 下载方 ...

最新文章

  1. 动态规划-重叠区间2020.3.30
  2. 值得收藏的时间复杂度速查表:数据结构操作、排序算法、图操作、堆操作
  3. Angular应用里input字段后面的_ngcontent-hqi是什么含义
  4. 在Windows上安装Elasticsearch 5.0
  5. 5求的值c语言编辑,C语言中怎样求1+3+5~~~~~+9值并 – 手机爱问
  6. SpringBoot项目的 pom.xml第一行报错
  7. 数据库索引优化原理,索引的工作机制
  8. 2015计算机类专业课类试卷,2015年自考《计算机应用基础》模拟试题及答案
  9. python八角图形绘制_(Python)从零开始,简单快速学机器仿人视觉Opencv—第四节:OpenCV处理鼠标事件...
  10. js数组获取index_通过事例重温一下 JS 中 常见的15 种数组操作(备忘清单),收藏...
  11. linux mysql etc inid_Linux下mysql基本操作
  12. Oracle 无备份情况下的恢复--密码文件/参数文件
  13. VB中Excel 2010的导入导出操作
  14. mysql int类型 int(11) 和int(2)区别
  15. 防火墙设置对外开放port
  16. Java架构师之路:从码农到年薪五十万的架构师
  17. 计算机网络为什么要分层?
  18. vba 添加outlook 签名_在Excel 2013中使用vba插入电子邮件签名
  19. 【舆情分析(5)】 情感倾向分析之鲁迅《祝福》里对祥林嫂(特定人物)的情感倾向
  20. 监控安防人员入门基础

热门文章

  1. python视频分段_Python 视频文件的分割和合并
  2. 华为fusionsphere整体架构及其各组件功能_华为数据之道:面向业务的信息架构建设...
  3. java如何关闭creo,creo怎么把网页关掉
  4. Kali中搭建vulhub时镜像git失败
  5. SQLi LABS Less 16 布尔盲注
  6. 当数据改变时,VUE是如何实现DOM更新的?
  7. React系列——React Fiber 架构介绍资料汇总(翻译+中文资料)
  8. 2748: [HAOI2012]音量调节
  9. asp.net mvc 2被遗忘的%:Html.AntiForgeryToken() %
  10. HP的“高端”磁带库!