不知道大家有木有收看兴风作浪 乘风破浪的姐姐们吖?你最喜欢哪个姐姐呢?看看哪个姐姐最受弹幕欢迎吧
今天(昨天),先把芒果TV的《乘风破浪的姐姐》弹幕爬下来再说

from bs4 import BeautifulSoup
import requests
import os
import json
import pandas as pd
from wordcloud import WordCloud, ImageColorGenerator
import imageio
import seaborn as sns
import matplotlib.pyplot as plt
import jieba
import collections # 词频统计库


分析可知,弹幕的json都存在这些地方,分别复制“0.json”,“1.json”,“2.json”的URL康康
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/0.json’
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/1.json’
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/2.json’
发现前面的都一样,只有最后的x.json是按照节目的时间来定的,第1分钟就是0.json,以此类推。
另外其他期的URL,前面的也是一样的,只有最后的两串数字每期有一些差别
以此为依据就可以写代码啦。

#提取某一期的弹幕
def get_danmu(num1,num2,page):url='https://bullet-ws.hitv.com/bullet/2020/06/23/{}/{}/{}.json'danmuurl = url.format(num1,num2,page)res=requests.get(danmuurl)res.encoding = 'utf-8'jd=json.loads(res.text)details=[]for i in range(len(jd['data']['items'])):result={}result['stype']=num2result['id']=jd['data']['items'][i]['id']try:result['uname']=jd['data']['items'][i]['uname']except:result['uname']=''result['content']=jd['data']['items'][i]['content']result['time']=jd['data']['items'][i]['time']try:result['v2_up_count']=jd['data']['items'][i]['v2_up_count']except:result['v2_up_count']=''details.append(result)return details
#输入关键信息
def count_danmu():danmu_total=[]num1=input('第一个数字')num2=input('第二个数字')page=int(input('输入总时长'))for i in range(page):danmu_total.extend(get_danmu(num1,num2,i))return danmu_total
def main():danmu_end=[]#爬前四集,所以设置了循环4次for j in range(4):danmu_end.extend(count_danmu())df=pd.DataFrame(danmu_end)df.to_excel('danmu.xlsx')if __name__ == '__main__':main()

分别输入每期的参数,就可以得到相应的弹幕啦,我爬的时候是6.23,大家可以参考一下

6.23前四集的参数
095353,8337559,101
135229,8339494,134
135223,8398205,100
121038,8437644,35

python爬取乘风破浪的姐姐弹幕--芒果TV爬虫相关推荐

  1. python爬取腾讯视频弹幕_网络爬虫实战(四):爬取腾讯视频电视剧弹幕-Go语言中文社区...

    文章目录 实战背景 说到被翻拍最多的大概就是金庸先生的剧了,有华人的地方就会有金庸剧.而在他的多部小说中,翻拍次数最多的无疑就是<倚天屠龙记>了,而且次数已经高达十四次.最早的是1963香 ...

  2. python爬取bilibili弹幕_用Python爬取B站视频弹幕

    原标题:用Python爬取B站视频弹幕 via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一 ...

  3. python爬取b站直播弹幕代码

    以下是使用Python爬取B站直播弹幕的代码示例: import requests import json import timedef get_real_url(room_id):# 获取直播间的真 ...

  4. python爬取腾讯视频弹幕_用Python爬取腾讯视频弹幕

    原标题:用Python爬取腾讯视频弹幕 via:菜J学Python 1.网页分析 本文以爬取<脱口秀大会 第3季>最后一期视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url. 通过删减 ...

  5. 三分钟教会你用Python爬取心仪小姐姐图片

    使用Python爬取小姐姐图片 首先上网站链接 唯美女生 爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 E.g xiaojiejie web 2.下载并安装python环境 pytho ...

  6. 用Python爬取王冰冰vlog弹幕并制作词云

    大家好,最近的"瓜",多到我们措手不及,可谓是"热点不断".作为程序员,我们还可能随时为此而加班. 各种评论视频"爆炸"网络,打开首页全是热 ...

  7. python爬取“百度小姐姐”

    欢迎加入我们卧虎藏龙的python讨论qq群:996113038 最近经常推一些游戏类的推文 发现这些推文的阅读量不是很高 我算明白了 写推文不趁妹子是没人看的 想到自己好久没有发过爬虫了. 今天就给 ...

  8. python爬取4k小姐姐图片 人生苦短 我用python

    4k壁纸它来了 前言 分析 代码 拼接每一页图片的路径 对每一页图片进行页面的解析,拿到图片详情页的url 拿到图片的url和图片名 线程池 多线程下载 总结 成果展示 老样子 先来几张图 前言 今天 ...

  9. Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】

    Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...

最新文章

  1. 软件质量保证与测试——Ad hoc Test
  2. Linux基础命令记录
  3. 网易创新企业大会圆满收官  看新技术和新商业如何撞出花火
  4. JAVA web 会话技术CookieSession
  5. android一键分享功能不使用任何第三方sdk
  6. Hadoop生态系统学习路线
  7. Cannot merge new index 66395 into a non-jumbo instruction!,uses or overrides a deprecated API.
  8. 整数区间(信息学奥赛一本通-T1324)
  9. webbrowser加载地图网页出现脚本错误解决
  10. 一次tns连接错误的解决过程
  11. 【POJ2887】Big String(块状链表,模板)
  12. Python基础篇【第二篇】:运算符
  13. 【赛尔笔记】文本摘要论文列表
  14. Spring:pom.xml中引入依赖发红解决方案
  15. 中国城市统计年鉴下载
  16. Android项目无用文件 BAT批处理 清理
  17. 【014】求字体-上传图片自动识别字体
  18. h5 video标签
  19. kubernetes 架构及应用场景
  20. BPI 流程优化和BPR流程重组

热门文章

  1. 高并发系统设计——“三高”解决方案
  2. 华为路由器、H3C交换机和TPLINK无线路由器组建无线网
  3. IBM朱近之:SaaS扮演三个角色,云计算
  4. iview+vue实现表头的拖拽功能
  5. 深入理解 原码,反码,补码——证明补码等于反码加1
  6. 将图片修改到指定像素大小和存储大小
  7. 线性回归与多项式回归
  8. JTA Transactions
  9. 【Word】关于页码和节的一些经验分享
  10. androidstudio能实现简单的电话拨号,短信发送,照相机调用,地图打开功能