python爬取乘风破浪的姐姐弹幕--芒果TV爬虫

不知道大家有木有收看兴风作浪乘风破浪的姐姐们吖？你最喜欢哪个姐姐呢？看看哪个姐姐最受弹幕欢迎吧
今天（昨天），先把芒果TV的《乘风破浪的姐姐》弹幕爬下来再说

from bs4 import BeautifulSoup
import requests
import os
import json
import pandas as pd
from wordcloud import WordCloud, ImageColorGenerator
import imageio
import seaborn as sns
import matplotlib.pyplot as plt
import jieba
import collections # 词频统计库

分析可知，弹幕的json都存在这些地方，分别复制“0.json”，“1.json”，“2.json”的URL康康
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/0.json’
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/1.json’
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/2.json’
发现前面的都一样，只有最后的x.json是按照节目的时间来定的，第1分钟就是0.json，以此类推。
另外其他期的URL，前面的也是一样的，只有最后的两串数字每期有一些差别
以此为依据就可以写代码啦。

#提取某一期的弹幕
def get_danmu(num1,num2,page):url='https://bullet-ws.hitv.com/bullet/2020/06/23/{}/{}/{}.json'danmuurl = url.format(num1,num2,page)res=requests.get(danmuurl)res.encoding = 'utf-8'jd=json.loads(res.text)details=[]for i in range(len(jd['data']['items'])):result={}result['stype']=num2result['id']=jd['data']['items'][i]['id']try:result['uname']=jd['data']['items'][i]['uname']except:result['uname']=''result['content']=jd['data']['items'][i]['content']result['time']=jd['data']['items'][i]['time']try:result['v2_up_count']=jd['data']['items'][i]['v2_up_count']except:result['v2_up_count']=''details.append(result)return details

#输入关键信息
def count_danmu():danmu_total=[]num1=input('第一个数字')num2=input('第二个数字')page=int(input('输入总时长'))for i in range(page):danmu_total.extend(get_danmu(num1,num2,i))return danmu_total

def main():danmu_end=[]#爬前四集，所以设置了循环4次for j in range(4):danmu_end.extend(count_danmu())df=pd.DataFrame(danmu_end)df.to_excel('danmu.xlsx')if __name__ == '__main__':main()

分别输入每期的参数，就可以得到相应的弹幕啦，我爬的时候是6.23，大家可以参考一下

6.23前四集的参数
095353,8337559,101
135229,8339494,134
135223,8398205,100
121038,8437644,35

python爬取乘风破浪的姐姐弹幕--芒果TV爬虫相关推荐

python爬取腾讯视频弹幕_网络爬虫实战（四）：爬取腾讯视频电视剧弹幕-Go语言中文社区...
文章目录实战背景说到被翻拍最多的大概就是金庸先生的剧了,有华人的地方就会有金庸剧.而在他的多部小说中,翻拍次数最多的无疑就是<倚天屠龙记>了,而且次数已经高达十四次.最早的是1963香 ...
python爬取bilibili弹幕_用Python爬取B站视频弹幕
原标题:用Python爬取B站视频弹幕 via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一 ...
python爬取b站直播弹幕代码
以下是使用Python爬取B站直播弹幕的代码示例: import requests import json import timedef get_real_url(room_id):# 获取直播间的真 ...
python爬取腾讯视频弹幕_用Python爬取腾讯视频弹幕
原标题:用Python爬取腾讯视频弹幕 via:菜J学Python 1.网页分析本文以爬取<脱口秀大会第3季>最后一期视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url. 通过删减 ...
三分钟教会你用Python爬取心仪小姐姐图片
使用Python爬取小姐姐图片首先上网站链接唯美女生爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 E.g xiaojiejie web 2.下载并安装python环境 pytho ...
用Python爬取王冰冰vlog弹幕并制作词云
大家好,最近的"瓜",多到我们措手不及,可谓是"热点不断".作为程序员,我们还可能随时为此而加班. 各种评论视频"爆炸"网络,打开首页全是热 ...
python爬取“百度小姐姐”
欢迎加入我们卧虎藏龙的python讨论qq群:996113038 最近经常推一些游戏类的推文发现这些推文的阅读量不是很高我算明白了写推文不趁妹子是没人看的想到自己好久没有发过爬虫了. 今天就给 ...
python爬取4k小姐姐图片人生苦短我用python
4k壁纸它来了前言分析代码拼接每一页图片的路径对每一页图片进行页面的解析,拿到图片详情页的url 拿到图片的url和图片名线程池多线程下载总结成果展示老样子先来几张图前言今天 ...
Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂，注释超级全，代码可以直接运行】
Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...

python爬取乘风破浪的姐姐弹幕--芒果TV爬虫

python爬取乘风破浪的姐姐弹幕--芒果TV爬虫相关推荐

最新文章

热门文章