python 斗鱼弹幕的爬取一（selenium）

针对弹幕的爬取我们如果只需要获取看到的网页里面的而数据，使用selenium就能实现，对于直播平台来说，往往有第三方平台api让你获取数据（可以获取发弹幕，发弹幕者的名字礼物等等，这需要客户端向弹幕服务器发送登录请求，心跳信息的发送等等）今天只获取弹幕信息储存到txt文件中，上代码，上图片

#!/usr/bin/env python3
# _*_ coding: utf-8 _*_
# auther hou
import time
import random
from selenium import webdriver
chrome_options = webdriver.ChromeOptions()# 使用headless无界面浏览器模式
chrome_options.add_argument('--headless')# 设置配置文件不加载图片增加爬虫效率
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)class DoYu_DanMu():def __init__(self) -> None:self.url = 'https://www.douyu.com/' # 初始化斗鱼路径为下面拼接urldef GetIdUrl(self,Id):Id_Href = self.url+str(Id)browser.get(Id_Href)  # 浏览器请求到直播房间中while True:time.sleep(random.random()*3)try:ls = browser.find_elements_by_xpath('.//div[@class=" danmu-6e95c1"]/div/div')for danmu in ls :if len(danmu.text) > 0:try:print(danmu.text)except:passself.save(danmu.text)else:continueexcept:pass# except:#     time.sleep(random.random()*6)#     ls = browser.find_elements_by_xpath('.//div[@class=" danmu-6e95c1"]/div/div')##     for danmu in ls:#         if len(danmu.text) > 0:#             try:#                 print(danmu.text)#             except:#                 pass#             self.save(danmu.text)#         else:#             continuedef save(self,danmus):with open('hcf.txt','a+',encoding='utf-8')as f:f.write(danmus+'\n')if __name__ == '__main__':num = input('请输入要爬取弹幕的房间号')  # 22619DoYu = DoYu_DanMu()DoYu.GetIdUrl(num)

python 斗鱼弹幕的爬取一（selenium）相关推荐

python斗鱼抽奖_python3爬取斗鱼某些版块的主播人气
python 3爬取斗鱼某些版块的主播人气 1.爬虫版块 import Test3 import urllib.request from bs4 import BeautifulSoup import ...
python熊猫弹幕_Python爬取pandaTV弹幕
主要思路对PandaTV直播间抓包分析得出的结论有: (1)通过GET请求获取弹幕服务器地址: (2)和弹幕服务器建立WebSocket连接后的具体过程需要在主页面引用的JS文件中找(建立连接.发心 ...
利用python的scrapy框架爬取google搜索结果页面内容
scrapy google search 实验目的爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...
强智科技教务系统学科成绩c语言,湖南强智科技教务系统python模拟登录并爬取成绩（财院）...
其实之前有写过一篇帖子了在之前使用教务系统的过程中,偶然一次发现登上教务系统后再退出来的后的登录网址竟然不需要验证码,想着之前有写过教务系统的爬虫模拟登录,没验证码的岂不是更好干(之前那次折腾了好久 ...
2021春项目需求记录 python实现模拟登录+爬取NASA Modis 上的产品数据
python实现模拟登录+爬取Nasa Modis 上的产品数据概述需求分析基本思路代码概述 3月的中旬时候参与了学校的一个大创项目,作为本科生,本人只是摸鱼打杂,负责了其中的一个功能模块: ...
Python爬虫学习之爬取淘宝搜索图片
Python爬虫学习之爬取淘宝搜索图片准备工作因为淘宝的反爬机制导致Scrapy不能使用,所以我这里是使用selenium来获取网页信息,并且通过lxml框架来提取信息. selenium.lxm ...
python 爬虫实例电影-Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
每日一练：Python国内疫情数据爬取与地图绘制
Python 国内疫情数据爬取与地图绘制效果图累计确诊疫情地图绘制 ① 时时数据抓取 ② 获取省份疫情数据 ③ 视觉配置项分段颜色数据设置 ④ 累计确诊疫情地图绘制现存确诊疫情地图绘制 ① 获取 ...
广州python平均薪资_爬取广州的python和Java薪资，为什么Python 高于Java（有代码）...
标签: 小编不知道这个是不是属于那个啥,要看的赶紧看,说不定小编的号要被封了. 用python爬取了某某某直聘网站,直聘Python和Java的招聘信息,比较了两个方向的发展前(钱)途 ,主要是本科生 ...

python 斗鱼弹幕的爬取一（selenium）

python 斗鱼弹幕的爬取一（selenium）相关推荐

最新文章

热门文章