python 斗鱼弹幕的爬取一(selenium)
针对弹幕的爬取我们如果只需要获取看到的网页里面的而数据,使用selenium就能实现,对于直播平台来说,往往有第三方平台api让你获取数据(可以获取发弹幕,发弹幕者的名字礼物等等,这需要客户端向弹幕服务器发送登录请求,心跳信息的发送等等)今天只获取弹幕信息储存到txt文件中,上代码,上图片
#!/usr/bin/env python3
# _*_ coding: utf-8 _*_
# auther hou
import time
import random
from selenium import webdriver
chrome_options = webdriver.ChromeOptions()# 使用headless无界面浏览器模式
chrome_options.add_argument('--headless')# 设置配置文件不加载图片增加爬虫效率
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)class DoYu_DanMu():def __init__(self) -> None:self.url = 'https://www.douyu.com/' # 初始化斗鱼路径为下面拼接urldef GetIdUrl(self,Id):Id_Href = self.url+str(Id)browser.get(Id_Href) # 浏览器请求到直播房间中while True:time.sleep(random.random()*3)try:ls = browser.find_elements_by_xpath('.//div[@class=" danmu-6e95c1"]/div/div')for danmu in ls :if len(danmu.text) > 0:try:print(danmu.text)except:passself.save(danmu.text)else:continueexcept:pass# except:# time.sleep(random.random()*6)# ls = browser.find_elements_by_xpath('.//div[@class=" danmu-6e95c1"]/div/div')## for danmu in ls:# if len(danmu.text) > 0:# try:# print(danmu.text)# except:# pass# self.save(danmu.text)# else:# continuedef save(self,danmus):with open('hcf.txt','a+',encoding='utf-8')as f:f.write(danmus+'\n')if __name__ == '__main__':num = input('请输入要爬取弹幕的房间号') # 22619DoYu = DoYu_DanMu()DoYu.GetIdUrl(num)
python 斗鱼弹幕的爬取一(selenium)相关推荐
- python斗鱼抽奖_python3爬取斗鱼某些版块的主播人气
python 3爬取斗鱼某些版块的主播人气 1.爬虫版块 import Test3 import urllib.request from bs4 import BeautifulSoup import ...
- python熊猫弹幕_Python爬取pandaTV弹幕
主要思路 对PandaTV直播间抓包分析得出的结论有: (1)通过GET请求获取弹幕服务器地址: (2)和弹幕服务器建立WebSocket连接后的具体过程需要在主页面引用的JS文件中找(建立连接.发心 ...
- 利用python的scrapy框架爬取google搜索结果页面内容
scrapy google search 实验目的 爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...
- 强智科技教务系统学科成绩c语言,湖南强智科技教务系统python模拟登录并爬取成绩(财院)...
其实之前有写过一篇帖子了 在之前使用教务系统的过程中,偶然一次发现登上教务系统后再退出来的后的登录网址竟然不需要验证码,想着之前有写过教务系统的爬虫模拟登录,没验证码的岂不是更好干(之前那次折腾了好久 ...
- 2021春项目需求记录 python实现模拟登录+爬取NASA Modis 上的产品数据
python实现模拟登录+爬取Nasa Modis 上的产品数据 概述 需求分析 基本思路 代码 概述 3月的中旬时候参与了学校的一个大创项目,作为本科生,本人只是摸鱼打杂,负责了其中的一个功能模块: ...
- Python爬虫学习之爬取淘宝搜索图片
Python爬虫学习之爬取淘宝搜索图片 准备工作 因为淘宝的反爬机制导致Scrapy不能使用,所以我这里是使用selenium来获取网页信息,并且通过lxml框架来提取信息. selenium.lxm ...
- python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...
- 每日一练:Python国内疫情数据爬取与地图绘制
Python 国内疫情数据爬取与地图绘制 效果图 累计确诊疫情地图绘制 ① 时时数据抓取 ② 获取省份疫情数据 ③ 视觉配置项分段颜色数据设置 ④ 累计确诊疫情地图绘制 现存确诊疫情地图绘制 ① 获取 ...
- 广州python平均薪资_爬取广州的python和Java薪资,为什么Python 高于Java(有代码)...
标签: 小编不知道这个是不是属于那个啥,要看的赶紧看,说不定小编的号要被封了. 用python爬取了某某某直聘网站,直聘Python和Java的招聘信息,比较了两个方向的发展前(钱)途 ,主要是本科生 ...
最新文章
- 如何设计一个牛逼的本地缓存
- linux rpm命令 查询包安装与否、包详细信息、包安装位置、文件属于哪个包、包依赖
- OpenCV-图像几何变换:旋转,缩放,斜切 .
- java-IO-基本输出输入流
- 黑马程序员_集合学习1
- c++11-auto,nullptr
- OpenDiscussion_DataDrivenDesign
- pytorch 安卓_兼容PyTorch、TF,史上最灵活Python机器学习框架发布 | 一周AI最火论文...
- 机器学习算法总结之Boosting:AdaBoost
- notification 是同步的
- SLAM_相机与imu的融合基础知识
- mac苹果系统的电脑ip地址命令
- 《数学之美》 读书笔记
- 1. Java基础语法
- linux-文件系统
- CRM 建设方案(01):CRM基础
- 英语发音规则---E字母(总结)-[复习中]
- 王姨劝我学HarmonyOS鸿蒙2.0系列教程之五布局方法点击响应!
- FileZilla使用密钥文件连接linux服务器上传文件
- 文科生学什麼计算机知识,我们学习计算机知识究竟是在学什么?