1.环境配置
需要安装anaconda,谷歌浏览器和chromedriver,chromedriver和谷歌浏览器的版本必须相匹配
在anaconda上安装selenium,基于selenium控制webdriver,chromedriver和谷歌浏览器的版本必须相匹配


python和chromedriver最好都放在一块,再添加一下环境变量
2.导入相关模块

import pandas as pd
import numpy as np
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import time
from sqlalchemy import create_engine
import pymysql

主要用到的模块有selenium、pandas和time
3.启动chromedriver,用程序控制浏览器

browser = webdriver.Chrome()
login_page_url = 'https://mp.douyu.com/profit/liveprofit'
browser.get(login_page_url)

4.登录斗鱼主播后台,这里直接登录会需要账号密码,也可以扫码登录
在主播中心——我的收益可以看到礼物记录

5.右键检查从前端代码中找到相关信息

7.col1-col6就是我们需要的,属于class分类,可以用find_elements_by_class_name进行爬取

8.找到下一页的按钮,shark-pager-next,属性是class,找到之后.click()进行点击
browser.find_elements_by_class_name(‘shark-pager-next’)[-1].click()可以帮我们实现点击

9.设置点击间隔,time.sleep(2),睡眠两秒后点击下一页,避免点击太快出现错误提示
10.整合所有代码

number=[]
type_gift=[]
time_gift=[]
giver=[]
gift=[]
room_id=[]
for j in range(500):a1=[i.text for i in browser.find_elements_by_class_name('col1')]a1=a1[-12:]a2=[i.text for i in browser.find_elements_by_class_name('col2')]a2=a2[-12:]  a3=[i.text for i in browser.find_elements_by_class_name('col3')]a3=a3[-12:]    a4=[i.text for i in browser.find_elements_by_class_name('col4')]a4=a4[-12:]    a5=[i.text for i in browser.find_elements_by_class_name('col5')]a5=a5[-12:]    a6=[i.text for i in browser.find_elements_by_class_name('col6')]a6=a6[-12:]  number=number+a1type_gift=type_gift+a2time_gift=time_gift+a3giver=giver+a4gift=gift+a5room_id=room_id+a6a1=[]a2=[]a3=[]a4=[]a5=[]a6=[]print(j)browser.find_elements_by_class_name('shark-pager-next')[-1].click()time.sleep(2)

11.将所有列表转换成dataframe,并导出成excel

df=pd.DataFrame()
df['编号']=number
df['收益类型']=type_gift
df['交易时间']=time_gift
df['赠送者']=giver
df['赠送内容']=gift
df['收礼房间ID']=room_id
df.to_excel('xxx.xlsx')

斗鱼主播后台礼物数据爬取相关推荐

  1. 大众点评 数据爬取 (字体反爬)

    大众点评 数据爬取 (字体反爬) 项目描述 在码市的平台上看到的一个项目:现在已经能爬取到需要的数据,但是在爬取的效率和反爬措施上还需要加强. 项目分析 1.打开大众点评的首页'http://www. ...

  2. python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取(十六)

    Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...

  3. python如何爬虫股票数据_简单爬虫:东方财富网股票数据爬取(python_017)

    需求:将东方财富网行情中心的股票数据爬取下来,包括上证指数.深圳指数.上证A股.深圳A股.新股.中小板.创业板 等 一.目标站点分析 东方财富网的行情中心页面包含了所有股票信息.在左侧的菜单栏中包含了 ...

  4. 结合Selenium 和 Requests完成动态数据爬取

    Selenium 简介 Selenium是一个用于Web应用程序测试的工具.Selenium测试直接调用操作浏览器,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),M ...

  5. php爬虫:知乎用户数据爬取和分析

    php爬虫:知乎用户数据爬取和分析 2016-04-10    PHP开发者     (点击上方公众号,可快速关注) 作者:崔小拽        原文链接:http://cuihuan.net/art ...

  6. python抓取数据时失败_爬取数据缺失的补坑,Python数据爬取的坑坑洼洼如何铲平...

    渣渣业余选手讲解,关于爬取数据缺失的补坑,一点点关于Python数据爬取的坑坑洼洼如何铲平,个人的一些心得体会,还有结合实例的数据缺失的补全,几点参考,仅供观赏,如有雷同,那肯定是我抄袭的! 在使用P ...

  7. python数据可视化字段_python数据爬取及数据可视化分析

    电影网站数据分析及可视化研究 本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教. 数 ...

  8. 猫眼网历史日票房数据爬取

    文章目录 前言 一.分析猫眼网榜单网页和票房明细网页 二.使用步骤 1.引入库 2.获取并分析源码函数 3.主函数部分 若需要额外的榜单外的电影,可以直接去猫眼查询电影名称, 然后查看网页源码,使用c ...

  9. Python之数据爬取数据可视化

    前言 临近中秋,月饼的销量持续增长,然而不仅仅是中秋节,非旺季也有很多月饼爱好者在电商平台购买月饼.本文利用淘宝上的公开数据,应用 python 对月饼非旺季的销售状况进行分析,并对统计结果进行数据可 ...

  10. 疫情数据爬取,可视化及其预测

    疫情数据爬取及可视化 数据爬取及保存(provinceDataGet.py) import requests import json import pandas as pd# 地区 areas = [ ...

最新文章

  1. tensorboard merge报错_什么是TensorBoard?
  2. 趋势畅想-搭载android系统的智能数码相机
  3. shell中判断控制语句 if case
  4. e300氛围灯哪里调节_奥迪Q5L安装原厂32色20灯源氛围灯
  5. SpringBoot_配置-自动配置原理
  6. 扎心!程序员泪奔的8个瞬间
  7. 网上订餐python_来自美国网上订餐网站的创新
  8. 放弃月薪过万的城市工作,返乡创业做农业,面对未知风险,你敢尝试吗?
  9. B+/-Tree原理
  10. lock.ReadWriteLock使用方法
  11. mockito 外部接口_mockito – Spring批处理作业的端到端测试用例
  12. python实现手机app自动化签到
  13. Python+经济学:柯布道格拉斯生产函数相关
  14. 涂书笔记-让读书笔记不再困难
  15. 职校高一计算机课高一,职高高一数学课件
  16. Java中的函数式编程(二)函数式接口Functional Interface
  17. OpenCV——角点检测原理分析(Harris,Shi-Tomasi、亚像素级角点检测)
  18. Spring-Mybatis 整合的两种方式
  19. 刷题_25:星际密码 and 数根
  20. 在springboot中使用PageHelper(mybatis的分页插件) 以及自定义分页

热门文章

  1. 成品app直播源码,实现图形验证码
  2. 挂机宝是服务器还是虚拟主机,挂机宝属于虚拟主机吗
  3. 玉柴spn码故障对照表_故障代码一览表
  4. CentOS7下EasyDarwin的安装搭建
  5. 下载JDK8 JVM源码
  6. 饿了么UI 时间控件 el-date-picker时间范围限制
  7. 使用adblock plus浏览器插件屏蔽广告
  8. pic系列单片机c语言编程与应用实例,PIC单片机C语言编程实例
  9. 领域的初学者--推荐的一本书
  10. 常用的18个免费论文文献网站,分享给大家