后续技术类文档更新到微信公众号-------->>喜欢的扫码关注


import json
import time
import requests
from selenium import webdriverclass HuYa(object):def __init__(self):self.start_url = "https://www.hxyx.com/l"#某直播平台的url地址"x"为缺省值:地址自己定义self.driver = webdriver.Chrome()self.part_url = "https:"self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}def run(self):# 1. 准备start_url# 2. 发送请求 获取响应self.driver.get(self.start_url)# 3. 提取数据content_list, next_list = self.get_content_url()# 4. 保存数据self.save_coutent(content_list)# 5. 请求下一页的数据while next_list is not None:next_list.click()time.sleep(3)#  提取数据content_list, next_list = self.get_content_url()#  保存数据self.save_coutent(content_list)def get_content_url(self):li_list = self.driver.find_elements_by_xpath("//ul[@id='js-live-list']/li")content_list = []for li in li_list:images = li.find_element_by_xpath(".//a/img[@class='pic']").get_attribute("data-original").split("?")[0]if  not images.startswith("https:"):images = self.part_url + imagesprint(images)content_list.append(images)next_url = self.driver.find_elements_by_xpath("//a[@class='laypage_next']")next_url = next_url[0] if len(next_url)>0 else Nonereturn content_list, next_urldef save_coutent(self,conutent_list,):#enumerate 函数用在for中作用是以序列递增for i,img_url in enumerate(conutent_list):response = requests.get(img_url, headers = self.headers)with open("./image/" "huya"+ str(i) + ".png","wb") as f:f.write(response.content)if __name__ == '__main__':huya = HuYa()huya.run()

爬虫-某直播平台图片批量爬取url并下载相关推荐

  1. python常用小技巧(一)——百度图片批量爬取

    python常用小技巧(一)--百度图片无限制批量爬取 前言:我们在日常使用(搜壁纸,搜美女--)或者科研项目(图像识别)中经常要批量获取某种类型的图片,然而很多时候我们都需要一个个点击下载,有什么办 ...

  2. python爬虫,g-mark网站图片数据爬取及补坑

    应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...

  3. 升级完善第一个爬虫GCZW3,使能够批量爬取多篇文章热评

    前天写了观察者网的爬虫,只能根据某个网页链接爬取,不能一次性大量爬取多篇文章的热门评论. 于是,今天想把它升级一下,让它可以从首页获取首页展示的所有文章的链接,并分别进行爬取. 于是写了mainPag ...

  4. python爬虫网页中的图片_Python爬取网页中的图片(搜狗图片)详解

    前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...

  5. python爬斗鱼直播数据图片_Python爬取2000万直播数据——看20万游戏主播能否月入100万...

    原标题:Python爬取2000万直播数据--看20万游戏主播能否月入100万 她那时候还太年轻,不知道命运赠送的礼物,早已暗中标好了价格. --茨威格 社会在发展,时代在进步.伴随着未曾停息的拥护声 ...

  6. python爬取地图上的经纬度_使用高德开放平台api批量爬取所需经纬度及位置信息(平台教程和python多进程、多线程代码详解)...

    2019.3.20更新(将代码升级为非阻塞式多进程,效率极大提升) 2019.6.28更新 (将代码模块化,复用性更强,使用更高效的线程池进行爬取) 之前写爬虫对链家某地区全部二手房信息进行了获取并存 ...

  7. python easyicon同类型ico图片批量爬取

    这是第二篇有关图片爬取的博客.似乎本人对图片情有独钟.这篇博客主要是还是用于记录我的学习记录.同时,我们在编写界面的时候,经常需要从网上下载一些ico图标用于自定义控件,也许不同的程序员有自己的下载方 ...

  8. 为什么要学爬虫---王者荣耀皮肤图片的爬取

    一. 爬虫是什么? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 简单的说:就是用事先写好的程序去抓取网络上所需的数据.编写网络爬虫的程序员叫做爬虫工程师. . 二. 爬虫的四个 ...

  9. Python爬虫实战 使用线程池批量爬取必应1080P高清壁纸

    本文纯粹为了技术学习,内容如有侵权,请告知! 目标URL:https://bing.ioliu.cn 爬取的图片 Python用到的主要模块 import requests from lxml imp ...

最新文章

  1. Gitlab代码管理仓库安装部署
  2. 如何读emmc里的引导程序_自制操作系统学习1 引导程序
  3. Laravel 系列入门教程(一)【最适合中国人的 Laravel 教程】
  4. 计组-输入输出系统小结
  5. 安装archlinux
  6. 程序员应该知道的那些画图工具-第一期
  7. 一份非常完整的MySQL规范
  8. RTC实时时钟实验(低功耗、纽扣电池供电)
  9. camel 调用soap_使用Apache Camel通过soap添加WS-Security
  10. php如何获取服务器时间_php如何获取当前日期
  11. vs2008补丁发布
  12. Golang高效实践之array、slice、map实践
  13. 解决sese9 安装时多个屏幕
  14. 让信息带钩的六种武器——《让创意更有黏性》优秀读后感4300字
  15. 146条经典偏方(祖传秘方)
  16. lol1月8日服务器维护,lol测试服1月8日更新公告
  17. 基于PyQT5制作一个二维码生成器
  18. vue 使用swper组件
  19. 移动云计算的四大特点
  20. SYS.MON_MODS$、SYS.MON_MODS_ALL$和DBA_TAB_MODIFICATIONS

热门文章

  1. ICP测试无机试样的分解
  2. 《反精益创业》第二章
  3. 回填用土好还是砂石料好_卫生间回填用沙子好还是用陶粒好?38年老瓦工终于说实话了...
  4. sar点目标成像matlab,SARrawdata 根据矩阵中的高度数据,通过SAR点目标成像算法 过程,将 转换为实际从飞机 matlab 272万源代码下载- www.pudn.com...
  5. unity沙子堆积_unity游戏逼真沙子和白雪粒子特效渲染创建插件Basic Sand amp; Snow 1.0 - 素材巷...
  6. 干燥机是什么,作用是?
  7. 10 怎么写USB驱动,Cadence USB 2.0 Controller和PHY IP驱动移植
  8. ubuntu20.04常用命令(自用)
  9. 电脑软件推荐(实用工具) 一
  10. 抖音画质增强功能,怎么提高抖音拍摄画质