爬虫-某直播平台图片批量爬取url并下载

后续技术类文档更新到微信公众号-------->>喜欢的扫码关注

import json
import time
import requests
from selenium import webdriverclass HuYa(object):def __init__(self):self.start_url = "https://www.hxyx.com/l"#某直播平台的url地址"x"为缺省值：地址自己定义self.driver = webdriver.Chrome()self.part_url = "https:"self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}def run(self):# 1. 准备start_url# 2. 发送请求 获取响应self.driver.get(self.start_url)# 3. 提取数据content_list, next_list = self.get_content_url()# 4. 保存数据self.save_coutent(content_list)# 5. 请求下一页的数据while next_list is not None:next_list.click()time.sleep(3)#  提取数据content_list, next_list = self.get_content_url()#  保存数据self.save_coutent(content_list)def get_content_url(self):li_list = self.driver.find_elements_by_xpath("//ul[@id='js-live-list']/li")content_list = []for li in li_list:images = li.find_element_by_xpath(".//a/img[@class='pic']").get_attribute("data-original").split("?")[0]if  not images.startswith("https:"):images = self.part_url + imagesprint(images)content_list.append(images)next_url = self.driver.find_elements_by_xpath("//a[@class='laypage_next']")next_url = next_url[0] if len(next_url)>0 else Nonereturn content_list, next_urldef save_coutent(self,conutent_list,):#enumerate 函数用在for中作用是以序列递增for i,img_url in enumerate(conutent_list):response = requests.get(img_url, headers = self.headers)with open("./image/" "huya"+ str(i) + ".png","wb") as f:f.write(response.content)if __name__ == '__main__':huya = HuYa()huya.run()

爬虫-某直播平台图片批量爬取url并下载相关推荐

python常用小技巧（一）——百度图片批量爬取
python常用小技巧(一)--百度图片无限制批量爬取前言:我们在日常使用(搜壁纸,搜美女--)或者科研项目(图像识别)中经常要批量获取某种类型的图片,然而很多时候我们都需要一个个点击下载,有什么办 ...
python爬虫，g-mark网站图片数据爬取及补坑
应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...
升级完善第一个爬虫GCZW3，使能够批量爬取多篇文章热评
前天写了观察者网的爬虫,只能根据某个网页链接爬取,不能一次性大量爬取多篇文章的热门评论. 于是,今天想把它升级一下,让它可以从首页获取首页展示的所有文章的链接,并分别进行爬取. 于是写了mainPag ...
python爬虫网页中的图片_Python爬取网页中的图片（搜狗图片）详解
前言最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...
python爬斗鱼直播数据图片_Python爬取2000万直播数据——看20万游戏主播能否月入100万...
原标题:Python爬取2000万直播数据--看20万游戏主播能否月入100万她那时候还太年轻,不知道命运赠送的礼物,早已暗中标好了价格. --茨威格社会在发展,时代在进步.伴随着未曾停息的拥护声 ...
python爬取地图上的经纬度_使用高德开放平台api批量爬取所需经纬度及位置信息(平台教程和python多进程、多线程代码详解)...
2019.3.20更新(将代码升级为非阻塞式多进程,效率极大提升) 2019.6.28更新 (将代码模块化,复用性更强,使用更高效的线程池进行爬取) 之前写爬虫对链家某地区全部二手房信息进行了获取并存 ...
python easyicon同类型ico图片批量爬取
这是第二篇有关图片爬取的博客.似乎本人对图片情有独钟.这篇博客主要是还是用于记录我的学习记录.同时,我们在编写界面的时候,经常需要从网上下载一些ico图标用于自定义控件,也许不同的程序员有自己的下载方 ...
为什么要学爬虫---王者荣耀皮肤图片的爬取
一. 爬虫是什么? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 简单的说:就是用事先写好的程序去抓取网络上所需的数据.编写网络爬虫的程序员叫做爬虫工程师. . 二. 爬虫的四个 ...
Python爬虫实战使用线程池批量爬取必应1080P高清壁纸
本文纯粹为了技术学习,内容如有侵权,请告知! 目标URL:https://bing.ioliu.cn 爬取的图片 Python用到的主要模块 import requests from lxml imp ...

爬虫-某直播平台图片批量爬取url并下载

后续技术类文档更新到微信公众号-------->>喜欢的扫码关注

爬虫-某直播平台图片批量爬取url并下载相关推荐

最新文章

热门文章