案例介绍

下图红色圈出的图片就是我们想要爬取的。全部艺人活跃粉丝榜每天更新一次，然后还有周榜和月榜，本例中，我们只需要日榜。

把图片点开之后，就会显示高清图片了，这里我们最好爬取高清的。

step1：导入必要的包，模拟浏览器打开新浪微博首页

from selenium import webdriver
import time
import requests
url = 'https://weibo.com/'
driver = webdriver.Chrome("C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
driver.get(url)

step2：登录微博账号，进入艾漫数据的微博主页，搜索“全部艺人活跃粉丝榜”

step3：获取目标图片的url

pic_urls = []
for page in range(10): #抓取10个页面的信息for xiala in range(3): #执行3次页面下拉（为什么要执行页面下拉？因为页面经过下拉之后会显示更多的信息）driver.execute_script('window.scrollTo(0,document.body.scrollHeight)') time.sleep(2) #每次下拉之后暂停两秒（即给模拟的浏览器2秒的缓冲时间（加载出下拉页面））whole_mes = driver.find_elements_by_xpath('//div[@class = "WB_detail"]') #一个页面的所有微博for i in range(len(whole_mes)):if '全部艺人活跃粉丝榜' in whole_mes[i].text: #选出符合条件的微博url = whole_mes[i].find_element_by_xpath('.//img').get_attribute('src')url = url.replace('orj360','mw690') #经观察发现，url含orj360的图片较为模糊，换成mw690之后就是高清图了if len(url)==65: #经观察发现，根据‘全部艺人活跃粉丝榜’这个条件筛选出来的微博中，有几条是我们不需要的（这几条是周榜和月榜的，而我们需要的是日榜），这几条的url都大于65，所以我们可以根据这一情况，把这几条微博过滤掉pic_urls.append(url)driver.find_element_by_xpath('//a[@class="page next S_txt1 S_line1"]').click() #执行 点击"下一页" 的操作time.sleep(2) #给模拟浏览器2秒的加载时间if page%4==0:time.sleep(15)  #暂停15秒，因为爬虫的速度一般都比较快，所以操作会比较频繁。#如果不暂停一下，很容易被新浪察觉出是爬虫在模拟人而不是人的实际操作。

可以看到，如果不把图片点开（即非高清图时），图片链接为右边红色圈起来的这块：

如果把图片点开（即高清图），图片的链接就是下图右边红色圈起来这块：

对比上面两个链接，可以发现，高清图片就是把非高清链接中的orj360换成了mw690.

step4：获取目标图片，并存入本地

headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Mobile Safari/537.36'}
for i in range(len(pic_urls)):response = requests.get(pic_urls[i],headers=headers)with open('./pic/{}.jpg'.format(i),'wb') as f: #将每张图片以jpg格式存入pic文件夹中f.write(response.content)

selenium、requests爬取新浪微博高清图片相关推荐

python利用bs4爬取外国高清图片网站
python利用bs4爬取外国高清图片网站爬取高清图片爬取高清图片 import re import requests from bs4 import BeautifulSoup import o ...
python按关键字爬取必应高清图片
通过查询前人的博客,发现必应可通过url按关键字查找图片: https://www.bing.com/images/async?q=查询关键字&first=图片编号&count=图片数 ...
简易爬虫教程爬取4K高清图片
1.1 网址 # 谷歌浏览器http://www.netbian.com/weimei/ 1.2 查看网页源代码 # 1 直接获取会遇到防火墙,添加verify=False去掉安全认证# 2 resp ...
【Python网络爬虫实战篇】使用selenium+requests爬取下载高清源视频：关于爬取m3u8文件链接解析为ts视频合并成mp4视频的分析实战
这两天博主在摸鱼时,偶然间接触到了流媒体的概念,一时间来了兴致.再加上之前博主有着七.八年的视频制作经验,深知视频素材获取的不易.因此,打算利用自己所学的python网络爬虫的知识,通过编写代码实现获 ...
python爬虫爬取海量高清图片，小白都能学习的简单操作
正文目标网站divinl 首先看看这网站是怎样加载数据的; 打开网站后发现底部有下一页的按钮,ok,爬这个网站就很简单了; 日文的我们目标是获取每张图片的高清的源地址,并且下载图片到桌面; 先随便 ...
Python爬虫入门-python之爬取pexels高清图片
先上张图片: 首先打开网址:https://www.pexels.com/,然后下来会发现下面的图片是慢慢的加载出来的,也就是通过Ajax请求得到的.在搜索框中输入关键字:beauty,打开F12,刷 ...
爬虫爬取大量高清壁纸图片
爬虫爬取大量高清壁纸思路: 首先从网页入手,观察网页整体结构,因为本段代码使用的是Xpath解析(想了解Xpath解析可以看上一篇) import requests from lxml import ...
Python爬虫从入门到精通:（9）数据解析_xpath解析2_爬取4K高清动漫图片_Python涛哥
使用xpath爬取4K高清动漫图片名称和图片数据爬取当前页: # 创建文件夹存储图片 dirName = 'GirlsLib' if not os.path.exists(dirName):os. ...
全网最细------爬取4k高清大图
本次案例将教大家免费爬取4k高清大图,即使你是爬虫新手,也可以食用本次文章实现你的免费下载梦,话不多说,先看效果网站视图: 看到这些图片你是否怦然心动,跟着我一起看下去. 一.思路分析首先最基本的 ...

selenium、requests爬取新浪微博高清图片

文章目录