python动态爬取知乎_Python新手爬虫：爬取搜狗图片（动态）

先上最后成功的源码：

import requests

import urllib

import json

from fake_useragent import UserAgent

def getSougouImag(category,length,path):

n = length

cate = category

imgs_url = [] #定义空列表，用于保存图片url

m = 0 #用于显示图片数量

url = 'https://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category='+cate+'&tag=%E5%85%A8%E9%83%A8&start=0&len='+str(n)

headers = {'user-agent':UserAgent().random} #设置UA

f = requests.get(url,headers=headers) #发送Get请求

print(f.status_code)

js = json.loads(f.text)

js = js['all_items']

for j in js:

imgs_url.append(j['thumbUrl'])

for img_url in imgs_url:

print('***** '+str(m)+'.jpg *****'+' Downloading...')

urllib.request.urlretrieve(img_url,path+str(m)+'.jpg') #下载指定url到本地

m += 1

print('Download complete!')

getSougouImag('壁纸',500,r'D:\souGouImg/')

效果图：

下面开始介绍作为一个新手的爬虫步骤...

1、首先打开网页查看HTML源码

先按F12打开调试界面—>右击图片—>点击检查

会出现如下图红框中的信息，不难看出，此图片的url就是img标签中src属性的值。

如此简单？那直接获取src属性的值，再进行下载不就完全ok了？

话不多说，开干。

from bs4 import BeautifulSoup

import requests

from fake_useragent import UserAgent #ua库

url = 'https://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD&from=home#%E5%85%A8%E9%83%A8%269'

headers = {'user-agent':UserAgent().random} #设置UA

f = requests.get(url,headers=headers) #发送Get请求

print(f.status_code) #打印状态码

soup = BeautifulSoup(f.text,'lxml') #用lxml解析器解析该网页的内容

print(soup.select('img')) #筛选出所有img的标签，并打印其属性和内容

代码执行结果如下：

发现打印出的html并不是与网页中的一致，所有考虑，这根本不是图片的源url，于是推测图片是动态的，继续查找... 也是百度到了某个大佬的文章，才挖掘出以下搜寻方法。

2、点击NetWork—>点击XHR—>然后往下滚轮，使它加载出新的图片—>点击新加载出来的图片—>再点击右侧的Preview

发现Preview下的内容为json格式的

发现all_items，点击它发现有0.....众多数字，再点开发现有许多url，粘贴到浏览器中查看，发现这些都是图片的url(心中狂喜)

找到图片的真实URL，问题也就变得简单了。详情还是请看代码注释吧~

python动态爬取知乎_Python新手爬虫：爬取搜狗图片（动态）相关推荐

python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...
一.出发点在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...
使用Python+xpath爬取知网所有中英文期刊的封面背景图片
使用Python+xpath+beautifulsoup爬取知网所有中英文期刊的封面背景图片` import json import requests from bs4 import Beautifu ...
【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表
[Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...
python 数据分析书籍推荐知乎_Python 爬取知乎 9674 个问答，揭秘最受欢迎的 98 本书！...
原标题:Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书! 作者 | Yura 责编 | 胡巍巍高尔基这话有没有道理我不知道, 咱也不敢问, 主要是现在也问不了. 那对我来说,读 ...
python网络爬虫_Python网络爬虫——爬取视频网站源视频！
原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...
python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
python网络爬虫网易云音乐下载_python网络爬虫爬取网易云音乐
#爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...
python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
python爬取率_Python实现爬虫爬取NBA数据功能示例
本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据 ...

python动态爬取知乎_Python新手爬虫：爬取搜狗图片（动态）

python动态爬取知乎_Python新手爬虫：爬取搜狗图片（动态）相关推荐

最新文章

热门文章