python动态爬取知乎_Python新手爬虫:爬取搜狗图片(动态)
先上最后成功的源码:
import requests
import urllib
import json
from fake_useragent import UserAgent
def getSougouImag(category,length,path):
n = length
cate = category
imgs_url = [] #定义空列表,用于保存图片url
m = 0 #用于显示图片数量
url = 'https://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category='+cate+'&tag=%E5%85%A8%E9%83%A8&start=0&len='+str(n)
headers = {'user-agent':UserAgent().random} #设置UA
f = requests.get(url,headers=headers) #发送Get请求
print(f.status_code)
js = json.loads(f.text)
js = js['all_items']
for j in js:
imgs_url.append(j['thumbUrl'])
for img_url in imgs_url:
print('***** '+str(m)+'.jpg *****'+' Downloading...')
urllib.request.urlretrieve(img_url,path+str(m)+'.jpg') #下载指定url到本地
m += 1
print('Download complete!')
getSougouImag('壁纸',500,r'D:\souGouImg/')
效果图:
下面开始介绍作为一个新手的爬虫步骤...
1、首先打开网页查看HTML源码
先按F12打开调试界面—>右击图片—>点击检查
会出现如下图红框中的信息,不难看出,此图片的url就是img标签中src属性的值。
如此简单?那直接获取src属性的值,再进行下载不就完全ok了?
话不多说,开干。
from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent #ua库
url = 'https://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD&from=home#%E5%85%A8%E9%83%A8%269'
headers = {'user-agent':UserAgent().random} #设置UA
f = requests.get(url,headers=headers) #发送Get请求
print(f.status_code) #打印状态码
soup = BeautifulSoup(f.text,'lxml') #用lxml解析器解析该网页的内容
print(soup.select('img')) #筛选出所有img的标签,并打印其属性和内容
代码执行结果如下:
发现打印出的html并不是与网页中的一致,所有考虑,这根本不是图片的源url,于是推测图片是动态的,继续查找... 也是百度到了某个大佬的文章,才挖掘出以下搜寻方法。
2、点击NetWork—>点击XHR—>然后往下滚轮,使它加载出新的图片—>点击新加载出来的图片—>再点击右侧的Preview
发现Preview下的内容为json格式的
发现all_items,点击它发现有0.....众多数字,再点开发现有许多url,粘贴到浏览器中查看,发现这些都是图片的url(心中狂喜)
找到图片的真实URL,问题也就变得简单了。详情还是请看代码注释吧~
python动态爬取知乎_Python新手爬虫:爬取搜狗图片(动态)相关推荐
- python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...
一.出发点 在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...
- 使用Python+xpath爬取知网所有中英文期刊的封面背景图片
使用Python+xpath+beautifulsoup爬取知网所有中英文期刊的封面背景图片` import json import requests from bs4 import Beautifu ...
- 【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表
[Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表 数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...
- python 数据分析 书籍推荐 知乎_Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书!...
原标题:Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书! 作者 | Yura 责编 | 胡巍巍 高尔基这话有没有道理我不知道, 咱也不敢问, 主要是现在也问不了. 那对我来说,读 ...
- python网络爬虫_Python网络爬虫——爬取视频网站源视频!
原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...
- python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
- python网络爬虫网易云音乐下载_python网络爬虫爬取网易云音乐
#爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...
- python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
- python爬取率_Python实现爬虫爬取NBA数据功能示例
本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据 ...
最新文章
- Java 设计模式 之 中介者模式(Mediator)
- signature=bb45d44ceab9b6563988c6c1a9b5e667,Bookbinding signature comb and spine device
- Effective Java读书笔记三:创建和销毁对象
- C++静态库与动态库
- eclipse提交Git时忽略文件
- 别瞎学了,这几门语言要被淘汰了!
- 欢迎使用CSDN-markdown编辑器1212131
- 信安教程第二版-第13章网络安全漏洞防护技术原理与应用
- 不要节省版本号,以方便交流
- ofdm信道估计 线性插值matlab,OFDM信道估计的MATLAB仿真
- 如何合并excel文件
- Https所涉及名词及相关后缀名解释
- HTML header 标签的用法
- android 邮箱 推荐,Android邮箱谁最棒?最新热门邮箱App横向测试
- 四级语法2——主谓一致+时态语态
- 五、dynamic类型
- 消费金融及物流概念介绍
- python二级考点
- matlab gui下拉列表,MATLAB制作GUI(3)-下拉列表的实现
- 逻辑思维:5对夫妇握手
热门文章
- JZOJ8.14(C组)帕秋莉·诺雷姬
- 杜家坎装甲兵工程学院计算机二级考点,从丰台区杜家坎到东城区东十四条怎么走??...
- 猫盘用服务器硬盘,猫盘硬盘数据的转移具体方法步骤
- linux命令之----fdisk命令-磁盘分区管理工具
- vue使用 vueQr,html2canvas 实现批量生成二维码并合成海报
- python编程水上行走_普通人如何水上行走,只要速度足够的快,何愁不能水上漂...
- SQL Server 2012 唯一约束(定义唯一约束、删除唯一约束)
- 观视界Grandvision EDI项目案例
- 联想计算机管理员权限设置,管理员身份运行,详细教您如何设置以管理员身份运行程序...
- linux 批量查找关键词,Linux上批量查找文件里面带的关键字(grep 关键字的用法)