好久没有写爬虫了,之前只是止步于爬取静态网页,于是准备找个简单的动态网页进行爬取,在学长的建议下,进军花瓣网。


首先在爬取图片之前肯定要对网页源码进行分析

这里可以使用chrome的F12开发人员工具,很简单就找到了图片的url,这不就直接可以开始爬取了么2333

但是事实并不是这样,我使用requests.get获取网页源码后,发现和我看到的网页源码跟不就不是一个东西
之后根据网上资料查询,发现获取的其实是json格式的一大串数据。这时候开启开发人员工具,然后选择network,选择XHR,你开始往下拖动,会发现每次网页加载就会出现新的XHR文件

上面画红线的都是有图片内容的一次加载图片的XHR文件,点击第一个,再选择preview,打开pins

这里面就是一次加载的20张照片的json格式信息,点开第0个,观察里面信息

其实这里需要的只是每一张图片的pin_id和key

pin_id是用来让脚本持续获得新的图片,读者可自行观察下每次刷新出的包含20张图片的那个XHR文件网站是由
http://huaban.com/explore/miantiao/(最基础网站) + ?jb67d549(这个不清楚,但是不影响,因为并没有值)&max=891511322(每20组图片第一张pin_id)&limit=20&wfl=1(后面这两个是固定的)

这里可以知道,第一组照片最后一个pin_id就是下一组网站url组成中的max

key是用来下载图片时使用,可以在网页源码中找到,图片的url格式是
http://img.hb.aicdn.com/ + d094c0bbdfa62c4d45dac35f4f8c99d9eaa3649cd2da-AAz022_(这就是key,当然这个不是第一张图片的key)+ fw236
可以直接使用urllib.request.urlretrieve直接下载图片

附上源码
这个爬虫针对于花瓣网很多网页都可以直接进行图片下载,只需要更换下最前面的url


文章里可能有些地方说的不够专业,我是以我自己对这些的理解写下的,如果有问题谢谢大家提醒我。

最后附上美食:

Python 花瓣网动态爬虫相关推荐

  1. python花瓣飘零_Python爬虫练习之花瓣网

    花瓣网是个瀑布式布局,而且下拉的时候发现要登录帐号.本来以为要用requests.post模拟登录,能够顺手练习一下的,结果不登陆帐号也照样可以爬取.一开始是打算用selenium的,后来运行的过程中 ...

  2. python官网学习爬虫资料_Python爬虫学习?

    1 爬虫是互联网上最常见的一种东西了吧. 爬虫这东西每天都在网上爬大量的信息,各大搜索引擎厂商每天都有上百万的爬虫在网络上活动,这些爬虫的作用就是给搜索引擎采集互联网上最新的内容,采集来的内容经过分类 ...

  3. [python]赶集网二手房爬虫插件【可用任意扩展】

    最近应一个老铁的要求,人家是搞房产的,所以就写了这个二手房的爬虫,因为初版,所以比较简单,有能力的老铁可用进行扩展. import requests import osfrom bs4 import ...

  4. python批量读取图片并批量保存_Python爬虫:批量抓取花瓣网高清美图并保存

    原标题:Python爬虫:批量抓取花瓣网高清美图并保存 昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...

  5. Python 爬虫: 抓取花瓣网图片

    接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站 想要下载图片,只要知道图片的地址 ...

  6. Python爬虫练习之花瓣网

    前两天写的花瓣网爬虫,花瓣网是个瀑布式布局,而且下拉的时候发现要登录帐号.本来以为要用requests.post模拟登录,能够顺手练习一下的,结果不登陆帐号也照样可以爬取.一开始是打算用seleniu ...

  7. 用python画简单花瓣_花瓣网花瓣爬虫

    grab_huaban_board 批量下载花瓣网画板.堆糖网专辑 解析 查看analyze.txt 使用 git clone https://github.com/staugur/grab_huab ...

  8. java的简单网络爬虫(爬取花瓣网的图片)

    因为本人对爬虫比较感兴趣,加上之前也写过一些简单的python爬虫,所以在学完java基础后写了一个简单的网络图片爬虫.废话不多说直接上过程代码.(爬取的图源来自花瓣网:https://huaban. ...

  9. 关键词爬虫,Python花瓣画板关键词采集存储数据库

    想要寻找图片的小伙伴们应该不会错过这个网站,对,没错,就是花瓣网,各种图片应有尽有,而花瓣网的推荐画板里面的词还是非常不错的,可惜被和谐了不少,想要采集花瓣画板的词,python爬虫当然是没问题的,花 ...

最新文章

  1. MySQL:一个死锁分析 (未分析出来的死锁)
  2. 数据挖掘终篇!一文学习模型融合!从加权融合到stacking, boosting
  3. SSH登陆慢的原因分析及解决
  4. pytorch数据预处理
  5. a访问过后hover样式就不出现了 被点击访问过的超链接样式不再具有hover和active 解决方法...
  6. Mysql查询高速缓存区
  7. 使用NDK生成native C/C++的可执行程序
  8. 前端商城vue项目案例1
  9. CMD命令实现数字雨
  10. python 将毫秒转换成日期_Python将毫秒转换为datetime并返回
  11. 华为数通模拟器ensp问题解决方法
  12. Udacity Sparkify项目
  13. 疫情可视化part3
  14. Video Harmonization一些周边代码
  15. SRAM/SDRAM/DDR/Cache
  16. 《python语言程序设计》第1章第7题def功能求pi π 设计思路先分
  17. 原典法的学习训练程序详细介绍
  18. mysql报警代码183_mysql误删操作回复
  19. VMware Workstation 14虚拟机安装Win7系统图文教程(详细)
  20. Newifi Mini安装PandoraBox

热门文章

  1. 洛谷P4053 建筑抢修
  2. truetype字体怎么转换成普通字体_社交资料不再普通 Instagram Fonts在线生成可复制字体...
  3. 网页服务器隐藏真实目录,Asp隐藏真实路径实现防盗链_方案总结篇 - YangJunwei
  4. 网站设计常用技巧收集整理
  5. 网页设计与开发(1)
  6. 如何解决word文档报错打不开呢?
  7. 车载FMCW雷达的距离-多普勒检测基本原理
  8. WWW网上下载管理器
  9. 1.4 Qt工具之Qt Linguist介绍
  10. 手术分级标准目录2020_2020年3月份即将实施国家标准目录(四)