Pythom爬虫之图虫小姐姐图片的爬取:

导入库:

import jsonpath
import time
import os

如果没有安装的话,可以通过:

pip install 库 # 安装

我们找到我们要爬取的网址:

进行如图

我们登录后面,我们定位到图片,通过再network里面找到,因为这个是Json数据,我们在json文件里面找,找到后面,我们找header里面找到

url=“https://tuchong.com/rest/tags/%E7%BE%8E%E5%A5%B3/posts”

我们在浏览器打开这个url,可以看到如图:

里面有我们要找得数据,下面我们就可以用jsonpath对这个网址进行数据得提取

因为里面是json数据,所以我们可以对通过jsonpath对我们想要得数据进行一个表单提交,获取json

创建提交表单:

  parames = {'page': page, 'count': 20, 'order': 'weekly', 'before_timestamp': ''}response = requests.get(url, params=parames).json()print(response)#测试是否获取json数据了

对json数据里面得图片进行jsonpath定位:

img_urls=jsonpath.jsonpath(response,'$..cover_image_src')print(img_urls)

依次提取图片:

    for img_url in img_urls:img_content=requests.get(img_url).content

数据得存储:

 with open(r'./{}/{}.jpg'.format('图虫',index),'wb') as f:f.write(img_content)print(r'***正在下载: {}.jpg'.format(index))

实现不止对第一页数据得提取:

num = 10
index = 0for page in range(1, num + 1):

下面是完整的代码:

import requests
import jsonpath
import time
import osurl = 'https://tuchong.com/rest/tags/%E7%BE%8E%E5%A5%B3/posts'num = 10
index = 0for page in range(1, num + 1):time.sleep(5)parames = {'page': page, 'count': 20, 'order': 'weekly', 'before_timestamp': ''}response = requests.get(url, params=parames).json()# print(response)img_urls=jsonpath.jsonpath(response,'$..cover_image_src')print(img_urls)for img_url in img_urls:img_content=requests.get(img_url).contentindex+=1if not os.path.exists(r'./{}'.format('图虫')):os.mkdir(r'./{}'.format('图虫'))with open(r'./{}/{}.jpg'.format('图虫',index),'wb') as f:f.write(img_content)print(r'***正在下载: {}.jpg'.format(index))

效果图:

Pythom爬虫之图虫小姐姐图片的爬取:相关推荐

  1. python爬虫你们最爱的YY小姐姐,这不爬取下来看看?

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 ( 想要学习Python?Python学习交流群:1039649593,满足你的需 ...

  2. 【Python爬虫系列教程 22-100】小姐姐教大家爬取喜马拉雅全站音频数据,探秘喜马拉雅的天籁之音

    文章目录 一.前言 二.寻找音频的URL 三.请求参数的处理 四.重新分析目标网站 五.实现代码 六.爬取结果 一.前言 喜马拉雅FM是一个知名的音频分享平台,在移动音频行业的市场占有率已达73%,用 ...

  3. 十一、练习:爬取图虫网付费图片

    十.练习:爬取图虫网免费图片 今天爬下图虫网付费的图片,比之前的免费图片简单. 这里的付费图片都是一个专辑的 这个我在一个公开课听的,说这个是:https://tuchong.com/rest/tag ...

  4. [ Python ] 爬虫类库学习之 xpath,爬取彼岸图网的 小姐姐 图片

    安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...

  5. python爬虫 爬取清纯小姐姐图片

    文章目录 1 思路介绍 2 完整代码 2 代码介绍 2.1 获取网站 2.3 创建目录 2.4 找到首图的名称和地址 2.5 实现同一个人的翻页 2.6 实现每一位小姐姐图片的连接 2.7 爬取图片 ...

  6. python爬虫 爬取小姐姐图片

    前言 大致熟悉了python的基础语法以后,开始学习爬虫基础. 一.爬取前的准备工作 python3.7环境(只要是python3版本都可以): 依赖包 : time requests re (缺少包 ...

  7. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  8. 数据获取网络爬虫之--爬取小姐姐图片

    运行环境: python3+jupyter notebook 可直接运行 代码下载地址: https://download.csdn.net/download/weixin_44754046/1122 ...

  9. python多线程下载小姐姐图片

    python多线程下载小姐姐图片 闲谈 思路 实现过程 单线程实现代码功能 问题描述 多线程处理办法 完成效果 闲谈 今日闲来无事,翻看博客,看到一篇关于python自动下载图片的文章,就萌生了也写一 ...

最新文章

  1. js网页如何获取手机屏幕宽度
  2. c#连接远程sqlserver2008_C#用代码控制网络断开与重连
  3. windows 常用系统变量
  4. 通过EmbeddedServletContainerCustomizer接口调优Tomcat
  5. 宁浩网sql注入工具_国产SQL注入漏洞测试工具 - 超级SQL注入工具(SSQLInjection)...
  6. ps的魔棒工具抠图方法
  7. java写入到excel表格乱码怎么办,数据库导出excel表格是乱码-java导出excel表格乱码!...
  8. mysql 临时表权限_MySQL临时表浅析
  9. 5G千兆无线路由器,国产工业级稳定通信
  10. VM无法获取 vmci 驱动程序版本句柄无效解决办法
  11. 小白的理财之道:赚钱人生第一桶金
  12. R.Koo 改良后的分页类(主要是显示属性)
  13. 网上资源之WEB前端
  14. 玩机搞机----mtk芯片机型 另类制作备份线刷包的方式 读写分区等等
  15. es6转es5 的6种方式
  16. MOSS SDK学习(3)
  17. 计算机大二学什么,本科计算机科学与技术大二下学期学什么,女的适合什么专业好...
  18. 为什么要做计划管理?因为稳住Flag就能赢
  19. OpenStack版本 - 发布时间 - 及其组件
  20. Sports-1M数据集

热门文章

  1. perl 一行命令 2021-09-02
  2. win7在扩展屏/副屏显示任务栏
  3. 互联网摸鱼日报(2022-10-08)
  4. 计算机网络——排查网络故障
  5. win7已经阻止此发行者在您的计算机上运行软件,Win7系统提示Windows已经阻止此软件因为无法验证发行者解决方法...
  6. 在PPT中怎么对图片进行排版?使用SmartArt一键教你搞定!
  7. 网络测速全解析之一:自定义View基础知识(八)
  8. 【考研英语-基础-简单句】简单句的核心变化_谓语动词时态(常用8种+4)
  9. SM2算法加解密中的C1,C2,C3
  10. 用什么命令确定linux系统,在Linux系统中有哪些命令可以用于查看进程?