TuChong_Spider

(新手爬虫项目大牛勿喷)

偶然的机会在抖音看到这个APP,发现有很多高质量的手机壁纸和图片,对于一个爬虫初学者,这就非常美滋滋了,好多欧美小姐姐啊,哎嘿嘿....

图虫网共享图库爬虫, 通过抓取Ajax获取图片ID进行图片保存

爬取网站: https://stock.tuchong.com

爬取结果

运行环境:

  • Python 3.5+
  • Windows 10
  • VSCode

如何使用

下载项目源码

https://github.com/cexll/tuchong_Spider.git

安装依赖

$ pip install -r requirements.txt

运行项目

$ python spider.py
输入想要搜索的内容: 少女
获取图片ID.....
解析imageID
存在ID,解析
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/199813*************89.jpg
下载成功----------------------
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/189***********417.jpg
下载成功----------------------
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/1**************25.png
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/2***********62820.jpg
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/************2.jpg
拼接url访问网页
...
复制代码

图片链接我就大码了,免得被打....

思路(前方高能,请流量党注意)

首先爬取一个网页,第一步,先打开这个网页(/滑稽,,,,

打开之后,先看看怎么搜索图片,下载图片的..

嗯~~,好看山山水水...(我是来干嘛的....

回到正题~

打开开发者工具(F12 或者右键 ,然后刷新

然后看一看有没有什么有用的东西....好像仔细找了找是没有发现什么有用的...怎么办呢?

好像真找不到了,怎么办?

网页往下翻一翻,,,,,

图片中间出现了个奸细....这就是我们需要的东西,,但是打开发现不对啊,怎么没有图片下载的链接??

哎,别慌,先去网页打开一个图片看看是什么结构的...

到这里我们发现了,网页url链接有个imageID=这东西,好像和之前找到个奸细内容是一样的,,,打开后发现的确是一样的

那么整体的结构就清楚了,先把刚才的奸细链接打开看看是什么

密集恐惧症都犯了,....仔细看了看,发现最开始都有imageID,那么思路就有了

通过访问奸细的链接得到每一页的imageID,在用 https://stock.tuchong.com/free/image/? + imageID就可以访问到图片了,好一气呵成

代码

完整代码见项目地址: github.com/cexll/tucho…

总结

抓取所有的网页都是类似的思路,首先先通过人的逻辑去找到数据,在通过代码去得到,不要一来就上手代码,

细心的朋友肯定发现了,我们抓的是免费图库里的图片,是的,至于为什么不抓优选图库,高端图库,1是我也是才发现他们不一样,2是别人赚钱的生意我就这样发出来了万一被抓了怎么办....

有能力的可以自己去琢磨一下,我上次看了一下imageID这次是保存在HTML里面的,有点类似今日头条的

项目地址: github.com/cexll/tucho…

教你用Python爬取图虫网相关推荐

  1. Python 爬取图虫网图片

    参考网址:https://www.cnblogs.com/baijifeilong/p/3708198.html 爬取图虫网上关于墨镜的照片 图虫网搜索墨镜之后的网址 https://stock.tu ...

  2. python爬取图虫网图片

    网站:https://stock.tuchong.com/ 打开调试工具发现如下关键代码 代码: import urllib.request import osdef url_open(url):re ...

  3. 十一、练习:爬取图虫网付费图片

    十.练习:爬取图虫网免费图片 今天爬下图虫网付费的图片,比之前的免费图片简单. 这里的付费图片都是一个专辑的 这个我在一个公开课听的,说这个是:https://tuchong.com/rest/tag ...

  4. python作品_Python爬取图虫网摄影作品

    准备 要爬的网站是图虫网 工具:python 2.7,BeautifulSoup4 注意:BeautifulSoup4为第三方类库,如果在cmd下用pip安装报错,可直接去官网下载,解压后拷贝到pyt ...

  5. python3爬虫-通过requests爬取图虫网

    import requests from fake_useragent import UserAgent from requests.exceptions import Timeout from ur ...

  6. 以某乎为实战案例,教你用Python爬取手机App数据

    1 前言 最近爬取的数据都是网页端,今天来教大家如何爬取手机端app数据(本文以ios苹果手机为例,其实安卓跟ios差不多)! 本文将以『某乎』为实战案例,手把手教你从配置到代码一步一步的爬取App数 ...

  7. 教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中。(附源码)

    教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中.(附源码) 代码展示: 保存在各自的文件夹中 美么? 让我们开始爬虫之路 开发环境 windows 10 python3. ...

  8. 教你用Python爬取表情包网站下的全部表情图片

    教你用Python爬取表情包网站下的全部表情图片 又是我啦~~~ 最近上网的时候老看到有人用Python爬取表情包,心痒痒自己也整了一个. 使用到的扩展库:BeautifulSoup, request ...

  9. 手把手教你使用Python爬取西刺代理数据,不用担心我封IP了!

    /1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...

最新文章

  1. RedisTemplate常用方法总结
  2. ubuntu时区设置
  3. 决策树-特征属性选择划分
  4. 带你少走弯路:强烈推荐的TensorFlow快速入门资料和翻译(可下载)
  5. 互联网1分钟 |1022
  6. VTK:绘图之Diagram
  7. MFC中的CAsyncSocket类实现网络通信
  8. TCP三次握手、四次挥手、socket,tcp,http三者之间的区别和原理
  9. HTMLTestRunner.py内容
  10. MySQL 索引的原理与应用:索引类型,存储结构与锁
  11. 在windows平台上编写的python程序无法在_【判断题】在Windows平台上编写的Python程序无法在Unix平台运行。...
  12. ftp服务器默认文件夹,ftp服务器设置文件目录
  13. 怎么修改asp文件上传大小限制?
  14. 软件维护类型的基础知识
  15. 为什么说暴雪必须“手游化”?
  16. python barcode字符串生成条形码_python批量生成条形码的示例
  17. C++结构型模式-适配器模式
  18. java贪吃蛇保存,Java 实现贪吃蛇游戏的示例
  19. 【基于 C++ 面向 Window API 的自制工具】批量重复单键操作器
  20. 需求分析师应具备的几项能力

热门文章

  1. Java面向对象编程思想
  2. linux下shell显示-bash-4.1#不显示路径解决方法
  3. 设置Android设备在睡眠期间始终保持WLAN开启的代码实现
  4. 苹果Think Different广告
  5. 编程之美:编程判断两个链表是否相交
  6. svn命令行 批量添加(add)所有新增文件
  7. gedit emacs
  8. Spring-security配置
  9. JavaScript引用类型之Array数组之强大的splice()方法
  10. 在Laravel外使用Eloquent(一)