前言

从零学 Python 案例,自从提交第一个妹子图版本引来了不少小伙伴的兴趣。最近,很多小伙伴发来私信说,妹子图不能爬了!?

趁着周末试了一把,果然爬不动了,爬下来的都是些 0kb 的假图片,然后就是一系列的报错信息,显然妹子图图长已经做了防御措施。

伪装

无论怎么做防御措施,总不能把正常用户也给禁了?所以,我们要尽可能的伪装成正常用户,我就是来看妹子图的。

  • 防盗链处理
  • 延时处理请求图片
  • 准备尽量多的请求头
  • 动态代理IP(花钱,暂且不考虑)

请求头,越多越好,尽量避免同一个请求头去处理图片。

meizi_headers = ["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14","Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11','Opera/9.25 (Windows NT 5.1; U; en)','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12','Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7","Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0",'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
]

延时,不要太频繁的去抓取图片,如果时间充裕,尽量设置的稍微大一些。

# 单位为秒,1-3 随机数
time.sleep(random.randint(1, 3))

防盗链处理,否则会出现403错误。

# 防盗链加入Referer
headers = {'User-Agent': random.choice(meizi_headers), 'Referer': url}
img = requests.get(url, headers=headers)

最后一个动态代理IP,如果图长把你IP封了,那以上操作都是白瞎。如果还想继续下,只能通过动态代理IP来处理了。

小结

下面是新爬取的妹子图,仅限18岁以上少年查看,未成年会自行马赛克处理。

如果您对这篇总结感兴趣请 回复

源码:https://gitee.com/52itstyle/Python/tree/master/Day01

转载于:https://www.cnblogs.com/smallSevens/p/11204948.html

「玩转Python」突破封锁继续爬取百万妹子图相关推荐

  1. Python百行代码轻松爬取了妹子网100G的套图,希望你网盘内存够用

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  2. 「玩转Python」搭建远程监控系统,小偷?不存在的!

    软硬件清单 读卡器以及 SD 卡(装系统用) 摄像头一枚,支持 USB SSH连接工具(SecureCRT,Xshell) 宽带.路由器(家中常备) 装好系统的树莓派 3B+ 一只(充电器.CPU散热 ...

  3. python的输入函数是什么意思_「小白学Python」像风一样自由的输入:input( )函数详解...

    从使用Python写出第一行代码:print("Hello Python")时,我就怀揣着一个梦想,有一天,我一定要输入自己想要的内容.今天这个梦想终于实现了,多亏了input( ...

  4. python中字符型用什么表示_「小白学Python」Python中最常用的数据类型:字符串

    Python中有6个标准数据类型,分别是:Number(数值).String(字符串).List(列表).Tuple(元组).Sets(集合).Dictionary(字典). 其中,String(字符 ...

  5. Python 3.6模拟输入并爬取百度前10页密切相关链接

    1.安装扩展库mechanicalsoup,这个库依赖requests.beautifulsoup4等模块,一般会自动安装,如果失败的话,可以先安装依赖的其他扩展库. 2.分析百度网页源代码,找到用来 ...

  6. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  7. python战反爬虫:爬取猫眼电影数据 (一)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...

  8. python战反爬虫:爬取猫眼电影数据 (二)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...

  9. python战反爬虫:爬取猫眼电影数据 (一)

    非常荣幸邀请到 赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者 隋顺意 小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...

  10. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

最新文章

  1. Android Studio第三十四期 - git企业级应用命令
  2. 什么是虚拟专用网(×××)
  3. 创建总账科目类型会计凭证
  4. 首发:李航老师的《统计学习方法》第二版的代码实现(Github标星过万!)
  5. 数据增强:数据有限时如何使用深度学习 ?
  6. 4个万无一失的技巧让您开始使用JBoss BRMS 6.0.3
  7. 0与1世界的初级编程篇之C语言
  8. BIM 360 Docs API在操作欧洲数据中心内容的一些调整
  9. 企业员工管理系统封面html,单页面模板
  10. python机器学习案例系列教程——LightGBM算法
  11. php 修改html编码,PHP将HTML Charset编码弄乱了
  12. Keras中的时间分布层TimeDistributed Layer使用教程
  13. Perl的一些初级练习题
  14. 计算机导论王玉龙,计算机导论王玉龙
  15. easyui数据表格重置_Easyui 格式化列_EasyUI 教程
  16. 微信小程序实战 wx.showNavigationBarLoading(),下拉动画配置无效
  17. 三点共线 之 优化A*路径
  18. JavaScript-原型详解
  19. android平板苹果,苹果界面让人生厌 5款Android平板推荐
  20. 游戏本推荐排行榜哪款好?开箱这款有答案

热门文章

  1. 如何处理计算机显卡故障,电脑显卡常见故障及解决方案
  2. python计算空间向量夹角——原理及代码详解
  3. 七腾OA办公平台解决方案
  4. 苹果手机手机用数据线连接苹果电脑时为何会一直断开无法连接
  5. 【STM32】1.44寸TFT液晶屏显示字符、汉字和图片
  6. 【JZOJ 2499】【NOIP2011模拟7.28】东风谷早苗 (模拟)
  7. Boost库系列:asio总结
  8. 滑块验证码的解决方法
  9. 帮你写出更好的python代码:python函数应用进阶(一)——函数是对象
  10. JavaSE_day11【内部类、注解】