「玩转Python」突破封锁继续爬取百万妹子图
前言
从零学 Python 案例,自从提交第一个妹子图版本引来了不少小伙伴的兴趣。最近,很多小伙伴发来私信说,妹子图不能爬了!?
趁着周末试了一把,果然爬不动了,爬下来的都是些 0kb 的假图片,然后就是一系列的报错信息,显然妹子图图长已经做了防御措施。
伪装
无论怎么做防御措施,总不能把正常用户也给禁了?所以,我们要尽可能的伪装成正常用户,我就是来看妹子图的。
- 防盗链处理
- 延时处理请求图片
- 准备尽量多的请求头
- 动态代理IP(花钱,暂且不考虑)
请求头,越多越好,尽量避免同一个请求头去处理图片。
meizi_headers = ["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14","Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11','Opera/9.25 (Windows NT 5.1; U; en)','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12','Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7","Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0",'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
]
延时,不要太频繁的去抓取图片,如果时间充裕,尽量设置的稍微大一些。
# 单位为秒,1-3 随机数
time.sleep(random.randint(1, 3))
防盗链处理,否则会出现403错误。
# 防盗链加入Referer
headers = {'User-Agent': random.choice(meizi_headers), 'Referer': url}
img = requests.get(url, headers=headers)
最后一个动态代理IP,如果图长把你IP封了,那以上操作都是白瞎。如果还想继续下,只能通过动态代理IP来处理了。
小结
下面是新爬取的妹子图,仅限18岁以上少年查看,未成年会自行马赛克处理。
源码:https://gitee.com/52itstyle/Python/tree/master/Day01
转载于:https://www.cnblogs.com/smallSevens/p/11204948.html
「玩转Python」突破封锁继续爬取百万妹子图相关推荐
- Python百行代码轻松爬取了妹子网100G的套图,希望你网盘内存够用
前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...
- 「玩转Python」搭建远程监控系统,小偷?不存在的!
软硬件清单 读卡器以及 SD 卡(装系统用) 摄像头一枚,支持 USB SSH连接工具(SecureCRT,Xshell) 宽带.路由器(家中常备) 装好系统的树莓派 3B+ 一只(充电器.CPU散热 ...
- python的输入函数是什么意思_「小白学Python」像风一样自由的输入:input( )函数详解...
从使用Python写出第一行代码:print("Hello Python")时,我就怀揣着一个梦想,有一天,我一定要输入自己想要的内容.今天这个梦想终于实现了,多亏了input( ...
- python中字符型用什么表示_「小白学Python」Python中最常用的数据类型:字符串
Python中有6个标准数据类型,分别是:Number(数值).String(字符串).List(列表).Tuple(元组).Sets(集合).Dictionary(字典). 其中,String(字符 ...
- Python 3.6模拟输入并爬取百度前10页密切相关链接
1.安装扩展库mechanicalsoup,这个库依赖requests.beautifulsoup4等模块,一般会自动安装,如果失败的话,可以先安装依赖的其他扩展库. 2.分析百度网页源代码,找到用来 ...
- 转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...
- python战反爬虫:爬取猫眼电影数据 (一)(Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...
- python战反爬虫:爬取猫眼电影数据 (二)(Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...
- python战反爬虫:爬取猫眼电影数据 (一)
非常荣幸邀请到 赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者 隋顺意 小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...
- python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
最新文章
- Android Studio第三十四期 - git企业级应用命令
- 什么是虚拟专用网(×××)
- 创建总账科目类型会计凭证
- 首发:李航老师的《统计学习方法》第二版的代码实现(Github标星过万!)
- 数据增强:数据有限时如何使用深度学习 ?
- 4个万无一失的技巧让您开始使用JBoss BRMS 6.0.3
- 0与1世界的初级编程篇之C语言
- BIM 360 Docs API在操作欧洲数据中心内容的一些调整
- 企业员工管理系统封面html,单页面模板
- python机器学习案例系列教程——LightGBM算法
- php 修改html编码,PHP将HTML Charset编码弄乱了
- Keras中的时间分布层TimeDistributed Layer使用教程
- Perl的一些初级练习题
- 计算机导论王玉龙,计算机导论王玉龙
- easyui数据表格重置_Easyui 格式化列_EasyUI 教程
- 微信小程序实战 wx.showNavigationBarLoading(),下拉动画配置无效
- 三点共线 之 优化A*路径
- JavaScript-原型详解
- android平板苹果,苹果界面让人生厌 5款Android平板推荐
- 游戏本推荐排行榜哪款好?开箱这款有答案