Crawler:反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹
Crawler:反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹
导读
基于反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹
目录
输出结果
实现代码
输出结果
后期更新……
实现代码
#Py之Crawler:爬虫利用随机选取代理访问服务器的方法实现下载某网址上所有的图片到指定文件夹
import urllib.request
import os
import randomdef open_url(url):req=urllib.request.Request(url) req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.2.1.17116")proxy_support = urllib.request.ProxyHandler({'http':random.choice(proxies)})opener = urllib.request.build_opener(proxy_support) urllib.request.install_opener(opener) response=urllib.request.urlopen(url) html=response.read()return htmldef get_page(url):html=open_url(url).decode("utf-8") a=html.find('current-comment-page')+23 b=html.find(']',a) print(html[a:b]) return html[a:b]def find_imgs(url):html=open_url(url).decode("utf-8") img_addrs = []a=html.find("img src=")while a!= -1:b=html.find(".jpg",a,a+255) if b!=-1:img_addres.append(html[a+9:b+4])else:b=a+9a=html.find("img src=",b) return img_addrs def save_imgs(folder, img_addrs): for each in img_addrs: filename = each.split('/')[-1]with open(filename,'wb') as f: img = open_url('http:' + each) f.write(img) def download_mm(folder="imgfile",pages=10):os.mkdir(folder)os.chdir(folder)url="http://jandan.net/ooxx/"page_num=int(get_page(url)) for i in range(pages):page_num -= i page_url = url+"page"+str(page_num)+"#comments" img_addres = find_imgs(page_url) save_imgs(folder,img_addres)# if __name__=="__main__":
# download_mm()
download_mm()
相关文章
Py之Crawler:爬虫利用随机选取代理访问服务器的方法实现下载某网址上所有的图片到指定文件夹
Crawler:反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹相关推荐
- Crawler:反爬虫之基于urllib库+伪装浏览器方式实现从各种网站上(以百度贴吧为例)获得你喜欢的照片下载到本地电脑上
Crawler:反爬虫之基于urllib库+伪装浏览器方式实现从各种网站上(以百度贴吧为例)获得你喜欢的照片下载到本地电脑上 目录 输出结果 实现代码 输出结果 后期更新-- 实现代码 import ...
- python下载邮箱附件_基于Python3 下载邮箱附件,并解压到指定文件夹
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # -*- encoding: gbk -*- # 目前只测试过网易163邮箱,qq邮箱时间格式与163有 ...
- 爬虫原理及反爬虫机制以及反爬虫方法的应对策略
爬虫原理及反爬虫机制 关于爬虫 爬虫原理 反爬虫机制 1.检验数据头User-Agent反爬虫机制解析: 2.访问频率限制或检验 3.蜜罐技术 反爬虫机制的应对方法 1.设定Request Heade ...
- Crawler:基于urllib库+实现爬虫有道翻译
Crawler:基于urllib库+实现爬虫有道翻译 目录 输出结果 设计思路 实现步骤 输出结果 后期更新-- 设计思路 第一步:首先要知道,data里面的内容是都需要在代码中发送给服务器的. 第二 ...
- Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内
Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内 目录 输出结果 设计思路 核心 ...
- Crawler:基于urllib库获取cn-proxy代理的IP地址
Crawler:基于urllib库获取cn-proxy代理的IP地址 目录 输出结果 实现代码 输出结果 后期更新-- 实现代码 import urllib.request import re imp ...
- 国内外电商平台反爬虫机制报告
电商平台的核心引擎大致分为两块,搜索架构和产品布局,应该说各有各的特色.当然今天的主题是反爬虫机制,电商平台如何能保护好自己的数据,又不影响正常用户体验,所谓当今业界一场持久的攻防博弈. 一阶爬虫(技 ...
- 用Python破解有道翻译反爬虫机制
破解有道翻译反爬虫机制 web端的有道翻译,在之前是直接可以爬的.也就是说只要获取到了他的接口,你就可以肆无忌惮的使用他的接口进行翻译而不需要支付任何费用.那么自从有道翻译推出他的API服务的时候,就 ...
- Python(4) 用Python破解有道翻译反爬虫机制
web端的有道翻译,在之前是直接可以爬的.也就是说只要获取到了他的接口,你就可以肆无忌惮的使用他的接口进行翻译而不需要支付任何费用.那么自从有道翻译推出他的API服务的时候,就对这个接口做一个反爬虫机 ...
最新文章
- 那些你所不知道的AI视频资源
- CentOS7 Tomcat安装
- pycharm支持python3.8_PyCharm 2019.2 发布,Python 3.8功能的支持
- 解决TreeView中使用JavaScript完成CheckBox全选的办法
- VTK:可视化算法之HeadSlice
- 重构改善既有代码的设计(笔记)
- idea内置junit5_JUnit的内置Hamcrest Core Matcher支持
- 将Maven与Ivy集成
- Java 反射机制和动态代理是基于什么原理,了解过吗?
- java基础—面向对象——变量的区别
- opatch java.lang.OutOfMemoryError:Java heap space错误一例
- 【2019百度之星初赛二1002=HDU6675】度度熊与排列(贪心)
- android无线投屏到电视盒子,【沙发管家】教你如何把电脑视频投屏到智能电视/电视盒子上!...
- javplayer 使用教程_PS教程连载第91课:PS核心功能:剪贴蒙版讲解
- 12款在线批量缩短新浪短链接的生成器和接口api
- 《东周列国志》第二十三回 卫懿公好鹤亡国 齐桓公兴兵伐楚
- 最大团问题(迭代回溯法)
- C# 使用Zebra斑马打印机打印ZPL文件工具
- F22.YOLO深入理解(V1-V3)个人感觉非常详细
- Rolan 1.3.8 屏蔽强制更新