Crawler：反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹

导读
基于反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹

输出结果

实现代码

输出结果

后期更新……

实现代码

#Py之Crawler：爬虫利用随机选取代理访问服务器的方法实现下载某网址上所有的图片到指定文件夹
import urllib.request
import os
import randomdef open_url(url):req=urllib.request.Request(url) req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.2.1.17116")proxy_support = urllib.request.ProxyHandler({'http':random.choice(proxies)})opener = urllib.request.build_opener(proxy_support) urllib.request.install_opener(opener)  response=urllib.request.urlopen(url) html=response.read()return htmldef get_page(url):html=open_url(url).decode("utf-8") a=html.find('current-comment-page')+23 b=html.find(']',a)  print(html[a:b]) return html[a:b]def find_imgs(url):html=open_url(url).decode("utf-8") img_addrs = []a=html.find("img src=")while a!= -1:b=html.find(".jpg",a,a+255)   if b!=-1:img_addres.append(html[a+9:b+4])else:b=a+9a=html.find("img src=",b)      return img_addrs  def save_imgs(folder, img_addrs): for each in img_addrs:  filename = each.split('/')[-1]with open(filename,'wb') as f:  img = open_url('http:' + each)  f.write(img)                 def download_mm(folder="imgfile",pages=10):os.mkdir(folder)os.chdir(folder)url="http://jandan.net/ooxx/"page_num=int(get_page(url)) for i in range(pages):page_num -= i  page_url = url+"page"+str(page_num)+"#comments"   img_addres = find_imgs(page_url) save_imgs(folder,img_addres)# if __name__=="__main__":
#     download_mm()
download_mm()

相关文章
Py之Crawler：爬虫利用随机选取代理访问服务器的方法实现下载某网址上所有的图片到指定文件夹

Crawler：反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹相关推荐

Crawler：反爬虫之基于urllib库+伪装浏览器方式实现从各种网站上（以百度贴吧为例）获得你喜欢的照片下载到本地电脑上
Crawler:反爬虫之基于urllib库+伪装浏览器方式实现从各种网站上(以百度贴吧为例)获得你喜欢的照片下载到本地电脑上目录输出结果实现代码输出结果后期更新-- 实现代码 import ...
python下载邮箱附件_基于Python3 下载邮箱附件，并解压到指定文件夹
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # -*- encoding: gbk -*- # 目前只测试过网易163邮箱,qq邮箱时间格式与163有 ...
爬虫原理及反爬虫机制以及反爬虫方法的应对策略
爬虫原理及反爬虫机制关于爬虫爬虫原理反爬虫机制 1.检验数据头User-Agent反爬虫机制解析: 2.访问频率限制或检验 3.蜜罐技术反爬虫机制的应对方法 1.设定Request Heade ...
Crawler：基于urllib库+实现爬虫有道翻译
Crawler:基于urllib库+实现爬虫有道翻译目录输出结果设计思路实现步骤输出结果后期更新-- 设计思路第一步:首先要知道,data里面的内容是都需要在代码中发送给服务器的. 第二 ...
Crawler：基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站，上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内
Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内目录输出结果设计思路核心 ...
Crawler：基于urllib库获取cn-proxy代理的IP地址
Crawler:基于urllib库获取cn-proxy代理的IP地址目录输出结果实现代码输出结果后期更新-- 实现代码 import urllib.request import re imp ...
国内外电商平台反爬虫机制报告
电商平台的核心引擎大致分为两块,搜索架构和产品布局,应该说各有各的特色.当然今天的主题是反爬虫机制,电商平台如何能保护好自己的数据,又不影响正常用户体验,所谓当今业界一场持久的攻防博弈. 一阶爬虫(技 ...
用Python破解有道翻译反爬虫机制
破解有道翻译反爬虫机制 web端的有道翻译,在之前是直接可以爬的.也就是说只要获取到了他的接口,你就可以肆无忌惮的使用他的接口进行翻译而不需要支付任何费用.那么自从有道翻译推出他的API服务的时候,就 ...
Python(4) 用Python破解有道翻译反爬虫机制
web端的有道翻译,在之前是直接可以爬的.也就是说只要获取到了他的接口,你就可以肆无忌惮的使用他的接口进行翻译而不需要支付任何费用.那么自从有道翻译推出他的API服务的时候,就对这个接口做一个反爬虫机 ...

Crawler：反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹

输出结果

实现代码

Crawler：反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹相关推荐

最新文章

热门文章