学习爬虫个人的意见是直接实战效果会很好 不要等全学完requests ,正则表达式,BeautifulSoup等再来实际操作。其实很多实战我们并不会用到requests库,BeautifulSoup,正则表达式的全部知识。全部学懂记下来再去实战会很难。不如跟着我直接就该是写爬虫吧。遇到什么问题我们再一一解决。

1 导入各种要用到的库,具体什么用法下面会讲

import re

import os

import time

import random

import requests

from bs4 import BeautifulSoup

# 这几个库是我们自己写的 后面会教你写 这里我们先导入

from packages.save import save

2 我们加个header 表头 让服务器以为我们是一个真的浏览器 才会返回给我们图片数据

header = {‘User-Agent’:”Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1″}

注意:每个浏览器的表头不一样。用你自己浏览器的表头就行。

这里我用的是谷歌浏览器,这里示范给你们看。

你现在在阅读我的文章,直接F12 打开开发者工具。

随便点击Name下面一个 这里我们点击第一个qton_csdn?viewmode=list 右边边下拉到最后看到

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36

这个就是我浏览器的表头了。

3 写好表头 我们来定义一个函数来获取一个网址的HTML 我们定义为def get_html(url,timeout=2): 这里有两个参数,url 为我们要爬取网页的网址,timeout=2 即两秒内服务器如果无返回数据我们断掉此次获取不然程序一直等下去。

代码:

def get_html(url,timeout=2):

try:

return requests.get(url,header,timeout=3)

except:

# 换表头,换ip

print('换表头,使用代理!')

time.sleep(random.randrange(1,11))

return requests.get(url,headers=get_random_header(),proxies={'http':get_random_ip()},timeout=2)

try:函数 我们用自己的表头试着去获取HTML 如果成功则返回HTML 如3秒内无返回数据,则执行下面excep:代码

excep:代码

我们先随机停顿1到10秒 用到 time库的time.sleep 函数 random库的 random.randrange(1,11) 随机取1-11 的数 不包括11

接着我们换个表头,用我们收集来的其它浏览器的表头去获取HTML,再使用一下代理:

这里我们需要在你写爬虫代码的文件下创建一个包(这里涉及到创建函数包的问题),命名为packages,在packages下创建代码为header.py和 ip.py ip池。

header.py下代码为:

import random

headers_list=[

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

def get_random_header():

UA=random.choice(headers_list)

header={'User-Agent':UA}

return header

我们在大本营要调用此函数

def get_random_header(): 时需要先import 就是上面那个

from packages.header import get_random_header

def get_random_header()的作用是调用一次他的时候随机返回一个表头header

ip.py下面代码为:

import re

import random

import requests

def get_random_ip():

try:

html=requests.get('http://haoip.cc/tiqu.htm')

ip_list=re.findall(r'([\d].*?)
',html.text)

ip=random.choice(ip_list)

return ip

except:

print('get_random_ip 出错!')

return None

下面给出所有代码,先自己领悟领悟。

全部代码: 1 主代码:爬取-天极.py

import re

import os

import time

import random

import requests

from bs4 import BeautifulSoup

# 这几个库是我们自己写的 后面会教你写 这里我们先导入

from packages.save import save

from packages.ip import get_random_ip

from packages.header import get_random_header

header = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

def get_html(url,timeout=2):

try:

return requests.get(url,header,timeout=3)

except:

# 换表头,换ip

print('换表头,使用代理!')

time.sleep(random.randrange(1,11))

return requests.get(url,headers=get_random_header(),proxies={'http':get_random_ip()},timeout=2)

def main():

for big_page in range(1,8):

all_url = 'http://pic.yesky.com/c/6_20471_%s.shtml'%big_page

big_page_html=get_html(all_url)

Soup = BeautifulSoup(big_page_html.text, 'lxml')

all_a = Soup.find('div', class_='lb_box').find_all('a')

for a in all_a:

# 取出 title url

title = a.get_text()

href = a['href']

# time.sleep(0.5)

# 创建以 title 为名的文件夹

path = str(title).strip()

try:

os.makedirs(os.path.join("F:\pic.yesky", path))

os.chdir("F:\pic.yesky\\"+path)

print(href)

except:

# print('file existed!')

time.sleep(0.1)

continue

# 查看文件夹有几页图片

try:

html = get_html(href)

except:

print('出错')

continue

html_Soup = BeautifulSoup(html.text,'lxml')

max_page = html_Soup.find_all('span')[10].get_text()

F_MAX=re.compile(r'/([0-9]*)')

# 取出文件夹每页的图片

try:

max_page=F_MAX.findall(max_page)[0]

a=int(max_page)

except:

continue

for page in range(2,a+1):

url_photo=href.replace('.shtml','_%s.shtml'%page)

# print('图片页面URL',url_photo)

try:

img_html=get_html(url_photo)

except:

continue

img_Soup=BeautifulSoup(img_html.text,'lxml')

try:

url_photo=img_Soup.find('div',class_='l_effect_img_mid').find('img')['src']

img=get_html(url_photo)

except:

continue

# 保存

try:

f=open(str(page)+'.jpg','wb')

f.write(img.content)

f.close()

# print(url_photo)

except:

print('保存出错')

continue

#一个文件夹结束停顿

time.sleep(1)

'''

# 保存

try:

f=open(str(page)+'.jpg','wb')

f.write(img.content)

f.close()

print(url_photo)

except:

print('保存出错')

continue

#一个文件夹结束停顿

time.sleep(2)

'''

if __name__ == '__main__':

main()

2 packages包应放在 爬取-天极代码童文件下,如图:

packages 下创建 header.py ip.py save.py 三个代码 如图:

header.py下代码:

import random

headers_list=[

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

def get_random_header():

UA=random.choice(headers_list)

header={'User-Agent':UA}

return header

ip.py下代码:

import re

import random

import requests

def get_random_ip():

try:

html=requests.get('http://haoip.cc/tiqu.htm')

ip_list=re.findall(r'([\d].*?)
',html.text)

ip=random.choice(ip_list)

return ip

except:

print('get_random_ip 出错!')

return None

save.py下代码:

import urllib.request

from urllib.error import HTTPError

def save(url,name):

print(url,name)

try:

urllib.request.urlretrieve(url,'下载\\%s.jpg'%name)

print(name,'saving...')

except HTTPError as e:

print('读取错误!',e)

return None

except:

print('save 错误')

return None

附上爬取http://www.mzitu.com 网站全部图片的代码:

import re

import os

import time

import random

import requests

from bs4 import BeautifulSoup

from packages.save import save

from packages.ip import get_random_ip

from packages.header import get_random_header

header = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

def get_html(url,timeout=2):

try:

return requests.get(url,header,timeout=3)

except:

# 换表头,换ip

print('换表头,使用代理!')

return requests.get(url,headers=get_random_header(),proxies={'http':get_random_ip()},timeout=2)

def main():

all_url = 'http://www.mzitu.com/all'

start_html = requests.get(all_url, headers=header)

Soup = BeautifulSoup(start_html.text, 'lxml')

all_a = Soup.find('div', class_='all').find_all('a')

for a in all_a:

# 取出 title url

title = a.get_text()

href = a['href']

# print(href)

# 创建以 title 为名的文件夹

path = str(title).strip()

try:

os.makedirs(os.path.join("F:\Scraping", path))

os.chdir("F:\Scraping\\"+path)

except:

# print('file existed!')

# time.sleep(0.1)

exit()

continue

# 查看文件夹有几页图片

try:

html = get_html(href)

except:

print('出错')

continue

html_Soup = BeautifulSoup(html.text,'lxml')

max_page = html_Soup.find_all('span')[10].get_text()

# 取出文件夹每页的图片

try:

a=int(max_page)

except:

continue

for page in range(1,a+1):

url_photo=href+'/%s'%page

try:

img_html=get_html(url_photo)

except:

continue

img_Soup=BeautifulSoup(img_html.text,'lxml')

try:

url_photo=img_Soup.find('div',class_='main-image').find('img')['src']

img=get_html(url_photo)

except:

continue

# 保存

try:

f=open(str(page)+'.jpg','wb')

f.write(img.content)

f.close()

print(url_photo)

except:

print('保存出错')

continue

#一个文件夹结束停顿

time.sleep(2)

if __name__ == '__main__':

main()

python爬虫爬取图片代码_python爬虫实战 爬取天极图片相关推荐

  1. python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  2. python爬虫爬取图片代码_python爬虫-20行代码爬取王者荣耀所有英雄图片,小白也轻轻松松...

    1.环境python3.6 需要用到的库: re.os.requests 2.简介 王者荣耀可以算得上是比较受欢迎的手游之一了,应该有不少的人都入坑过农药,我们今天的目的就是要爬取王者荣耀的高清英雄壁 ...

  3. python实例豆瓣音乐代码_Python爬虫实战(3)-爬取豆瓣音乐Top250数据(超详细

    前言 首先我们先来回忆一下上两篇爬虫实战文章: 第一篇:讲到了requests和bs4和一些网页基本操作. 第二篇:用到了正则表达式-re模块 今天我们用lxml库和xpath语法来爬虫实战. 1.安 ...

  4. python爬虫知乎代码_python爬虫知乎的简单代码实现

    随着时代的发展,我们很依赖网络帮助我们解决问题,遇到什么问题就会先百度.除了百度,现在大多数人还会选择通过知乎来解决问题.知乎类似于一个论坛,讨论度比百度高一些,那你知道如何用python爬虫爬知乎网 ...

  5. python爬虫执行js代码_python爬虫执行js代码-execjs

    一.安装模块 pip install PyExecJS execjs会自动使用当前电脑上的运行时环境(建议用nodejs,与Phantomjs) 二.简单的使用 import execjs js_ob ...

  6. python飞机大战计分代码_Python项目实战-飞机大战

    {getUnitName} {getLessonName} 敬请期待 免费 {getTaskName} 剩余观看时长:{watchLimitRemaining} 回放 {activityStartTi ...

  7. python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)

    前言: 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1 ...

  8. python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇

    前言 之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧 ...

  9. python简单好看的代码_Python新手写出漂亮的爬虫代码1

    初到大数据学习圈子的同学可能对爬虫都有所耳闻,会觉得是一个高大上的东西,仿佛九阳神功和乾坤大挪移一样,和别人说"老子会爬虫",就感觉特别有逼格,但是又不知从何入手,这里,博主给大家 ...

最新文章

  1. Cisco *** 完全配置指南-连载-PIX和ASA连接的故障诊断与排除
  2. oracle 计划中的view,执行计划里的view
  3. nginx upstream 常用的几种调度方式
  4. 获取进程号并赋值判断进程状态
  5. 定量遥感:计算地方时和太阳高度角(C++代码)
  6. java 操作redis
  7. 多个ORACLE HOME时的程序连接
  8. 8.3 bert的蒸馏讲解 意境级
  9. Python读取文件时出现UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position ...
  10. Hyperledger fabric 区块结构、交易结构
  11. 小红帽酒店仓库管理系统
  12. 服装免费收银系统哪个好-云上铺会员管理软件
  13. Modbus家族之 RTU
  14. 深入理解Nginx负载均衡和反向代理_学习笔记
  15. 移动前端开发的一些简单分类!
  16. 维护最短路径条数和途径点的权值累加
  17. 缥缈峰--JVM系列之内存区域
  18. Matlab实现给黑白图片上色
  19. sequoia的架构
  20. 万圣节html代码大全,基于Jquery实现万圣节快乐特效

热门文章

  1. linux 标准输出流管道,初学Linux之标准 I/O 和管道
  2. pandas dataframe绘制并保存图像
  3. python代码中添加环境变量
  4. keil4怎么移植其他人的程序_【调试笔记】韦东山:在100ask_imx6ull上移植使用六轴传感器ICM20608...
  5. mysql for update缺点_有关mysql的for update以及 死锁问题
  6. HTTP1.1/2.0与QUIC协议
  7. Hyperledger Fabric介绍
  8. 稳定币GUSD的优劣势分析
  9. 2016年百度面试题
  10. 让UILabel的文字顶部对齐