Python爬虫架构

一、什么是爬虫

爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。

二、Python爬虫架构

Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，
实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。应用程序：就是从网页中提取的有用数据组成的一个应用。

三、爬虫基础架构与运行流程

下面给出了基础爬虫的架构图：

可以看到，基础爬虫架构分为5块：爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。

下面来介绍一下这5个大类的功能：

1. 爬虫调度器：主要是配合调用其他四个模块，所谓调度就是取调用其他的模板。
2. URL管理器：负责管理URL链接的，URL链接分为已爬取的和未爬取的，这就需要URL管理器来管理它们，同时它也为获取新URL链接提供接口。

3. HTML下载器：将要爬取的页面的HTML下载下来。
4. HTML解析器：将要爬取的数据从HTML源码中获取出来，同时也将新的URL链接发送给URL管理器以及将处理后的数据发送给数据存储器。
5.数据存储器：将HTML下载器发送过来的数据存储到本地。

1.爬虫入门程序

首先我们调用的是 urllib2 库里面的 urlopen 方法，传入一个 URL，这个网址是百度首页，协议是 HTTP 协议，当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，
urlopen 一般接受三个参数，它的参数如下：urlopen(url, data, timeout) 第一个参数 url 即为 URL，
第二个参数 data 是访问 URL 时要传送的数据，
第三个 timeout 是设置超时时间。
第二三个参数是可以不传送的，data 默认为空 None，timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的，在这个例子里面我们传送了百度的 URL，执行 urlopen 方法之后，返回一个 response 对象，返回信息便保存在这里面。

#导入功能库 urllib2
import urllib2#调用urllib2库的urlopen方法 第一个参数url即为URL
response = urllib2.urlopen("http://www.baidu.com")#response 对象有一个 read 方法，可以返回获取到的网页内容。
print response.read()

爬虫程序添加cookie

cookielib 模块的主要作用是提供可存储 cookie 的对象，以便于与 urllib2 模块配合使用来访问 Internet 资源。Cookielib 模块非常强大，我们可以利用本模块的 CookieJar 类的对象来捕获 cookie 并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有 CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。它们的关系：CookieJar —— 派生 ——>FileCookieJar —— 派生 ——->MozillaCookieJar 和 LWPCookieJar

import urllib
import urllib2
import cookielibfilename = 'cookie.txt'
#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件
cookie = cookielib.MozillaCookieJar(filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({'stuid':'201200131012','pwd':'23342321'})
#登录教务系统的URL
loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'
#模拟登录，并把cookie保存到变量
result = opener.open(loginUrl,postdata)
#保存cookie到cookie.txt中
cookie.save(ignore_discard=True, ignore_expires=True)
#利用cookie请求访问另一个网址，此网址是成绩查询网址
gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'
#请求访问成绩查询网址
result = opener.open(gradeUrl)
print result.read()

正则表达式

Python中re模块主要功能是通过正则表达式是用来匹配处理字符串的。import re 导入该模块后，就可以使用该模块下的所有方法和属性

import re
#定义正则化规则=匹配模式，r表示原生字符串
pattern=re.compile(r"hello")
#匹配文本
# result1=re.search(pattern,"hello hello");
# # print(result1)
result1=re.match(pattern,"hello hello")
print(result1)
#点代表任意字符
pattern2=re.compile(r'a.c')
result2=re.match(pattern2,'abcdefgg')
print(result2)
#\转义字符
pattern3=re.compile(r'a\.c')
result3=re.match(pattern3,'a.cdefgg')
print(result3)
#[...]字符串中间包含 -包含 ^不包含
pattern4=re.compile(r"a[a-z,A-z]bc")
result4=re.match(pattern4,r'aabcv')
print(result4)
#\d数字 \D不是数字
pattern6=re.compile(r"a\dbc")
result6=re.match(pattern6,'a6bcdd')
print(result6)
#\s空白字符 \S不是空白字符
pattern7=re.compile(r"a\sbc")
result7=re.match(pattern7,'a bcdd')
print(result7)
#\w 单词字符[A-Z,a-z,0-9] \W非单词字符
pattern8=re.compile(r"a\wbc")
result8=re.match(pattern8,'a bcdd')
print(result8)
#匹配邮箱
pattern9=re.compile(r"\d+@\w+\.\w+")
result9=re.search(pattern9,"1231qw@qq.com")
print(result9)
#*表示0个或者无无限次
rexg=re.compile(r'\d*\w*')
res=re.search(rexg,'1dddd')
print(res)
#+前一个字符一次或者无限次
rexg=re.compile(r'\d+\w')
res=re.search(rexg,'1dddd')
print(res)
#？表示一个或者0个
rexg=re.compile(r'\d?ddd')
res=re.search(rexg,'123dddd')
res2=re.match(rexg,'123dddd')
print(res)
print(res2)
#{m}匹配前一个字符m个
rexg=re.compile(r'1\d{10}')
res=re.search(rexg,'16666666666')
print(res)
#{m,n}m至n次
rexg=re.compile(r'\d{5,12}@\w{2}\.\w{3}')
res=re.search(rexg,'1436619325@qq.com')
print(res)
#非贪恋模式
rexg=re.compile(r'\d{5,10}?')
res=re.search(rexg,'1436619325')
print(res)
#^字符串开头支持多行
rexg=re.compile(r'^abc')
res=re.search(rexg,'abc123')
print(res)
#$字符串结尾支持多行
rexg=re.compile(r'abc$')
res=re.search(rexg,'123abc')
print(res)
#\A字符串结尾支持多行
rexg=re.compile(r'\Aabc')
res=re.search(rexg,'abc123')
print(res)
#\z字符串结尾支持多行
rexg=re.compile(r'abc\Z')
res=re.search(rexg,'123abc')
print(res)
#|满足任意提交
rexg=re.compile(r'1\d{10}|d{5,12}@qq\.com')
res=re.search(rexg,'dsafsd13424234324234sssss111111111111@qq.com')
print(res)
#分组
rexg=re.compile(r'(abc){3}')
res=re.search(rexg,'abcabcabcss')
print(res)
#分组+别名
rexg=re.compile(r'(?P<tt>abc)88(?P=tt)')
res=re.search(rexg,'abcabc88abcss')
print(res)
#分组+编号
rexg=re.compile(r'(\d{3})uu\1')
res=re.search(rexg,'123uu123')
print(res)