网页抓取及信息提取（二）

@R星校长

第`2`关：提取子链接

上一关我们学习了如何访问给定的网页并保存信息到本地，本关我们要从上一关访问的网页中提取出嵌套的url地址，即实现子链接的提取。

相关知识
课程视频《网页数据 - 获取url子链接》
下面通过文字进一步详细描述本关子链接提取的实现方法。

网页信息中的子链接

一个网站常常是一个主页中包含许多子链接，例如：

点击上图国防科技大学本科招生信息网的第一行“国防科技大学2016年录取分数统计”，就能跳转到其子网页：

子网页的网址为:
http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2017/717.html
这些链接一般保存在主页html源代码标签中的href属性值中，如下图所示：

如上图所示，这是我们在第二关保存的文本文件内容的一部分，我们发现href的值为:/site/gfkdbkzsxxw/lqfs/info/2017/717.html，刚好和子网页网址的后面一段相同，这就需要我们用到第一关的背景知识：
完整的URL = 协议 + 域名 + 资源在服务器上的路径，
即子网页网址 = "http://"+ "www.gotonudt.cn"+ "/site/gfkdbkzsxxw/lqfs/info/2017/717.html"。

字符串查找find()方法

Python字符串中find()方法检测字符串中是否包含子字符串str，如果指定 beg（开始）和end（结束）范围，则检查是否包含在指定范围内，如果包含子字符串返回开始的索引值，否则返回-1。
下面具体看下这个函数：find(str, beg=0, end=len(string))：

str：指定检索的字符串；
beg：开始索引，默认为0；
end：结束索引，默认为字符串的长度；
返回值：如果包含子字符串则返回子字符串开始的索引值，否则返回-1。

下面给出了具体的使用示例：

string = r'<li class="flt"><a href="/site/gfkdbkzsxxw/lqfs/info/2017/717.html" target="_blank"><font color="000000">国防科技大学2016年录取分数统计</font></a></li>'
index = string.find("国防科技大学2016年录取分数统计")
print(index)
print(string[index-1])

输出结果：

105
>

针对上述结果，我们可以看到子字符串"国防科技大学2016年录取分数统计"在string中出现过，且子串开头的国在string中的索引为105（即第一行输出），string[104]是国前面的>字符（即第二行输出）。

编程要求

仔细阅读网页源代码信息，补全step2()函数。从网页中找到2012到2016年国防科技大学录取分数线统计网页的子链接url数据并提取出来，具体来说：

使用find()函数定位这五个url，并保存在列表urls中（顺序从2016-2012倒序）。

注意：提取的超链是相对地址，需要加上站点域名，拼接成完整的URL。

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -*-import urllib.request as req# 国防科技大学本科招生信息网中录取分数网页URL：
url = 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/index.html'  # 录取分数网页URL
webpage = req.urlopen(url)  # 按照类文件的方式打开网页
data = webpage.read()       # 一次性读取网页的所有数据
data = data.decode('utf-8')  # 将byte类型的data解码为字符串（否则后面查找就要另外处理了）def step2():
# 建立空列表urls，来保存子网页的urlurls = []# 请按下面的注释提示添加代码，完成相应功能
#********** Begin *********#
# 从data中提取2016到2012每一年分数线子网站地址添加到urls列表中years = [2016, 2015, 2014, 2013,2012]for year in years:index = data.find("国防科技大学%s年录取分数统计" %year)href = data[index-80:index-39]   # 根据各个特征串提取url子串website = 'http://www.gotonudt.cn'urls.append(website+href)
#********** End **********#return urls