利用pyhton爬虫(案例4)--你想要的图片都在这

学习笔记

爬取X度某吧里的小图片们

写个小案例，获取X度里，你指定的吧里，第kkk页之前所有帖子内的图片，当然这个kkk由你定。

爬取步骤

①获取用户指定吧名和指定页数，得到贴吧主页URL。

②获取1页中所有帖子URL地址，并获取本吧的最大页数。

③for循环每个帖子的URL地址，对每个帖子链接发请求

④获取一个帖子的最大页数，遍历帖子内所有页里的图片

⑤拿到图片的链接后，获取图片以wb的形式，保存到mysql数据库。

⑥第1页处理完后，再处理第2页，以此类推…直到处理到用户指定页面数。

总结一下！我们需要用Xpath获取贴吧内帖子的url,帖子内所有图片的url；
并且用正则表达式匹配某个吧内的最大页数，一个帖子内的最大页数。

URL特征

同一个吧内不同页面URL地址特征

第二页：

https://tieba.baidu.com/f?kw=%E5%85%94%E5%AD%90&ie=utf-8&pn=50

第三页：

https://tieba.baidu.com/f?kw=%E5%85%94%E5%AD%90&ie=utf-8&pn=100

可以看到查询参数pn在第2页为50，第3页为100，则可以推断此处的pn参数可以控制页数，且第kkk页pn=(k−1)∗50pn=(k-1)*50pn=(k−1)∗50。

同时，我们判断kw参数后是吧名的ASCII编码值，我们将其转换为中文字符，验证一下：

嗯！是的呢~

同一个帖子内不同页面URL特征

第二页：

https://tieba.baidu.com/p/6554079192?pn=2

第三页：

https://tieba.baidu.com/p/6554079192?pn=3

可以看到查询参数pn在第2页为2，第3页为3，则可以推断此处的pn参数可以控制页数，且第kkk页pn=kpn=kpn=k

Xpath表达式

在这里我就不放页面源代码进行HTML页面分析了，因为写这个Blog的时候有点晚了，不想贴太多图片了，脑子也转不动了，而且也有某个红领巾帮我写好Xpath了。

这个红领巾是谁呢？我们右键点击网页，选择【审查元素】–>选中要获取的页面信息，再右键选择【Copy】–>最后选择【Copy Xpath】! 这样就得到Xpath表达式啦！

O_o…wc, 要是那么简单就可以获取Xpath表达式了，我之前还花了1天时间写了一系列Xpath总结？？？心碎…

比如，我想获取如下帖子的URL地址：

通过Copy Xpath，看一看这个红领巾帮我们获取的Xpath:

//*[@id="thread_list"]/li[1]/div/div[2]/div[1]/div[1]/a

在用Chrome插件Xpath Helper检查一下，看看匹配到了啥：

可以看到只匹配到了1个结果，而且还不是帖子链接，只是帖子文本！但是我们想要的是匹配50个帖子链接，所以，这个红领巾给的Xpath表达式"不怎么合格"。虽然这个表达式不怎么合格，但是它给了我们一些提示，我们可以按照红领巾给我们的Xpath表达式逻辑，来写出符合要求的合格表达式。

这里就不具体写咋获取合格Xpath表达式的具体步骤了。

直接放修改后的Xpath表达式(注意，Xpath表达式中最好不要带位置谓词，但是可以写带属性的谓词)：

//*[@id="thread_list"]/li//div[@class="t_con cleafix"]/div/div/div/a/@href

在Xpath Helper中检查一下：

perfect! (需要注意的是，这个Xpath表达式，是参考别人的,我自己写了一个表达式，用Xpath Helper可以匹配到URL，但是在python中就匹配不到了，心累！不知道为啥，这里标记一下，以后深入学习后，再回来解决)

备注：不要过度加谓词(条件)，这样可能会导致一些数据的丢失。

图片链接的URL我们也可以试着用这种方式获取，这里也不详述了，直接给Xpath表达式：

//img[@class="BDE_Image"]/@src

正则表达式

贴吧最大页数正则表达式:

下一页.*?<a href=.*?&pn=(\d*?)".*?>尾页</a>

帖子内页面总数正则表达式:

<li class="l_reply_num".*?回复贴，共.*?<span class="red">(\d*?)</span>页</li>

mysql内创建存储图片数据的数据库

在敲python代码之前，我们先建一个mysql数据库，等下爬虫时，存放我们的图片信息。

use datacup;
create table ba_image_table(id int primary key auto_increment,
ba_name varchar(30) not null,
image_url varchar(200) default "None",
image_data mediumblob);

python代码与mysql操作

注意，下面代码中的my_user_agent_list是我的自定义模块，里面是专门放User-Agent的列表。

代码：

# -*- coding: utf-8 -*-import requests
from lxml import etree
import pymysql
import random
import time
from urllib import parse
from my_user_agent_list import user_agent
import math
import reclass PagenumError(Exception):def __init__(self, msg, page_value):super().__init__(msg)self.page_value = page_valueclass BaNameError(Exception):def __init__(self, msg):super().__init__(msg)class TiebaSpider:def __init__(self):self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'self.user_agent = user_agentself.page = 1self.db = pymysql.connect(host = '127.0.0.1',port = 3306,user = 'root',password = '19970928',database = 'datacup',charset = 'utf8')self.cur = self.db.cursor()#获取html页面def get_page(self, url):try:res = requests.get(url, headers = {'User-Agent':random.choice(self.user_agent)})test_url = res.urlprint(test_url)if not self.url_exist(test_url):raise BaNameError('请检查输入贴吧是否存在是否正确...')        #print(res.url)except BaNameError as e:print(e.args)http_status_code = -1html = 'None'except Exception as e:print('连接错误,未知错误')http_status_code = -1html = 'None'else:html = res.content.decode('utf-8')#print(html)http_status_code = res.status_codeprint(http_status_code)return (http_status_code, html)#解析HTML页面,拿到该页面所有帖子链接和全部图片def parse_page(self, html):parse_html = etree.HTML(html)li_xpath = '//*[@id="thread_list"]/li//div[@class="t_con cleafix"]/div/div/div/a/@href'#拿链接，去广告li_list = parse_html.xpath(li_xpath)#print('本页帖子数：', len(li_list))li_list = ["http://tieba.baidu.com"+item for item in li_list if re.findall(r'^/p', item)]print('本页帖子数：', len(li_list))image_matrtix = []for item in li_list:image_list = self.parse_two_page(item)image_matrtix.append(image_list)return sum(image_matrtix, [])#获取帖子内的图片URLdef parse_two_page(self, url):(http_status_code, html) = self.get_page(url)page_num = self.get_page_num(html, url)image_xpath = '//img[@class="BDE_Image"]/@src'image_list = []for item in range(1, page_num + 1):temp_url = url + "/?pn={}".format(item)print("帖子url:", temp_url)(http_status_code, html) = self.get_page(temp_url)parse_html = etree.HTML(html)image = parse_html.xpath(image_xpath)print('本页图片数：', len(image))image_list.append(image)return sum(image_list, [])#图片下载def downloads_image(self, url_list, ba_name):data_list = []for url in url_list:image_data = requests.get(url, headers = {'User-Agent':random.choice(self.user_agent)}).contentdata_list.append((ba_name, url, image_data))self.write_page(data_list)      #写出数据def write_page(self, data_list):sql = 'insert into ba_image_table(ba_name, image_url, image_data) \values(%s, %s, %s);'try:self.cur.executemany(sql, data_list)self.db.commit()except Exception as e:self.db.rollback()print('错误信息:', e)#判断吧是否存在def url_exist(self, url):#若不存在该吧，则返回Falseif r'search/res' in url:idcard = Falseelse:idcard = Truereturn idcard#页面控制def get_page_num(self, html, url):if r'f?kw' in url:regex01 =  r'下一页.*?<a href=.*?&pn=(\d*?)".*?>尾页</a>'pattern = re.compile(regex01, re.S)page_list = pattern.findall(html)print('情况1:', page_list)if not page_list:page_max = 1else:temp_num = int((int(page_list[0])/50) + 1) page_max = temp_numelse:regex02 =  r'<li class="l_reply_num".*?回复贴，共.*?<span class="red">(\d*?)</span>页</li>'pattern = re.compile(regex02, re.S)page_list = pattern.findall(html)print('情况2:',page_list)if not page_list:page_max = 1else:page_max = int(page_list[0])print('本吧目前有{}页'.format(page_max))return page_max#主函数def main(self):while True:this_page = 1ba_name = input('输入要爬取的吧名(比如:兔子，末尾不用加"吧"字):')ba_name = parse.quote(ba_name)url = self.url.format(ba_name, 0)print(url)(http_status_code, html) = self.get_page(url)if http_status_code == -1:qtx = input('是否退出(q),不退出则再查询一次(c):')if qtx == 'q':breakelse:continuecount_inpute_page = 0while True:count_inpute_page +=1try:my_page = math.ceil(int(input('输入查询页数:'))) if my_page <= 0:raise PagenumError('为非正数', my_page)except ValueError as e1:print('输入的不是数值')except PagenumError as e2:print('错误信息：', e2.page_value, e2.args[0])except Exception as e:print('未知错误...')print(e.args)else:breakif count_inpute_page >= 3:qtx = input('是否退出,若退出，只查询第1页信息(q):')if qtx == 'q':my_page = 1breakurl = self.url.format(ba_name, 0)page_num = self.get_page_num(html, url)in_ba_name = parse.unquote(ba_name)if my_page <= page_num:page_num = my_pagefor page in range(1, page_num + 1):page = (page-1)*50url = self.url.format(ba_name,page)print(url)(http_status_code, html) = self.get_page(url)print(http_status_code)image_url_list = self.parse_page(html)self.downloads_image(image_url_list, in_ba_name)print('共爬取%d次' % self.page)print('本次爬取%d页' % this_page)self.page += 1this_page += 1time.sleep(random.randint(1, 3))qtx = input('本次查询完成，是否退出(q),不退出则再查询一次(c):')if qtx == 'q':breakself.cur.close()self.db.close()if __name__ == '__main__':start = time.time()spider = TiebaSpider()spider.main()end = time.time()print('执行时间:%.2f' % (end-start))

控制台输出(部分)：

入要爬取的吧名(比如:兔子，末尾不用加"吧"字):兔子
http://tieba.baidu.com/f?kw=%E5%85%94%E5%AD%90&pn=0
https://tieba.baidu.com/f?kw=%E5%85%94%E5%AD%90&pn=0
200输入查询页数:1
情况1: ['416050']
本吧目前有8322页
http://tieba.baidu.com/f?kw=%E5%85%94%E5%AD%90&pn=0
https://tieba.baidu.com/f?kw=%E5%85%94%E5%AD%90&pn=0
200
200
本页帖子数： 50
本页帖子数(排除后)： 50
https://tieba.baidu.com/p/6538986625?red_tag=2049280356
200
情况2: ['1', '1']
本吧目前有1页
帖子url: http://tieba.baidu.com/p/6538986625/?pn=1
https://tieba.baidu.com/p/6538986625/?pn=1&red_tag=1684499831
200
本页图片数： 8
https://tieba.baidu.com/p/6549848737?red_tag=2051121165
200

Mysql图片导出

我们在Mysql Workbench看一下，利用python爬虫的结果是否导入了数据库中。

sql执行指令及过程：

16:42:08 select * from ba_image_table LIMIT 0, 1000  533 row(s) returned 0.015 sec / 4.110 sec

数据表显示(部分)：

可以看到数据已经导入了，第一个字段为id号，第二个为吧名，第三个为图片地址，第四个为图片的二进制形式数据。

现在我们利用python读取一个图片数据，并显示出来。

python代码：

# -*- coding: utf-8 -*-import pymysqldb = pymysql.connect(host = '127.0.0.1',port = 3306,user = 'root',password = '19970928',database = 'datacup',charset = 'utf8')
cur = db.cursor()sql = "select image_url,image_data from ba_image_table where id=820;"
cur.execute(sql)
(url, data) =  cur.fetchone()
print(url)
with open('test/Bunny_image_0408.jpg', 'wb') as f:f.write(data)cur.close()
db.close()

控制台输出：

http://tiebapic.baidu.com/forum/w%3D580/sign=26386e88e5d3572c66e29cd4ba126352/f97fd7ca7bcb0a46def6b2587c63f6246a60af03.jpg

爬取到的图片：

嗯！不错，这个案例就算做完啦。

后记：虽然说好复试前不写爬虫的，但忍不住又写了。虽然爬到了结果，但是还需要后续进一步学习。
这里有几个问题：
问题1：有的时候程序会爬不下来，等一会再执行又可以爬下来了
问题2：最大页数通过正则匹配，因为我通过Xpath没匹配到…苍天啊，这是为啥
现在暂时不知道咋解决，这里标记一下，有待修改！