引言

又到一年广大准研究生收获的季节，各位准研究生陆续收到了待录取学校的通知书，为了纪念曾经感动自己的岁月，很多研究生小鲜肉在百度贴吧考研吧版块发了自己的录取通知书图片。楼主对各个学校的研究生录取通知书挺感兴趣，咱们不如做个爬虫，把图片都抓取下了一探究竟吧。

多图，用手机流量的同学要注意哦

爬虫代码

Talking is cheap,show me the code.

# -*- coding: utf-8 -*-
"""
Created on Sat Jul 11 21:31:39 2015@author: Kevin
"""
import requests
import re
from bs4 import BeautifulSoup
import time
#定义一个抓取录取通知书的类
class Admission:headers={'User-Agent':u'Mozilla/5.0 (Windows NT 6.1; rv:38.0) Gecko/20100101 Firefox/38.0'}#这是请求头baseURL='http://tieba.baidu.com/p/3805717173?pn='#这是抓取页面的基础地址，=后面为贴吧页码#获取贴吧页面个数def getPageNum(self):#获取帖子页数的正则表达式url=self.baseURL+str(1)#页码个数在第一页就能找到htmltext=requests.get(url,headers=self.headers).textpattern = re.compile('max-page="(.+?)" type="text"')result= int(re.findall(pattern,str(htmltext))[0])return result
#取得所有通知书的地址        def getURL(self,numpage):realalllinks=[]for num in range(0,(numpage+1)):url=baseURL+str(num)htmltext=requests.get(url,headers=self.headers).textSoup=BeautifulSoup(htmltext)admissions= Soup.find_all('img',class_='BDE_Image')#通知书地址所在地alllinks=[]for each in admissions:eachlink=each.get('src')alllinks.append(eachlink)time.sleep(5)realalllinks.extend(alllinks)return realalllinks#保存图片     def saveImage(self,imgUrls):lenimages=len(imgUrls)DstDir="D:\\Documents\\Python Scripts\\通知书\\"#这是我保存的下载目录for imageNum in range(lenimages):imageName=str(imageNum)+'.jpg'imageurl=imgUrls[imageNum]response = requests.get(imageurl, stream=True)image = response.contentrealname=DstDir+imageNametry:with open(realname,"wb") as jpg:jpg.write(image)     except IOError:print("IO Error\n")finally:jpg.closetime.sleep(1)ad=Admission()
pagenum=ad.getPageNum()#取得页码，共计23页
allurl=ad.getURL(pagenum)#取得地址，共计296张图片
ad.saveImage(allurl)#下载

这个爬虫比较简单，但是已经达到我们的目的。

下面晒一些名校的录取通知书吧，真是羡慕死我等屌丝学校同学。这里只上传了一部分，想看全部的请点击百度网盘的地址

利用python3 requests和BeautifulSoup4抓取百度贴吧研究生录取通知书并展示相关推荐

百度关键词抓取工具_VBA利用XMLHTTP抓取百度查询关键词结果的个数
大家好,我们今日讲解"利用XMLHTTP抓取百度查询关键词结果的个数",这节内容是"VBA信息获取与处理"教程中第六个专题"VBA中利用XMLHTTP ...
将vba做成应用程序_VBA利用XMLHTTP抓取百度查询关键词结果的个数
大家好,我们今日讲解"利用XMLHTTP抓取百度查询关键词结果的个数",这节内容是"VBA信息获取与处理"教程中第六个专题"VBA中利用XMLHTTP ...
python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...
原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...
python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容
利用Python和Beautiful Soup抓取网页内容 Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑收藏 Python 3中提供了url打 ...
【Python爬虫教学】百度篇·手把手教你抓取百度搜索关键词后的页面源代码
[开门见山] 最近整理了下之前做过的项目,学的东西不少,乱七八糟.打算写点关于 Python 爬虫的东西,新人一枚,还望大佬们多多担待,别把我头给打歪了. 前面我先磨叽磨叽些基础的东西,对爬虫新人友好 ...
Python爬虫采集抓取：Python3.x+Fiddler 采集抓取 APP 数据
随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...
python语言翻译-教你用Python抓取百度翻译
最近一直在一个平台学习Python,所以分享下课程里面抓取百度翻译的操作.原理其实也很简单,就是将浏览器请求的操作我们用python进行模拟,从而获取到返回的数据,我们将返回的数据进行提取,从而得到我 ...
教你用Python抓取百度翻译
最近一直在一个平台学习Python,所以分享下课程里面抓取百度翻译的操作.原理其实也很简单,就是将浏览器请求的操作我们用python进行模拟,从而获取到返回的数据,我们将返回的数据进行提取,从而得到我 ...
网络爬虫学习1 - 使用 requests.get(url) 抓取网页
网络爬虫MOOC学习打卡 - 第一天文章目录网络爬虫MOOC学习打卡 - 第一天一.使用 requests.get(url) 抓取网页 1.从cmd中打开idle 2.调用requests类 - ...

利用python3 requests和BeautifulSoup4抓取百度贴吧研究生录取通知书并展示

引言

爬虫代码

利用python3 requests和BeautifulSoup4抓取百度贴吧研究生录取通知书并展示相关推荐

最新文章

热门文章