引言

又到一年广大准研究生收获的季节,各位准研究生陆续收到了待录取学校的通知书,为了纪念曾经感动自己的岁月,很多研究生小鲜肉在百度贴吧考研吧版块发了自己的录取通知书图片。楼主对各个学校的研究生录取通知书挺感兴趣,咱们不如做个爬虫,把图片都抓取下了一探究竟吧。

多图,用手机流量的同学要注意哦

爬虫代码

Talking is cheap,show me the code.

# -*- coding: utf-8 -*-
"""
Created on Sat Jul 11 21:31:39 2015@author: Kevin
"""
import requests
import re
from bs4 import BeautifulSoup
import time
#定义一个抓取录取通知书的类
class Admission:headers={'User-Agent':u'Mozilla/5.0 (Windows NT 6.1; rv:38.0) Gecko/20100101 Firefox/38.0'}#这是请求头baseURL='http://tieba.baidu.com/p/3805717173?pn='#这是抓取页面的基础地址,=后面为贴吧页码#获取贴吧页面个数def getPageNum(self):#获取帖子页数的正则表达式url=self.baseURL+str(1)#页码个数在第一页就能找到htmltext=requests.get(url,headers=self.headers).textpattern = re.compile('max-page="(.+?)" type="text"')result= int(re.findall(pattern,str(htmltext))[0])return result
#取得所有通知书的地址        def getURL(self,numpage):realalllinks=[]for num in range(0,(numpage+1)):url=baseURL+str(num)htmltext=requests.get(url,headers=self.headers).textSoup=BeautifulSoup(htmltext)admissions= Soup.find_all('img',class_='BDE_Image')#通知书地址所在地alllinks=[]for each in admissions:eachlink=each.get('src')alllinks.append(eachlink)time.sleep(5)realalllinks.extend(alllinks)return realalllinks#保存图片     def saveImage(self,imgUrls):lenimages=len(imgUrls)DstDir="D:\\Documents\\Python Scripts\\通知书\\"#这是我保存的下载目录for imageNum in range(lenimages):imageName=str(imageNum)+'.jpg'imageurl=imgUrls[imageNum]response = requests.get(imageurl, stream=True)image = response.contentrealname=DstDir+imageNametry:with open(realname,"wb") as jpg:jpg.write(image)     except IOError:print("IO Error\n")finally:jpg.closetime.sleep(1)ad=Admission()
pagenum=ad.getPageNum()#取得页码,共计23页
allurl=ad.getURL(pagenum)#取得地址,共计296张图片
ad.saveImage(allurl)#下载

这个爬虫比较简单,但是已经达到我们的目的。

下面晒一些名校的录取通知书吧,真是羡慕死我等屌丝学校同学。这里只上传了一部分,想看全部的请点击百度网盘的地址


















利用python3 requests和BeautifulSoup4抓取百度贴吧研究生录取通知书并展示相关推荐

  1. 百度关键词抓取工具_VBA利用XMLHTTP抓取百度查询关键词结果的个数

    大家好,我们今日讲解"利用XMLHTTP抓取百度查询关键词结果的个数",这节内容是"VBA信息获取与处理"教程中第六个专题"VBA中利用XMLHTTP ...

  2. 将vba做成应用程序_VBA利用XMLHTTP抓取百度查询关键词结果的个数

    大家好,我们今日讲解"利用XMLHTTP抓取百度查询关键词结果的个数",这节内容是"VBA信息获取与处理"教程中第六个专题"VBA中利用XMLHTTP ...

  3. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  4. python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容

    利用Python和Beautiful Soup抓取网页内容 Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑 收藏 Python 3中提供了url打 ...

  5. 【Python爬虫教学】百度篇·手把手教你抓取百度搜索关键词后的页面源代码

    [开门见山] 最近整理了下之前做过的项目,学的东西不少,乱七八糟.打算写点关于 Python 爬虫的东西,新人一枚,还望大佬们多多担待,别把我头给打歪了. 前面我先磨叽磨叽些基础的东西,对爬虫新人友好 ...

  6. Python爬虫采集抓取:Python3.x+Fiddler 采集抓取 APP 数据

    随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...

  7. python语言翻译-教你用Python抓取百度翻译

    最近一直在一个平台学习Python,所以分享下课程里面抓取百度翻译的操作.原理其实也很简单,就是将浏览器请求的操作我们用python进行模拟,从而获取到返回的数据,我们将返回的数据进行提取,从而得到我 ...

  8. 教你用Python抓取百度翻译

    最近一直在一个平台学习Python,所以分享下课程里面抓取百度翻译的操作.原理其实也很简单,就是将浏览器请求的操作我们用python进行模拟,从而获取到返回的数据,我们将返回的数据进行提取,从而得到我 ...

  9. 网络爬虫学习1 - 使用 requests.get(url) 抓取网页

    网络爬虫MOOC学习打卡 - 第一天 文章目录 网络爬虫MOOC学习打卡 - 第一天 一.使用 requests.get(url) 抓取网页 1.从cmd中打开idle 2.调用requests类 - ...

最新文章

  1. lisp 河道水面线计算_水面漂浮泡沫生活垃圾隔离拦载浮筒使用方法
  2. jvm性能调优实战 - 40 百万级数据误处理导致的频繁Full GC问题优化
  3. mysql怎么生成可执行文件_查询mysql数据库的java程序在myeclipse上运行正常,但生成可执行文件后查询不出结果。问题出在哪儿呢?...
  4. 关于使用墙外安卓应用
  5. asyncio 文件io高并发_用 asyncio 封装文件读写
  6. Kotlin Android Studio 环境搭建
  7. [转载] 聚类算法总结
  8. 使用WinIO库实现保护模式下的IO和内存读写(_inp,_outp)
  9. Linux驱动开发基础
  10. python3清屏命令_python3.4中清屏的处理方法
  11. 三角网导线平差实例_附合导线平差步骤
  12. 泛函分析复习笔记(二)线性算子与线性泛函
  13. win10声卡驱动问题:未检测到任何音频设备
  14. CAD注册表:Release Number、Product ID、Locale ID
  15. ps怎么抠地图线路_怎样在PS里画地图的边界线?
  16. 基于FPGA的映射调制实现
  17. 血管老化30岁就开始!别怕,吃它就能搞定,让血管保持年轻~
  18. 编写MTK6737平台的GPIO驱动例程(一)
  19. 深入探讨 Room 2.4.0 的最新进展
  20. lineageos信号叉号_Z1刷lineage os 14.1 15.1官方版后信号上叉号的清除教程

热门文章

  1. mysql处理百万级数据库常识(转载)
  2. 如何用ceres进行两帧之间的BA优化
  3. mac系统Command键几个小用法
  4. 面试题记录-- 对于软件测试的理解,测试的核心,测试策略
  5. 用python画简单的猴子画法_简笔画猴子画法的图片简单的教程
  6. 马斯克痛失大将!特斯拉自动驾驶将驶向何方?
  7. 前端开发指南:HTML5与CSS3知识点总结
  8. ISO/IEC 9126质量模型
  9. 理财-国债逆回购详细操作
  10. 第九课 如何选择银行理财?