最近因为准备考研所以就把要考研的学校的招生简章给爬了下来
开机启动
我爬
我怕我忘了最新的学校通告所以才写的

首先确定目标~~
然后到研究生院查看资料
这里我就不讲了然后
这里进入正题

爬取页面

先是将页面保存的函数

def getpage(url):rep=requests.get(url,headers=header)rep=rep.text#rep=rep.decode("ISO-8859-1")rep=rep.encode("utf-8")#这里我将其变成了utf-8的编码所以之后我们写如文件的时候就要用网页的编码可以用rep.encoding查看网页编码#print repreturn rep

这里我转成utf-8编码是在cmd终端可以显示gbk编码的话在cmd会发生错误
用的是request模块header也就是发送的数据包头,防止服务器认为是脚本(通俗一点就是模拟浏览器发送的数据包)

解析页面获得关键点

我只需要招生简章所以我用一个正则匹配获取关键的字符就行了

def parsehtml(wangye):global information_2021compil=r"<td .*><a href='.*' target='.*' title='(.*?)'>"compil1=r"<td .*><a href='(.*)' target='.*' title='.*?'>"aim=re.findall(compil,wangye)aim2=re.findall(compil1,wangye)for i in aim2:if "2021" in i:information_2021.append(i)#print aimreturn aim

ps
这里我多加了一个事2021的招生简章如果出现就会存到另外一个数组因为我是2021的emem

将爬取到的字符写入文本

直接写入文本通过with open
用with open的话就不用写close函数了调用之后就会关闭
还有这里最好写入的编码和网页的编码一致就会写成不然文件就会是乱码
不然在一开始或许可以不变编码直接写入(ps我没试过)

def write_to_txt(list1):with open('jianzhang.txt','wb+') as f:for i in b:try:i=i.encode("ISO-8859-1")f.writelines(i+'\n')except Exception as e:print e

2021的招生简章保存成网页

def get_2021(list2):url="http://grs.hdu.edu.cn/"for i in list2:true_url=url+itry:reponse=requests.get(true_url,headers=header)reponse=reponse.textwith open('./%s.html','w') as f1:f1.write(reponse)except Exception as e:print e

招生简章的网页都是通过上面拼接而成的所以就按正常的写就行了

然后将python脚本写一个批处理加入开机启动

我们通过cmd打开开机启动的文件夹直接输入shell:startup
即可以打开写一个简单批处理

python E:\spider\day14\day14.py
pause

(最好将写文件的路径改一下不然就会出现权限的问题~~)

最后附脚本

#coding=utf-8
import requests
import re
import os
import sys
reload(sys)
sys.setdefaultencoding('utf8')
#sys.setdefaultencoding('gb18030')header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36","Referer":"http://grs.hdu.edu.cn/"
}information_2021=[]def getpage(url):rep=requests.get(url,headers=header)rep=rep.text#rep=rep.decode("ISO-8859-1")rep=rep.encode("utf-8")#这里我将其变成了utf-8的编码所以之后我们写如文件的时候就要用网页的编码可以用rep.encoding查看网页编码#print repreturn repdef parsehtml(wangye):global information_2021compil=r"<td .*><a href='.*' target='.*' title='(.*?)'>"compil1=r"<td .*><a href='(.*)' target='.*' title='.*?'>"aim=re.findall(compil,wangye)aim2=re.findall(compil1,wangye)for i in aim2:if "2021" in i:information_2021.append(i)#print aimreturn aimdef write_to_txt(list1):with open("E:\\spider\\day14\\jianzhang.txt",'wb+') as f:for i in b:try:i=i.encode("ISO-8859-1")f.writelines(i+'\n')except Exception as e:print edef get_2021(list2):url="http://grs.hdu.edu.cn/"for i in list2:true_url=url+itry:reponse=requests.get(true_url,headers=header)reponse=reponse.textwith open('E:\\spider\\day14\\%s.html','w') as f1:f1.write(reponse)except Exception as e:print eif __name__=="__main__":url="http://grs.hdu.edu.cn/1722/list.htm"a=getpage(url)    b=parsehtml(a)write_to_txt(b)get_2021(information_2021)

感谢观看

考研学校的爬虫(自己写的可能会有点菜相关推荐

  1. 软件工程考C语言的学校,软件考研学校排名,软件工程性价比较高的考研学校有哪些?...

    今天小编先给大家讲一下关于考研的一些事情,我发现很多同学对于考研还是云里雾里的,连考研有哪些科目都不清楚.软件考研学校排名对于考研,小编认为选择比努力重要,动力很大程度决定了你的结果,希望通过二本软件 ...

  2. 互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

    系列教程: 互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门) 上一节课我们一起通过一个p2p网贷爬虫,深入了解了一下XPath以及其在最终实际使用中的写法.可以毫不夸张的说,对于写简单爬 ...

  3. 计算机专业数学专业考研学校排名,数学专业考研院校推荐

    原标题:数学专业考研院校推荐 最近一段时间,后台有较多学生对数学方面考研院校有疑问,给大家整理了一篇数学专业考研院校的推荐,一起看看有没有你中意的那一所吧. 1 基础数学(应用数学) 专业概况: 数学 ...

  4. 计算机考研地域重要还是学校,考研选城市还是选大学?想知道考研学校重要还是地域重要...

    考研选城市还是选大学?想知道考研学校重要还是地域重要 在中国,每个省份少则有几十家高校,多则有上百家高校,其中有硕士点.博士点的高校也不乏其数,如何选择学校也是事关学业有成.就业无忧的一门学问,对于考 ...

  5. 土木工程与计算机专业考研学校排名,土木工程专业考研学校排名

    土木工程专业考研学校排名情况如何?想了解土木工程专业考研的朋友快来看看,下面出国留学网小编为你准备了"土木工程专业考研学校排名"内容,仅供参考,祝大家在本站阅读愉快! 土木工程专业 ...

  6. 通信工程与计算机考研学校排名,2019-2020信息与通信工程专业考研学校排名

    原标题:2019-2020信息与通信工程专业考研学校排名 2019-2020信息与通信工程专业考研学校排名[教育部] 2019-2020年考研时,信息与通信工程专业考研学校排名情况怎样是广大考研学子十 ...

  7. 二本考生计算机考研建议哪个学校,一般二本建议考研学校都有哪些

    上海理工大学.浙江师范大学.西南大学等都是二本院校考研可以选择的高校.考研和你未来的职业挂钩,具体选择哪个学校还是根据自身的实际情况综合考虑. 适合二本学生考研的高校 1.上海理工大学 上海理工大学是 ...

  8. 计算机考研学校好又好考的是,考研最容易的985大学 考研院校难度排名

    考研不容易,考985名校更是困难加倍.下文有途网小编给大家整理了考研难度985院校排名情况,供参考! 985大学考研难度排名 考研难度第一档:北京大学.清华大学. 考研难度第二档:复旦大学.中国人民大 ...

  9. 计算机 网络安全 研究生专业大学排名,网络空间安全专业考研学校排名

    第十期开班时间:2021年6月3日 抢先领取全套VIP视频教程 +10天免费学习名额   已有8166人参加 视频课程 网络安全课程|渗透测试课程|web安全课程|代码审计课程 姓名 选填 电话 立即 ...

最新文章

  1. ABA问题的本质及其解决办法
  2. iOS安全之ipa 包重签名的3种方法
  3. 在linux上搭建本地yum源
  4. 用多媒体库 Bass.dll 播放 mp3 [15] - 设置与获取播放速度
  5. java的Random类
  6. java取整数位_java获取整数的各位数值
  7. linux下搭建博客day4注册git账号
  8. mysql、oracle在Linux和Windows下的简单自动备份
  9. SWF也能修改!硕思闪客精灵专业Flash反编译工具
  10. 横幅(banner)设计的成功技术
  11. 申请开通自媒体账号的署名文章
  12. An Indexable Time Series Dimensionality Reduction Method for Maximum Deviation Reduction and Simi...
  13. ubuntu中安装卸载mysql8.0及修改密码
  14. TOP -P XXXX 查看进程的资源占用率
  15. 虽然不信god,但是技术上还是算是有信yan的人吧
  16. java基于ssm开发的好看的家装网装修网站装修系统有源码有论文
  17. 【Leetcode刷题Python】494. 目标和
  18. nfc免root写卡,nfc真正免root的
  19. 《安富莱嵌入式周报》第272期:2022.06.27--2022.07.03
  20. Shell脚本学习笔记——paste

热门文章

  1. getattr()函数解析
  2. 淘宝商品SKU接口、DESC信息、淘宝产品详情API
  3. 蓝桥杯训练总结(收官)
  4. android碎片实验报告,三年级下册科学实验报告模板1篇
  5. Succi - 用python做皇帝的棋盘
  6. linux登录mysql
  7. 微信号,公众平台账号,开放平台账号的区别
  8. 把Excel转换成xml文件
  9. Rust GUI 编程漫谈:超越 Web 与原生 GUI
  10. 超详细的集合思维导图