教务系统爬虫工作初步完成

关于教务系统的一系列爬取工作已经初步完成,Holi爬虫组的工作也算正式进入优化阶段。
我们需要根据后台组的需要,转换成CVS或数据库形式。需要和后台组进行商量。

实现的功能

模拟登陆

  • 此为爬取数据的第一步,之前试过很多方法,遇到的问题也各种各样。

问题的解决:

模拟登陆需要很多东西,一定要根据抓包来进行数据分析,分析报头的组成形式,再模拟报头所需的东西进行模拟post。

  • 模拟登陆作为爬取教务系统的第一步,花的时间也比较久。在学习模拟登陆上也花了很多时间。

  • 通过此次模拟登录的实现,了解到了从发送其请求,到浏览器解析出的网页的整个过程。

鲁棒性问题:

之前缺少所需的报头消息而意外的触发了教务系统的验证码机制。现在报头已经完整,只要学号密码正确是不会触发验证码机制的。但是,如果学号或密码输入错误,是会触发验证码机制的。简单的验证码可以使用Python来进行OCR识别,但是教务处的验证码比较复杂。此问题的解决方案暂定为讲验证码图片呈现给用户,让其进行手动输入。

课表的爬取

  • 课表的行列组合比较复杂,这里只是简单的把课表消息从HTML中解析出来。

  • 后期的工作重点仍在HTML解析和数据处理方面。需要和后台组沟通。

  • 课表的技术文档在上一次文档中简单讲过,现在为了整体阅读性,将其搬移过来:

1、init():两个URL分别为用抓包软件获取的实际登录网址和实际提交账号密码的网址。
2、login():用抓包软件获取的用Chrome浏览器登录教务处的head报文,login()为模拟登录教务处的所需信息。
3、Print():将登录进去的课程表HTML网页打印出来。
4、使用前请确认安装BeautifulSoup模块。请修改里面的学号id和password再进行运行。
5、后续将从HTML网页中提取出有用的信息。
6、运行login()后便可以登录进教务处系统,修改Print()中的URL即可完成不同信息的获取,比如换成成绩网页的URL、教务通知的URL等等。

成绩查询

  • 在 Print 函数中将 get 的网址换成课表的网址即可进行爬取。

  • 对返回的HTML进行了简单的解析,提取了简单的标签,获取的数据可读性不是很强。

  • 与课表的问题一样,后期的重点仍在数据处理。

通知公告的爬取

在西电,最令人烦恼就是你今天去上课了,可是老师翘课了!!!

  • 一般情况下学生是不会经常去刷教务处网页的,但是教务系统有一个滚动的通知公告。

  • 只要有老师在上面发布调课通知或考试通知,上面就显示。

  • 这上面的公告是全校性的。

  • 同理,这个网页的解析提取比较简单,数据看起来也很和谐。

我的消息

  • 只要用户的老师翘课或者出成绩,个人就会收到该通知。

  • 这个功能的实现,也可以解决后台组一直提倡的个性化推送,教务处已经帮咱们实现了,哈哈哈!

  • 后期我们只需要隔断时间判断是否有新的通知产生即可得到最新的消息,弹窗通知给用户即可。

待解决的问题

数据处理!!这个的工作量和爬取来比还是比较大的。

但是已经迈出了第一步,后面的路会好走许多。

come on !

附代码,作备份。

1、课表

#Python35 爬虫 西电 研究生教务处 课表
#注:请修改login()学号密码进行爬取
#肖洒 2017/1/19 V1.0
# -*-encoding:utf-8-*-
# coding=utf-8
__author__ = 'ysc'
import requests
import csv
from bs4 import BeautifulSoupclass ScrapeGrade:def __init__(self, auth_url=None, log_url=None):if not auth_url:self.auth_url = "http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp"self.log_url = "http://jwxt.xidian.edu.cn/caslogin.jsp"else:self.auth_url = auth_urlself.log_url = log_urlself.session = requests.Session()def login(self, id='学号', password='密码'):r = self.session.get(self.auth_url)data = r.textbsObj = BeautifulSoup(data, "html.parser")lt_value = bsObj.find(attrs={"name": "lt"})['value']exe_value = bsObj.find(attrs={"name": "execution"})['value']params = {'username': id, 'password': password,"submit": "", "lt": lt_value, "execution": exe_value,"_eventId": "submit", "rmShown": '1'}headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0",'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3","Accept-Encoding": "gzip, deflate","Referer": "http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp","Content-Type": "application/x-www-form-urlencoded"}s = self.session.post(self.auth_url, data=params, headers=headers)s = self.session.get(self.log_url)def Print(self):grade_page = self.session.get("http://yjsxt.xidian.edu.cn/eduadmin/findCaresultByStudentAction.do")bsObj2 = BeautifulSoup(grade_page.text, "html.parser")nameList = bsObj2.findAll("td", {"class":"textCenter"})for name in nameList:print(name.get_text())if __name__ == '__main__':# 初始化爬虫对象sg = ScrapeGrade()# 登录(在此处传入正确的个人学号与密码信息)sg.login(id='学号', password='密码')sg.Print()

2、通知公告

#Python35 爬虫 西电研究生教务处 通知公告
#注:请修改 login()学号密码进行爬取
#肖洒 2017/1/25 V1.0
# -*-encoding:utf-8-*-
# coding=utf-8
__author__ = 'ysc'
import requests
import csv
from bs4 import BeautifulSoupclass ScrapeGrade:def __init__(self, auth_url=None, log_url=None):if not auth_url:self.auth_url = "http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp"self.log_url = "http://jwxt.xidian.edu.cn/caslogin.jsp"else:self.auth_url = auth_urlself.log_url = log_urlself.session = requests.Session()def login(self, id='学号', password='密码'):r = self.session.get(self.auth_url)data = r.textbsObj = BeautifulSoup(data, "html.parser")lt_value = bsObj.find(attrs={"name": "lt"})['value']exe_value = bsObj.find(attrs={"name": "execution"})['value']params = {'username': id, 'password': password,"submit": "", "lt": lt_value, "execution": exe_value,"_eventId": "submit", "rmShown": '1'}headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0",'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3","Accept-Encoding": "gzip, deflate","Referer": "http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp","Content-Type": "application/x-www-form-urlencoded"}s = self.session.post(self.auth_url, data=params, headers=headers)s = self.session.get(self.log_url)def Print(self):grade_page = self.session.get("http://yjsxt.xidian.edu.cn/info/findAllBroadcastMessageAction.do?flag=findAll")bsObj2 = BeautifulSoup(grade_page.text, "html.parser")nameList = bsObj2.findAll("td", {"class":"textTop"})for name in nameList:print(name.get_text())if __name__ == '__main__':# 初始化爬虫对象sg = ScrapeGrade()# 登录(在此处传入正确的个人学号与密码信息)sg.login(id='学号', password='密码')sg.Print()

3、成绩查询

#Python35 爬虫 西电研究生教务处 成绩查询
#注:请修改login()学号密码进行爬取
#肖洒 2017/02/01 V1.0
# -*-encoding:utf-8-*-
# coding=utf-8
__author__ = 'ysc'
import requests
import csv
from bs4 import BeautifulSoupclass ScrapeGrade:def __init__(self, auth_url=None, log_url=None):if not auth_url:self.auth_url = "http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp"self.log_url = "http://jwxt.xidian.edu.cn/caslogin.jsp"else:self.auth_url = auth_urlself.log_url = log_urlself.session = requests.Session()def login(self, id='学号', password='密码'):r = self.session.get(self.auth_url)data = r.textbsObj = BeautifulSoup(data, "html.parser")lt_value = bsObj.find(attrs={"name": "lt"})['value']exe_value = bsObj.find(attrs={"name": "execution"})['value']params = {'username': id, 'password': password,"submit": "", "lt": lt_value, "execution": exe_value,"_eventId": "submit", "rmShown": '1'}headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0",'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3","Accept-Encoding": "gzip, deflate","Referer": "http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp","Content-Type": "application/x-www-form-urlencoded"}s = self.session.post(self.auth_url, data=params, headers=headers)s = self.session.get(self.log_url)def Print(self):grade_page = self.session.get("http://yjsxt.xidian.edu.cn/queryScoreByStuAction.do")bsObj2 = BeautifulSoup(grade_page.text, "html.parser")nameList = bsObj2.findAll("td")for name in nameList:print(name.get_text())if __name__ == '__main__':# 初始化爬虫对象sg = ScrapeGrade()# 登录(在此处传入正确的个人学号与密码信息)sg.login(id='学号', password='密码')sg.Print()

4、我的消息

#Python35 爬虫 西电研究生教务处 我的消息(系统消息、成绩提示等)
#注:请修改login()学号密码进行爬取
#肖洒 2017/02/01 V1.0
# -*-encoding:utf-8-*-
# coding=utf-8
__author__ = 'ysc'
import requests
import csv
from bs4 import BeautifulSoupclass ScrapeGrade:def __init__(self, auth_url=None, log_url=None):if not auth_url:self.auth_url = "http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp"self.log_url = "http://jwxt.xidian.edu.cn/caslogin.jsp"else:self.auth_url = auth_urlself.log_url = log_urlself.session = requests.Session()def login(self, id='学号', password='密码'):r = self.session.get(self.auth_url)data = r.textbsObj = BeautifulSoup(data, "html.parser")lt_value = bsObj.find(attrs={"name": "lt"})['value']exe_value = bsObj.find(attrs={"name": "execution"})['value']params = {'username': id, 'password': password,"submit": "", "lt": lt_value, "execution": exe_value,"_eventId": "submit", "rmShown": '1'}headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0",'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3","Accept-Encoding": "gzip, deflate","Referer": "http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp","Content-Type": "application/x-www-form-urlencoded"}s = self.session.post(self.auth_url, data=params, headers=headers)s = self.session.get(self.log_url)def Print(self):grade_page = self.session.get("http://yjsxt.xidian.edu.cn/info/findAllMessageAction.do")bsObj2 = BeautifulSoup(grade_page.text, "html.parser")nameList = bsObj2.findAll("li")for name in nameList:print(name.get_text())if __name__ == '__main__':# 初始化爬虫对象sg = ScrapeGrade()# 登录(在此处传入正确的个人学号与密码信息)sg.login(id='学号', password='密码')sg.Print()

爬虫_西电研究生教务系统_技术文档相关推荐

  1. virtualbox中文技术文档_随笔--西门子STEP7中如何寻找技术文档

    西门子STEP7软件支持的编程语言除了常用的LAD/FBD/STL,还有SCL/GRAPH等,应该说除了LAD/STL之外,SCL和GRAPH也是比较常用的,至少对我个人来说是这样,但是每种指令在不同 ...

  2. java开发文档怎么写_程序员该不该写技术文档,怎么写文档,易懂又能提升自己...

    最近公司项目的调用量突然涨了一大波,很多系统都纷纷扛不住了,于是需要对系统进行优化,系统优化的第一步,便是梳理业务! 在这个过程中,经常出现了这样一些情况,发现数据库的某些字段,没有注释,也没有一定的 ...

  3. 基于java ssm springboot女士电商平台系统源码+文档设计

    作者主页:Java李杨勇 简介:Java领域优质创作者.[Java李杨勇]公号作者  简历模板.学习资料.面试题库.技术互助[关注我,都给你] 文末获取源码 主要技术:spring, springmv ...

  4. 模拟登陆西电研究生教务处(爬虫1)

    一.HTTP协议 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写. 用于从WWW服务器传输超文本到本地浏览器的传送协议. HTTP的请求响应模型 客户端发起 ...

  5. 西电研究生毕业论文latex模板使用指南

    西电研究生毕业论文latex模板使用指南 记录西电研究生毕业论文latex模板过程中一些需要更改的地方 下载学校提供的latex模板后,在winEdt7.0中运行templet.tex,根据提示安装需 ...

  6. 西电研究生矩阵论必会证明题

    西电研究生矩阵论必刷必会证明题!

  7. python3爬虫模拟登录爬取教务系统成绩单(获取cookie操作)

    前言 今天来写写爬取教务系统的爬虫,此次的爬虫目的是爬取教务系统里面的成绩单,涉及到的库依旧是selenium,re,beautifulsoup,Options,今天多了个csv库用来处理爬取的数据, ...

  8. 基于Java毕业设计研究生推免系统源码+系统+mysql+lw文档+部署软件

    基于Java毕业设计研究生推免系统源码+系统+mysql+lw文档+部署软件 基于Java毕业设计研究生推免系统源码+系统+mysql+lw文档+部署软件 本源码技术栈: 项目架构:B/S架构 开发语 ...

  9. 计算机毕业设计springboot教务管理系统l7srg源码+系统+程序+lw文档+部署

    计算机毕业设计springboot教务管理系统l7srg源码+系统+程序+lw文档+部署 计算机毕业设计springboot教务管理系统l7srg源码+系统+程序+lw文档+部署 本源码技术栈: 项目 ...

最新文章

  1. 表单标签form、label、input、textarea、select
  2. MPB:利用无菌植物和可培养细菌体系研究根系微生物组功能
  3. java返回json ajax_Spring MVC 中 AJAX请求并返回JSON的示例
  4. python中import cv2遇到的错误及安装方法_独家利用OpenCV,Python和Ubidots来构建行人计数器程序(附代码amp;解析)...
  5. php 刷新iframe,js刷新iframe
  6. 算法题目——多米诺骨牌问题(POJ-2663)
  7. EBS业务学习之应付INVOICE类型
  8. c语言solaris中图形库,成功弄出simics下的CDE登录界面,与大家分享
  9. 再送一波干货,测试2000线程并发下同时查询1000万条数据库表及索引优化
  10. Qt调用face++的http接口,实现人脸对比
  11. 排序 oracle,oracle排序
  12. 《构建之法》课程总结及建议
  13. 使用sklearn进行数据挖掘
  14. 《监控》其实是讲一个年轻人彻底社会化的过程
  15. jpeg 转rgb c 语言_威刚推出SE770G移动固态硬盘 主打高速传输和RGB灯效
  16. substrate 学习记录(一):Substrate 安装 + 创建测试链 + 启动私有网络
  17. HTTP基础知识你知道吗?
  18. 网络安全实验室—脚本关
  19. 滴水三期:day44.2-虚函数表
  20. java 生成纯色图片_canvas简单实现纯色背景图片抠图(示例代码)

热门文章

  1. MDN Web Docs
  2. 众多OA办公协同系统,企业应如何选择?
  3. arduino的学习过程
  4. kettle spoon判断增量更新_Kettle增量更新设计技巧
  5. 使用FFMPEG——4.2.2版本实现提取视频编码解码文件,ffmpeg基础学习。
  6. MATLAB应用:第二章-基本使用方法
  7. 金属有机骨架材料Fe3O4@ZIF-67|Fe3O4@ZIF-8;甲硫基官能化MIL-101(Cr)负载银纳米粒子
  8. spring引入多个properties文件
  9. 【纯萌新】初学KOA的一些避雷一点点经验
  10. 我的独家快速美容去痘秘方