前言

前段时间,报名个软件设计师考试,自然需要复习嘛,看到软考在线这个平台有历年来的题目以及答案,想法就是做一个题库小程序咯,随时随地可以打开复习。很多人问,这不出现很多类似的小程序了?是的,但是他们的要不需要付费,要不一大堆广告,这激发我自己做一个小程序的想法。

实战爬取题库

随便找一科(这里就拿软件设计师上午题吧)

进入某一道题目点击查看答案,会出现要开通权限才行,正好有一个免费开通的方式,通过IP数量兑换(这么说,这种营销模式很ok,达到宣传效果。但是咧,爱折腾的博主就是爱折腾,怎么能够说我要找几十个人帮我点击一下链接吧。) **敲重点啦,**你用手机浏览器打开刚刚官方给链接,切换飞行模式就可以实现获得IP的方法。博主吐槽的是浏览器竟然不做缓存处理,随便就可以得到IP。

接着分析ajax中获取答案

  • 首先试下复制红色框中url链接直接浏览器打开,OK,发现能够打开,说明没有做任何接口限制,所以可以推断前面通过IP数量兑换权限天数的是一个形同虚设的东西。

  • 接着分析url中参数的意思,product_id、tixing、answer、paper_id、tihao、cache这几个参数。猜测product_id应该唯一的东西,请求接口应该只需要这个参数就ok吧。实践是检验真理的唯一标准。把链接改成如下,只有product_id传入参数尝试,能打开并且可以显示出需要的答案。鉴定猜想没有问题。

    http://www.rkpass.cn/tk_jiexi.jsp?product_id=201811151131523818812&tixing=xuanze&answer=&paper_id=&tihao=&cache=
    复制代码
  • 如何获取product_id?既然是唯一性的东西,这值肯定会后端回传过来,如果后端没有分离那肯定渲染在html中,若是前后端完全分离那肯定包含在请求题目的接口中。很巧,不是前后端完全分离的项目,那肯定是在html中咯,常规操作鼠标右键->显示网页源代码->Ctrl+F搜索就完事。果不其然,出现想要的的值。

上面两步是分析的过程,下午题也是差不多啦。剩下的就是爬下来并且存入数据库中就OK。

这是博主自己用Python3+scrapy爬取实现代码Python基于Scrapy爬取www.rkpass.cn题目,赶紧star吧,支持下博主。

转载于:https://juejin.im/post/5c15f74a6fb9a049c965934e

基于Python、scrapy爬取软考在线题库相关推荐

  1. 基于java软考在线题库系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署

    基于java软考在线题库系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署 基于java软考在线题库系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署 本源码技术栈: ...

  2. 计算机毕业设计JAVA软考在线题库系统mybatis+源码+调试部署+系统+数据库+lw

    计算机毕业设计JAVA软考在线题库系统mybatis+源码+调试部署+系统+数据库+lw 本源码技术栈: 项目架构:B/S架构 开发语言:Java语言 开发软件:idea eclipse 前端技术:L ...

  3. java毕业设计软考在线题库系统mybatis+源码+调试部署+系统+数据库+lw

    java毕业设计软考在线题库系统mybatis+源码+调试部署+系统+数据库+lw java毕业设计软考在线题库系统mybatis+源码+调试部署+系统+数据库+lw 本源码技术栈: 项目架构:B/S ...

  4. Java毕设项目软考在线题库系统(java+VUE+Mybatis+Maven+Mysql)

    Java毕设项目软考在线题库系统(java+VUE+Mybatis+Maven+Mysql) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Web ...

  5. java毕业设计软考在线题库系统(附源码、数据库)

    项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclis ...

  6. 基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据

    基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据 参考资料: 黑马程序员爬虫教程 静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...

  7. Python scrapy爬取京东,百度百科出现乱码,解决方案

    Python scrapy爬取京东 百度百科出现乱码 解决方案 十分想念顺店杂可... 抓取百度百科,出现乱码 把页面源码下载下来之后,发现全是乱码,浏览器打开 但是浏览器链接打开就没有乱码 以下是浏 ...

  8. Python+scrapy爬取36氪网

    Python+Scrapy爬取36氪网新闻 一.准备工作: ​ ①安装python3 ​ ②安装scrapy ​ ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...

  9. 软考刷题利器—软考云题库Web版

    之前有朋友说小程序刷题有时不太方便,想在电脑上刷题,能不能开发个Web版,后来就有了软考云题库的Web版. 项目采用了SpringBoot 2.0+JPA+Thymeleaf 模板+Bootstrap ...

最新文章

  1. oracle索引本地打钩,Oracle
  2. 课本学习笔记5:第七章 20135115臧文君
  3. python类相关的研究生专业-为什么很多大学生甚至研究生抛弃专业去做码农呢?...
  4. Nanopi NEO Air串口代码
  5. ngDialog 点击窗口以外不允许关闭弹窗
  6. 转载:Yahoo推出视频标签游戏
  7. mysql 以 db 结尾_MySQL的高级部分
  8. ubuntu安装zookeeper和kafka
  9. springcloud使用zipkin和rabbitmq进行服务链路追踪
  10. java 页面 传送参数,Struts2的action接收JSP页面传输的参数
  11. 1009 Product of Polynomials (25)(25 分)
  12. ros melodic控制真实机械臂之urdf模型生成
  13. 笔记《鸟哥的Linux私房菜》6 Linux的档案权限与目录配置
  14. vb.net 教程 8-15 数据库操作实例1
  15. Win10 迅雷9精简优化设置方法
  16. 汉字编码:区位码、国标码、机内码
  17. 关于数字签名驱动解决方法
  18. FPGA--(基于Quartus的FPAG程序下载与固化教程)VGA显示实验之上板测试
  19. 解决IDEA项目一直Updating Index
  20. python轻松实现与图灵机器人的人机交互

热门文章

  1. 深入探讨 Room 2.4.0 的最新进展
  2. UVM搭建 ------ 进阶DIY教程
  3. python爬虫影评_Python爬虫(二十)_动态爬取影评信息
  4. 转载篇:RabbitMQ安装步骤和出现Plugin configuration unchanged.和出现1067系统错误.总结
  5. python 合并表格
  6. php icon素材,Feather Icon - 简单漂亮的免费开源图标库
  7. 利用Windows11安卓子系统对APP进行渗透测试
  8. 高级商务办公软件应用【9】
  9. WMware安装win10
  10. 【OpenCV入门教程之十一】 形态学图像处理(二):开运算、闭运算、形态学梯度、顶帽、黑帽合辑