说明:个人练手python用。

操作系统:window10 x64

IDE:Pycharm 2017.2.2

Python版本:3.6.2

目标

牛客网是一个IT笔试面试的平台,提供了很多题库,今天我们使用python爬取其中的Java专项练习库。

步骤

1、接口抓取:如果是爬取网页,前后端分离的项目可以抓取接口,如果没有分离,则需要爬取整个网页然后使用正则筛选。这里我们直接抓取客户端接口即可。

2、模拟网络请求,获取数据(这里是json)

3、json解析,题目格式调整、写入文件

一、接口抓取

工具:Fiddler

对象:牛客网Android客户端2.21.3.3091

通过Fiddler发现,获取专项练习题的接口为:

http://m.nowcoder.com/test/get-all-question?t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&tid=10716711

这里:

t=02436CC60E649584D5C4BBF57709E5CA应该是用户身份标识

tid=10716711是本次练习的编号(Java专项练习一共900多道题,每次练习会随机组卷,组卷数量为5、10、20、30这些,这个tid就是组出的试卷的编号)

使用Fiddler模拟请求,就可以得到该tid对应10道题目的json数据了,由于每次请求tid没有变化,可以发现多次请求的json结果是一样的,类似下面的:

{

"data": {

"paper": {

......省略部分

"diffcult": 3,

"questionCount": 10,

......省略部分

},

"allQuestion": [

{

"score": 10,

"shielded": false,

"question": {

"content": "

\n 下列关于构造方法不正确的是:( \n )\n

\n

\n
\n

\n

\n
\n

",

"id": 69561,

"title": "下列关于构造方法不正确的是:( )",

"answer": [

{

"content": "类的构造方法和类同名",

"id": 111297,

"type": 0

},

......省略部分

],

......省略部分

},

"pos": 1

},

......省略部分

],

"userAnswers": [

{

"userAnswer": "111300",

"pos": 1

},

......省略部分

]

},

"code": 0,

"msg": "OK"

}

要想不一样,就需要不一样的tid了,发现生成tid的接口如下:

POST http://m.nowcoder.com/itest/request-make-paper HTTP/1.1

......省略部分request header

questionCount=10&tagIds=570&t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&source=1

这是一个post请求,可以发现在request body中的questionCount就是表明了本次组卷试题的数量。

这样思路就清晰了:

根据request-make-paper接口获取tid,这里我们指定questionCount为30

根据get-all-question接口,传入tid参数,获取此次组卷的30道题的json数据

然后分析这30道题中的字段的含义,解析、存储即可

二、网络请求

定义一个方法,用于post请求,返回响应的内容,如下:

def post_json_data(url, request_body):

req = request.Request(url)

# 根据需要设置请求头,比如模拟浏览器请求设置UA、一些身份权限认证字段等都会放到header里

req.add_header('OS', 'Android')

req.add_header('VERSION', '82')

req.add_header('CHANNEL', '360')

req.add_header('User-Agent', 'nowcoder android 2.21.3.3091')

# post请求,添加request body即可

with request.urlopen(req, data=request_body.encode('utf-8')) as f:

if f.status == 200:

result_json = json.loads(f.read())

return result_json

再定义一个方法,用于get请求,返回响应的内容,如下:

def get_json_data(url):

req = request.Request(url)

req.add_header('OS', 'Android')

req.add_header('VERSION', '82')

req.add_header('CHANNEL', '360')

req.add_header('User-Agent', 'nowcoder android 2.21.3.3091')

with request.urlopen(req) as f:

if f.status == 200:

result_json = json.loads(f.read())

return result_json

如果把添加到request header中的这些key-value的参数组成dict,就可以通过外部传入,方法中遍历添加,上面两个方法就可以作为工具方法了。

接下来组装post请求的request body中的参数

data_make_paper = parse.urlencode([

('questionCount', '30'),

('tagIds', '570'),

('t', '02436CC60E649584D5C4BBF57709E5CA'),

('fm', 'android_app_2.21.3.3091'),

('source', '1')

])

就可以发送网络请求,获取响应数据了:

result = post_json_data('http://m.nowcoder.com/itest/request-make-paper', data_make_paper)

url_get_questions = "http://m.nowcoder.com/test/get-all-question" + \

"?t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&tid=" + \

str(result['data'])

需要注意的是,需要引入request和parse模块:

from urllib import request,parse

三、json解析,题目格式调整、写入文件

先定义一个写入文件的方法,这里我们需要追加的形式写,也即后面写入的内容不能覆盖前面已经写入的:

def write_text(path, text, mode='a'):

with open(path, mode=mode, encoding="utf-8") as f:

f.write(text)

f.write("
")

mode = 'a'就表示追加的形式写入。

接下来就是json解析、添加一下格式(如题目编号,选项编号,题与题之间的空行等)、然后写入文件了,直接看代码:

all_questions = get_json_data(url_get_questions)['data']['allQuestion']

# 题号信息,由于获取的题目没有编号

n = 1

# 提取出来方便修改,如果有明确的题目数量,可以嵌套一层循环来循环获取n套题。这里我们获取1套题作为演示

# 之所以写入到html文件,是因为读取的题目中含有html的格式信息

questions_name = "第1套.html"

questions_answer_name = "第1套答案.html"

for item_question in all_questions:

# 获取题干信息

question = item_question['question']

question_type = ['(单选题)', '(不定项选择题)']

# 写入题目信息

write_text("C://python_test/"+questions_name, str(n)+". "+question_type[question['type']-1]+question['content'], 'a')

answer = question['answer']

answer_option = ''

index = 0

for item_answer in answer:

# 获取选项信息

answer_content = item_answer['content']

answer_index_list = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']

# 写入选项信息,加入ABCD等选项编号

write_text("C://python_test/"+questions_name, answer_index_list[index]+". "+answer_content, 'a')

# 获取type字段的值,为1表示该选项为正确答案

answer_type = item_answer['type']

if answer_type == 1:

# 获取正确答案

answer_option += answer_index_list[index]

index += 1

# 每题之间留空行

write_text("C://python_test/"+questions_name, '', 'a')

# 写入答案到另外一个文件中

write_text("C://python_test/"+questions_answer_name, str(n)+"."+'答案: ' + answer_option, 'a')

# 答案之间留空行

write_text("C://python_test/"+questions_answer_name, '', 'a')

# 编号自增

n += 1

注意引入json模块

import json

python中的json和dict直接对应,非常方便。

留个作业:

通过抓取答题接口,完成题目自动答题,保证每套题都得满分~

python简单实践作业答案_python入门实践四:爬取牛客网面试专项练习题及答案相关推荐

  1. 牛客网获取输入rowinput_Python爬虫入门例题:抓取牛客网题目

    最近做题的时候要写一些题解,在把牛客网的题目复制下来的时候,数学公式的处理比较麻烦,所以我用Python的selenium.urllib.request和BeautifulSoup4库对题目信息进行了 ...

  2. python爬取学校题库_如何使用 Python 爬虫爬取牛客网 Java 题库?

    [原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...

  3. 如何使用 Python 爬虫爬取牛客网 Java 题库?

    [原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...

  4. 牛客网SQL题目解析(答案+解析+理解)

    本文记录了牛客网sql全部题目的答案与难题解析,部分题目包含多种解法,并且涵盖了开窗函数等各种语法点的理解 标题中高亮的题目,是易错题 牛客网刷题链接:牛客网sql在线练习 本文所有语句使用mysql ...

  5. Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

    ####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...

  6. python爬取小说基本信息_python实战项目:爬取某小说网

    项目文档: 项目简介: 爬取某小说网首页中的全部小说,并储存到数据库中 项目版本 :python2.7.12 项目源码: 源码已上传 github: 源码github 项目总览: 1. 爬取小说首页中 ...

  7. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  8. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  9. Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据

    目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

最新文章

  1. 「最新」《美国人工智能未来20年研究路线图》
  2. 中国最懂自动驾驶量产公司秀肌肉:自动驾驶算力怪兽、百亿参数云端超大模型、百万公里路测里程...
  3. 71道Android开发面试题
  4. 提高工作效率必备神器
  5. 09丨缓存异常:如何解决缓存和数据库的数据不一致问题
  6. Visual C++——《可视化编程技术》实验报告——资源的应用—反弹的球
  7. wxWidgets:wxGraphicsRenderer类用法
  8. 层次分析法之matlab
  9. CMS设计和CMS选型(内容管理系统)
  10. LeetCode 14. 最长公共前缀 (单指针水平扫描)
  11. 社招2017-阿里、网易、滴滴共十次前端面试碰到的问题
  12. 最近两周的前后端交互
  13. c语言.h和.c连接错误,conio.h链接错误问题
  14. Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析
  15. 检测到在集成的托管管道模式下不适用的ASP.NET设置的解决方法(非简单设置为【经典】模式)
  16. android常用字体代码,Android TextView设置字体风格多种组合
  17. mysql入门1:建表、插入、单表查询练习题1
  18. 学生宿舍管理系统c语言程序设计,学生宿舍管理系统C语言编程.doc
  19. PySimpleGUI:快速开始
  20. MFC用户名和密码的登录界面设计

热门文章

  1. 关于Treap的学习感受
  2. 第一站---大连---看海之旅
  3. 编译原理(五)自底向上分析之算符优先分析法
  4. MVC阻止用户注入JavaScript代码或者Html标记
  5. Core Data系列三——基本使用
  6. java代码测试---插入排序和选择排序
  7. 【CentOS 6.5】QtCreator启动时关于dbus-1的错误解决方法
  8. Java中文乱码处理
  9. Postgre体系结构图
  10. string、char *、char []之间的相互转换