python爬取学校题库_Python爬虫实战-获取某网站题库

爬取*网站题库

import requests

import re

import time

import html

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36'

'(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' #加入请求头

}

f = open('/Volumes/SHARE/Python/GetAcmText/Text.txt', 'a+') #在路径下创建文件名为Text.txt的文件

def get_info(url):

global i

i = i + 1

print(i) #用于观察

res = requests.get(url, headers=headers)

if res.status_code == 200: #判断网站是否为可访问

title = re.findall('

(.*?)

', res.content.decode('utf-8'), re.S)[1].strip() #正则获取题目名

describes = re.findall('

(.*?)', res.content.decode('utf-8'), re.S)

describe = describes[0].strip()

tinput = describes[1].strip()

toutput = describes[2].strip()

einput = re.findall('

(.*?)

', res.text, re.S)

eoutput = re.findall('

(.*?)

', res.text, re.S)

difficulity = re.findall('(.*?)', res.text, re.S)

f.write('***第'+str(i)+'题***'+'\n') #写入文件到指定目录

f.write('\n'+'《'+title+'》'+'\n')

f.write('难度：'+difficulity[0]+'\n')

f.write('\n'+'描述'+'\n'+re.sub('
', '', html.unescape(describe))+'\n')

f.write('\n'+'输入'+'\n'+re.sub('
', '', html.unescape(tinput))+'\n')

f.write('\n'+'输出'+'\n'+re.sub('
', '', html.unescape(toutput))+'\n')

f.write('\n'+'样例输入' + '\n' + re.sub('
', '', html.unescape(einput[0])) + '\n')

f.write('\n'+'样例输出' + '\n' + re.sub('
', '', html.unescape(eoutput[0])) + '\n')

f.write('---------------------------------------'+'\n')

else: #不可访问直接跳过

pass

if __name__ == '__main__':

i = 0

urls = ['http://acm.nyist.edu.cn/JudgeOnline/problem.php?pid={}'.format(str(j)) for j in range(364, 1256)] #构建爬虫网站

for url in urls:

get_info(url)

time.sleep(3) #延时防ban

f.close() #关闭文件流

点击下载

支付宝扫一扫

微信扫一扫

企鹅扫一扫

python爬取学校题库_Python爬虫实战-获取某网站题库相关推荐

python爬取学校教务管理系统_python爬虫模拟登陆学校教务处
最近在学python爬虫,我想教务处官网可能是每个学生第一个自己动手爬取的网站吧.而且很多学校的教务处没有验证码,很适合初学者练手. 环境准备本次模拟登陆用到的库除了requests外还有lxml, ...
python爬取历史天气查询_Python爬虫实战-爬取历史天气数据
最近项目需要对合肥市历史天气数据进行爬取,分析了几个天气数据网站,最终选择天气后报网站. 将实现过程遇到的问题以及下来,供以后参考. 步骤分析这里我使用的是Python中的requests库Beau ...
python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻！
无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...
python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片
随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...
python爬取链家新房_Python爬虫实战：爬取链家网二手房数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
python爬取小说项目概述_Python爬虫实战——爬取《斗破苍穹》全文小说（基于re模块）...
目标思路手动浏览前几章节,观察url网址变化,以下为前4章节网址: 可以看到,第1和第2章节没有明显规律,第2章节以后规律明显,通过数字递加来分页.手动输入http://www.doupoxs.c ...
python爬取数据的原理_Python爬虫原理
前言简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现我们眼前: 一.爬虫是什 ...
python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
python爬取网页数据软件_python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

python爬取学校题库_Python爬虫实战-获取某网站题库

(.*?)

python爬取学校题库_Python爬虫实战-获取某网站题库相关推荐

最新文章

热门文章