python爬取学校题库_Python爬虫实战-获取某网站题库
爬取*网站题库
import requests
import re
import time
import html
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36'
'(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' #加入请求头
}
f = open('/Volumes/SHARE/Python/GetAcmText/Text.txt', 'a+') #在路径下创建文件名为Text.txt的文件
def get_info(url):
global i
i = i + 1
print(i) #用于观察
res = requests.get(url, headers=headers)
if res.status_code == 200: #判断网站是否为可访问
title = re.findall('
(.*?)
', res.content.decode('utf-8'), re.S)[1].strip() #正则获取题目名
describes = re.findall('
(.*?)', res.content.decode('utf-8'), re.S)
describe = describes[0].strip()
tinput = describes[1].strip()
toutput = describes[2].strip()
einput = re.findall('
(.*?)
', res.text, re.S)
eoutput = re.findall('
(.*?)
', res.text, re.S)
difficulity = re.findall('(.*?)', res.text, re.S)
f.write('***第'+str(i)+'题***'+'\n') #写入文件到指定目录
f.write('\n'+'《'+title+'》'+'\n')
f.write('难度:'+difficulity[0]+'\n')
f.write('\n'+'描述'+'\n'+re.sub('
', '', html.unescape(describe))+'\n')
f.write('\n'+'输入'+'\n'+re.sub('
', '', html.unescape(tinput))+'\n')
f.write('\n'+'输出'+'\n'+re.sub('
', '', html.unescape(toutput))+'\n')
f.write('\n'+'样例输入' + '\n' + re.sub('
', '', html.unescape(einput[0])) + '\n')
f.write('\n'+'样例输出' + '\n' + re.sub('
', '', html.unescape(eoutput[0])) + '\n')
f.write('---------------------------------------'+'\n')
else: #不可访问直接跳过
pass
if __name__ == '__main__':
i = 0
urls = ['http://acm.nyist.edu.cn/JudgeOnline/problem.php?pid={}'.format(str(j)) for j in range(364, 1256)] #构建爬虫网站
for url in urls:
get_info(url)
time.sleep(3) #延时防ban
f.close() #关闭文件流
点击下载
支付宝扫一扫
微信扫一扫
企鹅扫一扫
python爬取学校题库_Python爬虫实战-获取某网站题库相关推荐
- python爬取学校教务管理系统_python爬虫模拟登陆学校教务处
最近在学python爬虫,我想教务处官网可能是每个学生第一个自己动手爬取的网站吧.而且很多学校的教务处没有验证码,很适合初学者练手. 环境准备 本次模拟登陆用到的库除了requests外还有lxml, ...
- python爬取历史天气查询_Python爬虫实战-爬取历史天气数据
最近项目需要对合肥市历史天气数据进行爬取,分析了几个天气数据网站,最终选择天气后报网站. 将实现过程遇到的问题以及下来,供以后参考. 步骤分析 这里我使用的是Python中的requests库Beau ...
- python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻 !
无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...
- python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片
随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...
- python爬取链家新房_Python爬虫实战:爬取链家网二手房数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
- python爬取小说项目概述_Python爬虫实战——爬取《斗破苍穹》全文小说(基于re模块)...
目标 思路 手动浏览前几章节,观察url网址变化,以下为前4章节网址: 可以看到,第1和第2章节没有明显规律,第2章节以后规律明显,通过数字递加来分页.手动输入http://www.doupoxs.c ...
- python爬取数据的原理_Python爬虫原理
前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现我们眼前: 一.爬虫是什 ...
- python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
- python爬取网页数据软件_python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
最新文章
- 【HNOI2011】数学作业(BZOJ 2326)
- 简评《疯狂的石头》《超人归来 / Superman Returns》《谍中谍 3 / Mission Impossible 3》...
- vbox设置剪切板共享
- 计算机英语潘雪峰,《小学三年级英语听力训练指导策略的研究》研究报告
- 完美实现苹果轮廓检测opencv-python检测图像轮廓处理
- 如果只想推广俄语语言市场该如何利用谷歌?
- 【C语言每日一练——第1练:字母大小写转换】
- 从零搭建WebApi接口开发框架-接口规范
- memset 和 bzero的效率测试。
- Trunk和Access分析
- python动作捕捉_树莓派动作捕捉抓拍存储图像脚本
- leetcode刷题250天(65)——1823. 找出游戏的获胜者(约瑟夫环问题)
- nginx的快速入门
- ANTMINER KA3 波卡链Polkadot绝对王者
- 人工智能之华为云5G基站有AI,智能处理流量“潮汐”
- 暴笑小笑话集(全是最新经典!)
- functools 可调用对象上的高阶函数和操作
- 四川省阿坝藏族羌族自治州谷歌高清卫星地图下载
- 短视频去水印api接口分析
- Python 与金融科技3|数据的重采样与蜡烛图(K线图)的绘制
热门文章
- Matlab运用mapping包在地图上绘制散点图
- CVPR2022:Generalizable Cross-modality Medical Image Segmentation via StyleAugmentation and Dual Norm
- webrtc-audio-processing pulseaudio最新版本1.0交叉编译到ARM
- android模拟器设置静态ip,静态IP地址版EVE模拟器部署和使用说明
- java哪些类重写equals方法_Java自定义类中重写equals方法
- PS怎样把低像素图片变成高像素图片
- java dao 是什么_dao java是什么
- cortana小娜不能文字搜索,只能用语音搜索【修复教程】
- vue鼠标悬停更改图片
- keras训练过程中发生的一些报错及其解决办法