爬取*网站题库

import requests

import re

import time

import html

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36'

'(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' #加入请求头

}

f = open('/Volumes/SHARE/Python/GetAcmText/Text.txt', 'a+') #在路径下创建文件名为Text.txt的文件

def get_info(url):

global i

i = i + 1

print(i) #用于观察

res = requests.get(url, headers=headers)

if res.status_code == 200: #判断网站是否为可访问

title = re.findall('

(.*?)

', res.content.decode('utf-8'), re.S)[1].strip() #正则获取题目名

describes = re.findall('

(.*?)', res.content.decode('utf-8'), re.S)

describe = describes[0].strip()

tinput = describes[1].strip()

toutput = describes[2].strip()

einput = re.findall('

(.*?)

', res.text, re.S)

eoutput = re.findall('

(.*?)

', res.text, re.S)

difficulity = re.findall('(.*?)', res.text, re.S)

f.write('***第'+str(i)+'题***'+'\n') #写入文件到指定目录

f.write('\n'+'《'+title+'》'+'\n')

f.write('难度:'+difficulity[0]+'\n')

f.write('\n'+'描述'+'\n'+re.sub('
', '', html.unescape(describe))+'\n')

f.write('\n'+'输入'+'\n'+re.sub('
', '', html.unescape(tinput))+'\n')

f.write('\n'+'输出'+'\n'+re.sub('
', '', html.unescape(toutput))+'\n')

f.write('\n'+'样例输入' + '\n' + re.sub('
', '', html.unescape(einput[0])) + '\n')

f.write('\n'+'样例输出' + '\n' + re.sub('
', '', html.unescape(eoutput[0])) + '\n')

f.write('---------------------------------------'+'\n')

else: #不可访问直接跳过

pass

if __name__ == '__main__':

i = 0

urls = ['http://acm.nyist.edu.cn/JudgeOnline/problem.php?pid={}'.format(str(j)) for j in range(364, 1256)] #构建爬虫网站

for url in urls:

get_info(url)

time.sleep(3) #延时防ban

f.close() #关闭文件流

点击下载

支付宝扫一扫

微信扫一扫

企鹅扫一扫

python爬取学校题库_Python爬虫实战-获取某网站题库相关推荐

  1. python爬取学校教务管理系统_python爬虫模拟登陆学校教务处

    最近在学python爬虫,我想教务处官网可能是每个学生第一个自己动手爬取的网站吧.而且很多学校的教务处没有验证码,很适合初学者练手. 环境准备 本次模拟登陆用到的库除了requests外还有lxml, ...

  2. python爬取历史天气查询_Python爬虫实战-爬取历史天气数据

    最近项目需要对合肥市历史天气数据进行爬取,分析了几个天气数据网站,最终选择天气后报网站. 将实现过程遇到的问题以及下来,供以后参考. 步骤分析 这里我使用的是Python中的requests库Beau ...

  3. python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻 !

    无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...

  4. python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片

    随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...

  5. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  6. python爬取小说项目概述_Python爬虫实战——爬取《斗破苍穹》全文小说(基于re模块)...

    目标 思路 手动浏览前几章节,观察url网址变化,以下为前4章节网址: 可以看到,第1和第2章节没有明显规律,第2章节以后规律明显,通过数字递加来分页.手动输入http://www.doupoxs.c ...

  7. python爬取数据的原理_Python爬虫原理

    前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现我们眼前: 一.爬虫是什 ...

  8. python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  9. python爬取网页数据软件_python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

最新文章

  1. 【HNOI2011】数学作业(BZOJ 2326)
  2. 简评《疯狂的石头》《超人归来 / Superman Returns》《谍中谍 3 / Mission Impossible 3》...
  3. vbox设置剪切板共享
  4. 计算机英语潘雪峰,《小学三年级英语听力训练指导策略的研究》研究报告
  5. 完美实现苹果轮廓检测opencv-python检测图像轮廓处理
  6. 如果只想推广俄语语言市场该如何利用谷歌?
  7. 【C语言每日一练——第1练:字母大小写转换】
  8. 从零搭建WebApi接口开发框架-接口规范
  9. memset 和 bzero的效率测试。
  10. Trunk和Access分析
  11. python动作捕捉_树莓派动作捕捉抓拍存储图像脚本
  12. leetcode刷题250天(65)——1823. 找出游戏的获胜者(约瑟夫环问题)
  13. nginx的快速入门
  14. ANTMINER KA3 波卡链Polkadot绝对王者
  15. 人工智能之华为云5G基站有AI,智能处理流量“潮汐”
  16. 暴笑小笑话集(全是最新经典!)
  17. functools 可调用对象上的高阶函数和操作
  18. 四川省阿坝藏族羌族自治州谷歌高清卫星地图下载
  19. 短视频去水印api接口分析
  20. Python 与金融科技3|数据的重采样与蜡烛图(K线图)的绘制

热门文章

  1. Matlab运用mapping包在地图上绘制散点图
  2. CVPR2022:Generalizable Cross-modality Medical Image Segmentation via StyleAugmentation and Dual Norm
  3. webrtc-audio-processing pulseaudio最新版本1.0交叉编译到ARM
  4. android模拟器设置静态ip,静态IP地址版EVE模拟器部署和使用说明
  5. java哪些类重写equals方法_Java自定义类中重写equals方法
  6. PS怎样把低像素图片变成高像素图片
  7. java dao 是什么_dao java是什么
  8. cortana小娜不能文字搜索,只能用语音搜索【修复教程】
  9. vue鼠标悬停更改图片
  10. keras训练过程中发生的一些报错及其解决办法