主要是正则表达式不熟练,基础知识不扎实,函数也不怎么会用,下次再深入了解这3个函数吧。

主要是一个翻页的功能,其实,就是通过一个url替换一下数字,然后得到一个新的url,再找这个新的链接的信息。

 1 #-*-coding:utf8-*-
 2
 3 import requests
 4 import re
 5 import sys
 6 reload(sys)
 7 sys.setdefaultencoding("utf-8")
 8
 9 class spider(object):
10     def __init__(self):
11         print "开始爬虫"
12
13     def getsource(self,url):
14         html = requests.get(url)
15         return html.text
16
17     def changepage(self,url,total_page):
18         now_page = 1
19         page_group = []
20
21         for i in range(now_page,total_page+1):
22             link = re.sub('(\d+)','%s'%i,url,re.S)
23             page_group.append(link)
24
25         return page_group
26
27
28 if __name__ =='__main__':
29
30     problem = []
31     url = 'http://poj.org/problemlist?volume=1'
32
33
34     pojspider = spider()
35     all_link = pojspider.changepage(url,10)
36
37     for link in all_link:
38         print link
39         htm = pojspider.getsource(link)
40
41         problem = re.findall('href=problem?(.*?)</a>',htm,re.S)
42
43         for i in problem:
44             if i[0]=='?':
45                 print i
46                 f = open('info.txt','a')
47                 f.writelines(i+'\n')
48                 f.close()

转载于:https://www.cnblogs.com/TreeDream/p/6366747.html

python 爬poj.org的题目相关推荐

  1. python爬虫--小白爬取csdn页面题目与链接

    爬取csdn页面题目与链接 前言 随着人工智能的不断发展,爬虫这门技术越来越重要-哈哈哈,太过官方.新手小白,过程较曲折,代码较不专业,欢迎批评与指教! 进入正题:本文主要爬取csdn博客某专栏下的题 ...

  2. python爬取微博数据存入数据库_Python爬取新浪微博评论数据,写入csv文件中

    因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式 操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...

  3. python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  4. Python爬取问卷星内容

    Python爬取问卷星内容 问卷星标题和选项内容爬取 从以下博客中学习到的,加了些自己的解释 Python3 爬虫- 问卷星内容爬取 先贴代码: import time from requests_h ...

  5. python爬取虎扑评论_Python爬取NBA虎扑球员数据

    虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...

  6. python爬网站数据实例-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  7. 大数据Python爬取B站电影排行榜——爬取信息

    大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...

  8. python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载

    每天一点点,记录学习 python 爬取菜鸟教程python100题 近期爬虫项目,看完请点赞哦: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:pytho ...

  9. 举例用Python爬取科目四考试题库的详细方法

    这篇文章仅提供参考 考驾驶证这是多少人的噩梦,小编就惧怕考证,不敢想象"马路女杀手"在我这里会不会升级成"上手车没人没",我的父亲大人,他用他坚强的毅力连续报考 ...

  10. 如何使用Python爬取毛概题库

    毛概题库是什么 学毛概的同学应该知道,这就是一个题库.老师是把这个题库放在网上的,同学们有空的时候可以去自学学习,学完之后有一个在线测试,可能有几次机会,然后老师会取一个最高分. 为什么制作PDF版本 ...

最新文章

  1. 浙大这个班诞生128家创业公司,总市值高达千亿!
  2. uc的剪切板能关掉吗_罗永浩的“卖身契”有法律效力吗?
  3. 直击痛点,详解 K8s 日志采集最佳实践
  4. c语言测试清单,c语言测试(C language test).doc
  5. spring源码分析第三天------spring核心IOC容器和依赖注入原理
  6. spring-data-jpa 查询视图
  7. java windows编程,以编程方式控制Windows媒体播放器,最好是从Java
  8. (12)vue.js 修饰符
  9. C#实现文件下载的几种方式
  10. Android存储-SharedPreferences
  11. Java EE开发四大常用框架(1)
  12. linux嵌入式入门到精通视频教程 Linux开发工程师培训教程
  13. 计算机程序员目标分析,计算机程序员实习目的
  14. 疯狂的程序员 41-50
  15. 国内人工智能行业发展现状
  16. PHP 8.1性能基准测试结果出炉,比7.0版本提升44%
  17. 感恩有你 华为云学院伴你前行
  18. 房屋登记官考核模拟题(6)
  19. 深度拆解:体验好、满意度高,客户为什么不复购的内在逻辑
  20. 跟Java面试官对线的一天!唬住就要50K,唬不住就要5K

热门文章

  1. happy number(快乐数)
  2. php soapclient 超时,PHP SoapClient超时
  3. POJ - 1458(最长公共子序列,动态规划)
  4. Deep Learning Notes: Chapter 1 Introduction
  5. 通过图标来识别网站用户指纹
  6. Shreder:线程SSH协议密码爆破工具
  7. 2020-8-5 Codeforces摸鱼报告
  8. Office - Excel 2013
  9. The Luckiest Number 欧拉函数
  10. Linux0.11内核--进程调度分析之1.初始化