那天在新浪微博上看到北北出的题目,由于最近也在做类似的爬虫研究,所以就有了这个实验。

后来在QQ上和北北说了下,要求是啥都抓,就抓乌云的。。。

然后就开始了。。

第一个版本如下,后续不断改进直到满足需求:

import urllib2;
from sgmllib import SGMLParser;class CatCh(SGMLParser):def reset(self):self.url=[]SGMLParser.reset(self)def  start_a(self,attrs):href = [v for k, v in attrs if k == 'href']if href:self.url.extend(href)content = urllib2.urlopen("http://wooyun.org/").read()
catch=CatCh()
catch.feed(content)
for item in catch.url:print item

转载于:https://www.cnblogs.com/xiaoCon/p/3160657.html

python爬虫实验相关推荐

  1. python爬虫实验报告_python爬虫实验

    原博文 2013-06-28 13:30 − 那天在新浪微博上看到北北出的题目,由于最近也在做类似的爬虫研究,所以就有了这个实验. 后来在QQ上和北北说了下,要求是啥都抓,就抓乌云的... 然后就开始 ...

  2. python爬虫实验——爬取网页图片+网页源代码

    爬虫图片 本实验将利用python程序抓取网络图片,完成可以批量下载一个网站的照片.所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 原理 1.网络爬虫 即Web Spi ...

  3. python爬虫实验总结_python3爬虫总结(共4篇).docx

    python3爬虫总结(共4篇) 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的 ...

  4. Python爬虫实验 2023.5.16

    实验 采集Java工程师招聘的前三页数据,包括职位名称.工作区域地点.工资待遇 网址:[招聘信息_人才网招聘信息]-猎聘: 输出结果中增加数据的页码和序号: 使用Scrapy框架,不使用其他爬虫插件包 ...

  5. python爬虫实验报告怎么写_[Python]新手写爬虫全过程(转)

    今天早上起来,第一件事情就是理一理今天该做的事情,瞬间get到任务,写一个只用python字符串内建函数的爬虫,定义为v1.0,开发中的版本号定义为v0.x.数据存放?这个是一个练手的玩具,就写在tx ...

  6. python爬虫实验浏览量——凉凉

    我之前的一篇爬虫爬取信息练习里使用了请求头:User-Agent,让网页人为刚刚进行访问的是浏览器,所以我在想是否可以使用这种方法去增加我CSDN博客的访问量,所以我使用这篇博客进行了测试. 第一次我 ...

  7. 【游戏开发进阶】带你玩转模型法线,实验一下大胆的想法(法线贴图 | shader | Unity | python | 爬虫)

    文章目录 一.前言 二.直观感受法线贴图 三.表面法线 1.表面法线的概念 2.空间与坐标系 2.1.世界空间--世界坐标系 2.2.局部空间--局部坐标系 2.3.切线空间--切线坐标系 2.4.小 ...

  8. python爬虫豆瓣评论实验报告_用python实现豆瓣短评通用爬虫(登录、爬取、可视化分析)...

    原创技术公众号:bigsai 前言 在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块.工具知识的使用.然而我所在的组刚好遇到的是python爬虫的小课题. 心想这不是很简单嘛,搞啥 ...

  9. Python 爬虫框架Scrapy安装汇总

    传统方式安装Scrapy(慎用) 练习了基本的操作之后,当然就要找框架来进行爬虫实验啊.于是就在网上找Windows 64安装Scrapy的方法,查到的都是非常繁琐的安装方式,由于Scrapy有很多个 ...

最新文章

  1. matlab 正四面体,填隙工具箱,caulking box,音标,读音,翻译,英文例句,英语词典
  2. python中callable什么意思_Python中callable的理解?
  3. Struts2封装获取表单数据方式
  4. linux中断处理函数参数,第9章 设置ISR(中断处理函数)
  5. 发个自己的CSS重置基础代码
  6. 解决mapper.xml不在resource的时出现的错误nvalid bound statement (not found): com.dxl.system.mapper
  7. access无法 dolby_Win10专业版装不了dolby该怎么办?Win10 dolby音效驱动安装教程
  8. 一些个人感觉很不错的特效
  9. Aras innovator: 如何制作一个itemtype的BOM结构
  10. Unity学习笔记(六)——顶点动画
  11. 互联网公司创业的7道槛
  12. 2019年安徽省大学生计算机博弈大赛,2019年辽宁省普通高等学校本科大学生计算机博弈竞赛在我校成功举行...
  13. matlab实现四重积分和多重积分
  14. 如何打开powershell 【超简单,一步完成】
  15. 大数据开发hive数据库常用命令汇总
  16. 计算机的配置鼠标,鼠标设置,教您鼠标设置在电脑的什么位置
  17. Java中访问修饰符public、private、protect、default访问范围
  18. Bootstrap 轻松实现选项卡
  19. uniapp实现onShow获取页面传递参数方法
  20. jieba+wordcloud 分词+词频可视化 问题总结

热门文章

  1. Deep learning:十九(RBM简单理解)
  2. 小小树微博制作记录笔记(一)
  3. 如何把数据在A表空间里面,把它IMP进B表空间
  4. 北大百年讲堂创新大会小游记
  5. Android RecyclerView 监听滑动
  6. makefile的选项CFLAGS和LDFLAGS
  7. vue基础知识(一)
  8. pytorch Dataset, DataLoader产生自定义的训练数据
  9. 以Settings.APPLICATION_DEVELOPMENT_SETTINGS打开开发者面板出错总结
  10. Django中间件2