Python写的Web spider:

<span style="font-size:14px;"># web spider
# author vince 2015/7/29
import urllib2
import re# get href content
pattern = '<a(?:\\s+.+?)*?\\s+href=\"([h]{1}[^\"]*?)\"'
t = set("")    # collection of urldef fecth(url):http_request = urllib2.Request(url)http_request.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36')http_response = urllib2.urlopen(http_request)print http_response.codeif http_response.code == 200:for i in range(0,2000):     # 2000 rowshtml = http_response.readline()if html == '':breakelse:a = re.search(pattern, html)if a:for href in a.groups():print hreft.add(href)# main start
#if __name__ == '__main__':    url = 'http://blog.csdn.net/'     # target site
t.clear()
t.add(url)
while (len(t) != 0):uu = t.pop()print uufecth(uu)
</span>

如果没有设置User-Agent,有些网站会不让访问,报403

Python写的Web spider(网络爬虫)相关推荐

  1. python网络爬虫程序_使用Python写的第一个网络爬虫程序

    今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不 ...

  2. 用Python写了个金融数据爬虫,半小时干了全组一周的工作量

    最近,越来越多的研究员.基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么? 事实上在2019年,这已经不是一个问题了.Python已成为国内很多顶级投行.基金.咨询等泛金融.商科 ...

  3. python获取实时基金数据由银河证券提供_我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量...

    原标题:我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量 最近,越来越多的研究员.基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么? 事实上在2019年,这已 ...

  4. Python开发实战案例之网络爬虫(附源码)-张子良-专题视频课程

    Python开发实战案例之网络爬虫(附源码)-35人已学习 课程介绍         课程特色: 特色1:案例驱动-围绕两大完整的Python网络爬虫实战开发案例:IT电子书下载网络爬虫和股票交易数据 ...

  5. python sub 不区分大小写_Python网络爬虫入门篇

    1. 预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...

  6. 自己动手写一个QQ空间网络爬虫--qqzoneSpider

    QQ空间网络爬虫软件--qqzoneSpider qqzoneSpider 目录 安装 环境 Python版本 相关库 爬虫相关 数据库相关 GUI相关 可视化相关 数据分析相关 使用说明 操作步骤 ...

  7. python百度百科api-Python即时网络爬虫:API说明

    API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...

  8. Python实训day04pm【网络爬虫(文本、图片)】

    Python实训-15天-博客汇总表 目录 1.网络爬虫 1.1.爬取文本 1.2.爬取图片 2.其他知识点 上午题目讲解 昨天的基础题目讲解 爬取非文本(图片) 1.网络爬虫 #bili 视频,爬下 ...

  9. python web为什么不火_如何用纯 Python 写交互式 Web 应用?

    不用学前端编程,你就能用 Python 简单高效写出漂亮的交互式 Web 应用,将你的数据分析成果立即展示给团队和客户. 痛点 从我开始折腾数据分析工具的那一天,就没有想明白一件事儿 -- 我打算把数 ...

  10. Python编程实现数字图像的网络爬虫

    现在全球处于一个大数据爆发的时代,网络数据的获取需要通过计算机自动实现,网络爬虫可实现对网页上的图片的抓取.Python语言的易读.易学.可移植等优点使其成为人工智能大潮下最炙手可热的语言之一.通过P ...

最新文章

  1. 数据库SQL Server
  2. 一个包从服务器到达客户端
  3. 笔记-项目立项管理-项目论证的程序
  4. java jdbc连接oracle_Java使用JDBC连接Oracle 11gR2
  5. 分布式文件系统—HDFS—核心设计
  6. Log4j的自定义logger
  7. linux下搭建mongodb副本集
  8. avatar.php uid,phpcms函数库中获取会员头像方法get_memberavatar()有时无效问题
  9. 金陵科技学院计算机答辩,金陵科技学院优秀毕业论文答辩ppt模板
  10. 微信小程序云开发开源项目:在线捐赠功德箱
  11. 【答读者问5】如何实现以当天收盘价交易?
  12. android记账本的技术路线,Android — 个人简洁记账本项目开发日志
  13. OpenCV2:特征匹配及其优化
  14. 柯西积分不等式的证明题
  15. mmap MAP_PRIVATE MAP_SHARED
  16. 一页PPT证明黎曼猜想?Michael Atiyah的正式演讲炸了锅
  17. Linux知识入门(一)
  18. 学c语言笔记本电脑推荐,2020年大学生笔记本电脑推荐
  19. MCU-51:51单片机实现简单计算器功能
  20. 奇虎360“吃螃蟹”任命首席隐私官

热门文章

  1. 【中间件系列】Nacos注册中心妙用
  2. Chrome html播放器卡顿,谷歌Chrome浏览器卡顿原因及解决办法
  3. 毕业这么多年,为啥升职加薪这么难?
  4. 报错解决——babel-preset-es2015 报错
  5. 《linux内核分析》第二次课 实验作业
  6. win7 android双系统,真正的安卓Windows双系统,RemixOS Windows共存系统安装+附带RO......
  7. 输出的字体全部变成繁体字
  8. FCW前车碰撞预警的两个重要指标——THW、TTC
  9. 测试应该知道的知识-python检查死链
  10. html制作钟表盘,jquery+html5制作超酷的圆盘时钟表