Python实现网页爬虫基本实现代码解读

(2012-11-08 14:11:56)

标签:

python

python培训

北京

it

Python是一款功能强大的计算机程序语言,同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出,极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。

今天看到一个网页,又因为在家里用电话线上网,一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读,省点电话费:)这个程序因为主页面链接到的页面都在同一个目录下,结构很简单,只有一层。因此写了一些硬编码做链接地址的分析。

Python实现网页爬虫代码如下:

#!/usr/bin/env python 1.# -*- coding: GBK -*-

import urllib

2.from sgmllib import SGMLParser

class URLLister(SGMLParser):

3.def reset(self):

SGMLParser.reset(self)

4.self.urls = []

def start_a(self, attrs):

5.href = [v for k, v in attrs if k == 'href']

if href:

6.self.urls.extend(href)

url =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

7.sock = urllib.urlopen(url)

htmlSource = sock.read()

8.sock.close()

#print htmlSource

9.f = file('jingangjing.html', 'w')

f.write(htmlSource)

10.f.close()

mypath =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

11.parser = URLLister()

parser.feed(htmlSource)

12.for url in parser.urls:

myurl = mypath + url

13.print "get: " + myurl

sock2 = urllib.urlopen(myurl)

14.html2 = sock2.read()

sock2.close()

15.# 保存到文件

print "save as: " + url

16.f2 = file(url, 'w')

f2.write(html2)

17.f2.close()

以上就是我们为大家介绍的有关

分享:

喜欢

0

赠金笔

加载中,请稍候......

评论加载中,请稍候...

发评论

登录名: 密码: 找回密码 注册记住登录状态

昵 称:

评论并转载此博文

发评论

以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读相关推荐

  1. c语言实现爬虫功能,用C/C 扩展Python语言_python 调用c语言 python实现简单爬虫功能_python实现简单爬虫...

    用C/C 扩展Python语言 Python是一门功能强大的脚本语言,它的强大不仅表现在功能上,还表现在其扩展性上.她提供大量的API以方便程序员利用C/C++对Python进行扩展.因为执行速度慢几 ...

  2. python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  3. python定时爬取数据_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  4. python 静态网页_Python静态网页爬虫相关知识

    想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现 爬虫包括调度器,管理器,解析器,下载器和输出器. ...

  5. python 爬虫框架_Python实战:爬虫框架(6)

    数据挖掘 用于通过互联网到各个服务器获取数据 数据 公开数据:客户端浏览器访问网页所看到的数据 隐私数据:服务器内部没有暴露,具有隐私权限的数据 爬虫 网络爬虫:公开数据 蠕虫爬虫:携带具有攻击性病毒 ...

  6. python通过网络发送图片_python 打开网络图片

    Python为图片加水印 Pillow是python的一个功能强大的图像处理的库,可对图像进行高质量的压缩变换等操作,前几天看到一些公众号,提供了为用户头像加装饰的操作,于是自己试了一下,20行搞定! ...

  7. 【Python 爬虫】简单的网页爬虫

    这边有一个用来测试的网站点击跳转 简单的网页爬虫 requests的使用 使用requests获取网页的源代码 requests与正则结合 多线爬虫 多进程库 开发多线程爬虫 爬虫算法的开发 深度优先 ...

  8. python数据分析与爬虫区别_Python数据分析与爬虫

    数据分析重要步骤: 1.数据获取 可以进行人工收集获取部分重要数据 可以在各个数据库中导出数据 使用Python的爬虫等技术 2.数据整理 从数据库.文件中提取数据,生成DataFrame对象 采用p ...

  9. python开发网络小工具_python 网络工具

    书籍:掌握Python的网络和安全 Mastering Python for Networking and Security - 2018.pdf 简介 掌握Python的网络和安全 掌握Python ...

  10. 与python相关的爬虫工具_python小课堂|爬虫工程师必备的10个python爬虫工具!

    [摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注py ...

最新文章

  1. linux下GPRS ppp拨号默认路由问题(存在eth0)
  2. 救援模式下更改用户密码
  3. switch java 语法_Java编程—switch语句语法详解
  4. zabbix服务端远程执行命令
  5. Linux 下离线手动下载安装 C++ 开发环境
  6. 借助mapshaper的简化来修复geojson的拓扑错误
  7. js获取html标签中的数据
  8. DroidCam连接教程+资源
  9. java 正则 连续换行_Java正则表达式匹配回车换行多行
  10. mysql 2037年_Correct way to store MySQL date after year 2037
  11. 数据分析师职业发展的几个层次,具体是什么做什么的
  12. AI 四小龙之间没有战争
  13. 问题 J: LZY订单查询
  14. 【精】聊聊HDFS的高可用架构
  15. 直播软件搭建时如何在视频通话中加入美颜处理
  16. open judge1.7.14
  17. MeepoPS基本使用方法
  18. 如何通过讯飞语音将文本合成后的语音保存到本地
  19. 【精彩点评】吸取历史经验,构建坚实的比特币产业
  20. 图片翻译软件哪个好用?这些软件值得收藏

热门文章

  1. html如何设置hr 标签的线条粗细,html中hr怎么设置粗细
  2. HTML页面模板代码
  3. 基于JAVA_JSP电子书下载系统
  4. Access数据库学习总结(1)
  5. authware课件
  6. 嵌入式Linux移植实验
  7. 如何学习数据库?数据库零基础入门指导
  8. SQL注入攻击与防御学习笔记一
  9. android医疗管理软件,智能医疗信息管理系统(医院版)
  10. matlab入门学习(良心版本,适合小白)