python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

Python实现网页爬虫基本实现代码解读

(2012-11-08 14:11:56)

标签：

python

python培训

北京

Python是一款功能强大的计算机程序语言，同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出，极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。

今天看到一个网页，又因为在家里用电话线上网，一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读，省点电话费：）这个程序因为主页面链接到的页面都在同一个目录下，结构很简单，只有一层。因此写了一些硬编码做链接地址的分析。

Python实现网页爬虫代码如下：

#!/usr/bin/env python 1.# -*- coding: GBK -*-

import urllib

2.from sgmllib import SGMLParser

class URLLister(SGMLParser):

3.def reset(self):

SGMLParser.reset(self)

4.self.urls = []

def start_a(self, attrs):

5.href = [v for k, v in attrs if k == 'href']

if href:

6.self.urls.extend(href)

url =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

7.sock = urllib.urlopen(url)

htmlSource = sock.read()

8.sock.close()

#print htmlSource

9.f = file('jingangjing.html', 'w')

f.write(htmlSource)

10.f.close()

mypath =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

11.parser = URLLister()

parser.feed(htmlSource)

12.for url in parser.urls:

myurl = mypath + url

13.print "get: " + myurl

sock2 = urllib.urlopen(myurl)

14.html2 = sock2.read()

sock2.close()

15.# 保存到文件

print "save as: " + url

16.f2 = file(url, 'w')

f2.write(html2)

17.f2.close()

以上就是我们为大家介绍的有关

喜欢

赠金笔

加载中，请稍候......

评论加载中，请稍候...

发评论

登录名：密码：找回密码注册记住登录状态

昵称：

评论并转载此博文

发评论

以上网友发言只代表其个人观点，不代表新浪网的观点或立场。

python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读相关推荐

c语言实现爬虫功能,用C/C 扩展Python语言_python 调用c语言 python实现简单爬虫功能_python实现简单爬虫...
用C/C 扩展Python语言 Python是一门功能强大的脚本语言,它的强大不仅表现在功能上,还表现在其扩展性上.她提供大量的API以方便程序员利用C/C++对Python进行扩展.因为执行速度慢几 ...
python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
python定时爬取数据_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
python 静态网页_Python静态网页爬虫相关知识
想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现爬虫包括调度器,管理器,解析器,下载器和输出器. ...
python 爬虫框架_Python实战：爬虫框架（6）
数据挖掘用于通过互联网到各个服务器获取数据数据公开数据:客户端浏览器访问网页所看到的数据隐私数据:服务器内部没有暴露,具有隐私权限的数据爬虫网络爬虫:公开数据蠕虫爬虫:携带具有攻击性病毒 ...
python通过网络发送图片_python 打开网络图片
Python为图片加水印 Pillow是python的一个功能强大的图像处理的库,可对图像进行高质量的压缩变换等操作,前几天看到一些公众号,提供了为用户头像加装饰的操作,于是自己试了一下,20行搞定! ...
【Python 爬虫】简单的网页爬虫
这边有一个用来测试的网站点击跳转简单的网页爬虫 requests的使用使用requests获取网页的源代码 requests与正则结合多线爬虫多进程库开发多线程爬虫爬虫算法的开发深度优先 ...
python数据分析与爬虫区别_Python数据分析与爬虫
数据分析重要步骤: 1.数据获取可以进行人工收集获取部分重要数据可以在各个数据库中导出数据使用Python的爬虫等技术 2.数据整理从数据库.文件中提取数据,生成DataFrame对象采用p ...
python开发网络小工具_python 网络工具
书籍:掌握Python的网络和安全 Mastering Python for Networking and Security - 2018.pdf 简介掌握Python的网络和安全掌握Python ...
与python相关的爬虫工具_python小课堂|爬虫工程师必备的10个python爬虫工具！
[摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注py ...

python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读相关推荐

最新文章

热门文章