python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读
Python实现网页爬虫基本实现代码解读
(2012-11-08 14:11:56)
标签:
python
python培训
北京
it
Python是一款功能强大的计算机程序语言,同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出,极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。
今天看到一个网页,又因为在家里用电话线上网,一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读,省点电话费:)这个程序因为主页面链接到的页面都在同一个目录下,结构很简单,只有一层。因此写了一些硬编码做链接地址的分析。
Python实现网页爬虫代码如下:
#!/usr/bin/env python 1.# -*- coding: GBK -*-
import urllib
2.from sgmllib import SGMLParser
class URLLister(SGMLParser):
3.def reset(self):
SGMLParser.reset(self)
4.self.urls = []
def start_a(self, attrs):
5.href = [v for k, v in attrs if k == 'href']
if href:
6.self.urls.extend(href)
url =
r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
7.sock = urllib.urlopen(url)
htmlSource = sock.read()
8.sock.close()
#print htmlSource
9.f = file('jingangjing.html', 'w')
f.write(htmlSource)
10.f.close()
mypath =
r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
11.parser = URLLister()
parser.feed(htmlSource)
12.for url in parser.urls:
myurl = mypath + url
13.print "get: " + myurl
sock2 = urllib.urlopen(myurl)
14.html2 = sock2.read()
sock2.close()
15.# 保存到文件
print "save as: " + url
16.f2 = file(url, 'w')
f2.write(html2)
17.f2.close()
以上就是我们为大家介绍的有关
分享:
喜欢
0
赠金笔
加载中,请稍候......
评论加载中,请稍候...
发评论
登录名: 密码: 找回密码 注册记住登录状态
昵 称:
评论并转载此博文
发评论
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。
python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读相关推荐
- c语言实现爬虫功能,用C/C 扩展Python语言_python 调用c语言 python实现简单爬虫功能_python实现简单爬虫...
用C/C 扩展Python语言 Python是一门功能强大的脚本语言,它的强大不仅表现在功能上,还表现在其扩展性上.她提供大量的API以方便程序员利用C/C++对Python进行扩展.因为执行速度慢几 ...
- python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
- python定时爬取数据_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
- python 静态网页_Python静态网页爬虫相关知识
想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现 爬虫包括调度器,管理器,解析器,下载器和输出器. ...
- python 爬虫框架_Python实战:爬虫框架(6)
数据挖掘 用于通过互联网到各个服务器获取数据 数据 公开数据:客户端浏览器访问网页所看到的数据 隐私数据:服务器内部没有暴露,具有隐私权限的数据 爬虫 网络爬虫:公开数据 蠕虫爬虫:携带具有攻击性病毒 ...
- python通过网络发送图片_python 打开网络图片
Python为图片加水印 Pillow是python的一个功能强大的图像处理的库,可对图像进行高质量的压缩变换等操作,前几天看到一些公众号,提供了为用户头像加装饰的操作,于是自己试了一下,20行搞定! ...
- 【Python 爬虫】简单的网页爬虫
这边有一个用来测试的网站点击跳转 简单的网页爬虫 requests的使用 使用requests获取网页的源代码 requests与正则结合 多线爬虫 多进程库 开发多线程爬虫 爬虫算法的开发 深度优先 ...
- python数据分析与爬虫区别_Python数据分析与爬虫
数据分析重要步骤: 1.数据获取 可以进行人工收集获取部分重要数据 可以在各个数据库中导出数据 使用Python的爬虫等技术 2.数据整理 从数据库.文件中提取数据,生成DataFrame对象 采用p ...
- python开发网络小工具_python 网络工具
书籍:掌握Python的网络和安全 Mastering Python for Networking and Security - 2018.pdf 简介 掌握Python的网络和安全 掌握Python ...
- 与python相关的爬虫工具_python小课堂|爬虫工程师必备的10个python爬虫工具!
[摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注py ...
最新文章
- linux下GPRS ppp拨号默认路由问题(存在eth0)
- 救援模式下更改用户密码
- switch java 语法_Java编程—switch语句语法详解
- zabbix服务端远程执行命令
- Linux 下离线手动下载安装 C++ 开发环境
- 借助mapshaper的简化来修复geojson的拓扑错误
- js获取html标签中的数据
- DroidCam连接教程+资源
- java 正则 连续换行_Java正则表达式匹配回车换行多行
- mysql 2037年_Correct way to store MySQL date after year 2037
- 数据分析师职业发展的几个层次,具体是什么做什么的
- AI 四小龙之间没有战争
- 问题 J: LZY订单查询
- 【精】聊聊HDFS的高可用架构
- 直播软件搭建时如何在视频通话中加入美颜处理
- open judge1.7.14
- MeepoPS基本使用方法
- 如何通过讯飞语音将文本合成后的语音保存到本地
- 【精彩点评】吸取历史经验,构建坚实的比特币产业
- 图片翻译软件哪个好用?这些软件值得收藏