python 贴吧小爬虫案例

#!/usr/bin/env python
#coding:utf-8

import urllib
import urllib2

def loadPage(url,filename):
“”"
作用：根据url发送请求，获取服务器响应文件
url: 需要爬取的url地址
filename:处理的文件名
“”"
print "正在下载 " + filename
headers = {“User-Agent”: “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11”}
request = urllib2.Request(url, headers=headers)
return urllib2.urlopen(request).read()

def writePage(html,filename):
“”"
作用: 将html内容写入到本地
html: 服务器相应文件内容
“”"
print "正在保存 " + filename
# 文件写入
with open(filename, “w”) as f:
f.write(html)
print “_” * 30

def tiebaSpider(url, beginPage, endPage):
“”"
作用：贴吧爬虫调度器，负责组合处理每个页面的url
url: 贴吧url的前部分
beginPage: 起始页
endPage: 结束页
“”"
for page in range(beginPage, endPage + 1):
pn = (page - 1) * 50
filename = “第” + str(page) + “页.html”
fullurl = url + “&pn=” + str(pn)
#print fullurl
html = loadPage(fullurl,filename)
#print html
writePage(html,filename)
print “谢谢使用”

if name == “main”:
kw = raw_input(“请输入需要爬取的贴吧名：”)
beginPage = int(raw_input(“请输入起始页:”))
endPage = int(raw_input(“请输入结束页:”))
url = "http://tieba.baidu.com/f?"
key = urllib.urlencode({“kw”: kw})
fullurl = url + key
tiebaSpider(fullurl, beginPage, endPage)

#python tieba.py
请输入需要爬取的贴吧名：python
请输入起始页:1
请输入结束页:4
正在下载第1页.html
正在保存第1页.html

谢谢使用
正在下载第2页.html
正在保存第2页.html

谢谢使用
正在下载第3页.html
正在保存第3页.html

python 贴吧小爬虫案例相关推荐

URL编码与解码(使用 Python3 urllib.parse) 与贴吧小爬虫案例
一．parse.urlencode() 与parse.unquote() urllib 和urllib.request都是接受URL请求的相关模块,但是提供了不同的功能.两个最显著的不同如下: 1.u ...
Python—实训day4—爬虫案例3：贴吧图片下载
6 xpath 首先需要安装Google的Chrome浏览器 6.1 安装xpath插件把 xpath_helper_2_0_2.crx 修改后缀名为 xpath_helper_2_0_2.rar. ...
Python—实训day2—爬虫案例1：访问百度贴吧
2 爬虫案例1:访问百度贴吧假设我们要访问的贴吧是:动漫吧头几页的URL地址为: https://tieba.baidu.com/f?kw=%E5%8A%A8%E6%BC%AB&ie=ut ...
Python 做个小爬虫，要看技术交流群里小伙伴们的上榜情况，真的很方便！
如何给在技术交流群里小伙伴们加油打气呢? 每天结束后,爬取个热榜排名发群时给大家总结情况,然后相互加油激励!这个主意,好不好? 不多说了,直接上代码: 源代码: user=['boysoft2002' ...
python爬虫案例-Python爬虫案例集合
原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...
利用pyhton爬虫(案例3)--X房网的小房子们
写了个小案例,顺便复习一下以前学的知识点. PS:复试之前绝不写爬虫案例了(对于现在的我来说,费脑又花时间),再写我吃XX. 文章目录爬取X房网二手房信息爬取步骤 URL特征查看HTML页面源代 ...
python网页爬虫漫画案例_python实现网络段子页爬虫案例
网上的Python教程大都是2.X版本的,python2.X和python3.X相比较改动比较大,好多库的用法不太一样,我安装的是python3.X,我们来看看详细的例子 0x01 春节闲着没事(是有 ...
python各类爬虫案例，爬到你手软！
小编整理了一些爬虫的案例,代码都整理出来了~ 先来看看有哪些项目呢: python爬虫小工具(文件下载助手) 爬虫实战(笔趣看小说下载) 爬虫实战(VIP视频下载) 爬虫实战(百度文库文章下载) 爬虫 ...
python爬虫案例（二）：大学排名
小菜鸟从一个个案例来练习爬虫,心路是曲折的,555 在爬虫案例(一)中,是用urllib进行的.本案例中应用的是requests库,它会比urllib更加方便,requests是python实现的最简 ...
Python 爬虫案例（二）--附件下载
Python 爬虫案例(二) 此篇文章将爬取的网站是:http://www.warrensburg-mo.com/Bids.aspx (有时候打开不一定会有标书,因为标书实时更新) 类型跟上一篇相似, ...

python 贴吧小爬虫案例

python 贴吧小爬虫案例相关推荐

最新文章

热门文章