python 贴吧小爬虫案例
python 贴吧小爬虫案例
#!/usr/bin/env python
#coding:utf-8
import urllib
import urllib2
def loadPage(url,filename):
“”"
作用:根据url发送请求,获取服务器响应文件
url: 需要爬取的url地址
filename:处理的文件名
“”"
print "正在下载 " + filename
headers = {“User-Agent”: “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11”}
request = urllib2.Request(url, headers=headers)
return urllib2.urlopen(request).read()
def writePage(html,filename):
“”"
作用: 将html内容写入到本地
html: 服务器相应文件内容
“”"
print "正在保存 " + filename
# 文件写入
with open(filename, “w”) as f:
f.write(html)
print “_” * 30
def tiebaSpider(url, beginPage, endPage):
“”"
作用:贴吧爬虫调度器,负责组合处理每个页面的url
url: 贴吧url的前部分
beginPage: 起始页
endPage: 结束页
“”"
for page in range(beginPage, endPage + 1):
pn = (page - 1) * 50
filename = “第” + str(page) + “页.html”
fullurl = url + “&pn=” + str(pn)
#print fullurl
html = loadPage(fullurl,filename)
#print html
writePage(html,filename)
print “谢谢使用”
if name == “main”:
kw = raw_input(“请输入需要爬取的贴吧名:”)
beginPage = int(raw_input(“请输入起始页:”))
endPage = int(raw_input(“请输入结束页:”))
url = "http://tieba.baidu.com/f?"
key = urllib.urlencode({“kw”: kw})
fullurl = url + key
tiebaSpider(fullurl, beginPage, endPage)
#python tieba.py
请输入需要爬取的贴吧名:python
请输入起始页:1
请输入结束页:4
正在下载 第1页.html
正在保存 第1页.html
谢谢使用
正在下载 第2页.html
正在保存 第2页.html
谢谢使用
正在下载 第3页.html
正在保存 第3页.html
python 贴吧小爬虫案例相关推荐
- URL编码与解码(使用 Python3 urllib.parse) 与 贴吧小爬虫案例
一.parse.urlencode() 与parse.unquote() urllib 和urllib.request都是接受URL请求的相关模块,但是提供了不同的功能.两个最显著的不同如下: 1.u ...
- Python—实训day4—爬虫案例3:贴吧图片下载
6 xpath 首先需要安装Google的Chrome浏览器 6.1 安装xpath插件 把 xpath_helper_2_0_2.crx 修改后缀名为 xpath_helper_2_0_2.rar. ...
- Python—实训day2—爬虫案例1:访问百度贴吧
2 爬虫案例1:访问百度贴吧 假设我们要访问的贴吧是:动漫吧 头几页的URL地址为: https://tieba.baidu.com/f?kw=%E5%8A%A8%E6%BC%AB&ie=ut ...
- Python 做个小爬虫,要看技术交流群里小伙伴们的上榜情况,真的很方便!
如何给在技术交流群里小伙伴们加油打气呢? 每天结束后,爬取个热榜排名发群时给大家总结情况,然后相互加油激励!这个主意,好不好? 不多说了,直接上代码: 源代码: user=['boysoft2002' ...
- python爬虫案例-Python爬虫案例集合
原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...
- 利用pyhton爬虫(案例3)--X房网的小房子们
写了个小案例,顺便复习一下以前学的知识点. PS:复试之前绝不写爬虫案例了(对于现在的我来说,费脑又花时间),再写我吃XX. 文章目录 爬取X房网二手房信息 爬取步骤 URL特征 查看HTML页面源代 ...
- python网页爬虫漫画案例_python实现网络段子页爬虫案例
网上的Python教程大都是2.X版本的,python2.X和python3.X相比较改动比较大,好多库的用法不太一样,我安装的是python3.X,我们来看看详细的例子 0x01 春节闲着没事(是有 ...
- python各类爬虫案例,爬到你手软!
小编整理了一些爬虫的案例,代码都整理出来了~ 先来看看有哪些项目呢: python爬虫小工具(文件下载助手) 爬虫实战(笔趣看小说下载) 爬虫实战(VIP视频下载) 爬虫实战(百度文库文章下载) 爬虫 ...
- python爬虫案例(二):大学排名
小菜鸟从一个个案例来练习爬虫,心路是曲折的,555 在爬虫案例(一)中,是用urllib进行的.本案例中应用的是requests库,它会比urllib更加方便,requests是python实现的最简 ...
- Python 爬虫案例(二)--附件下载
Python 爬虫案例(二) 此篇文章将爬取的网站是:http://www.warrensburg-mo.com/Bids.aspx (有时候打开不一定会有标书,因为标书实时更新) 类型跟上一篇相似, ...
最新文章
- 2021第一融!第四范式完成D轮7亿美元融资
- java 获取绝对路径
- STM32F0xx_EXIT中断配置详细过程
- 基于C#开发的浏览器隐身工具-上班别乱开
- kali字典_kali黑客系统wpscan工具扫描wordpress漏洞入侵攻击测试教程
- STM32——ADC
- [转载]大型网站架构演变和知识体系
- 【转】如何修改IIS的默认端口号
- Java程序-进程中的进程
- python判断是不是整数_在Python中确定值是否为整数
- html能转成stp吗,3DMax怎么转出成stp/igs文件呢?
- Netty权威指南2.1BIO通信Demo代码
- VBA代码行号显示 VBA代码助手独家功能
- git将本地文件push到阿里云Code:出现Permission denied (publickey)错误
- Yagmail通过QQ邮箱发送邮件实例
- SaaS到底是什么东西
- 阿里云企业物联网平台推出千里传音播报服务 高效打造云端一体智能硬件
- opencv2计算机视觉编程手册(中文)pdf
- [其他]lnmp论坛文档
- Nexus(1):Nexus的安装与配置