python 贴吧小爬虫案例

#!/usr/bin/env python
#coding:utf-8

import urllib
import urllib2

def loadPage(url,filename):
“”"
作用:根据url发送请求,获取服务器响应文件
url: 需要爬取的url地址
filename:处理的文件名
“”"
print "正在下载 " + filename
headers = {“User-Agent”: “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11”}
request = urllib2.Request(url, headers=headers)
return urllib2.urlopen(request).read()

def writePage(html,filename):
“”"
作用: 将html内容写入到本地
html: 服务器相应文件内容
“”"
print "正在保存 " + filename
# 文件写入
with open(filename, “w”) as f:
f.write(html)
print “_” * 30

def tiebaSpider(url, beginPage, endPage):
“”"
作用:贴吧爬虫调度器,负责组合处理每个页面的url
url: 贴吧url的前部分
beginPage: 起始页
endPage: 结束页
“”"
for page in range(beginPage, endPage + 1):
pn = (page - 1) * 50
filename = “第” + str(page) + “页.html”
fullurl = url + “&pn=” + str(pn)
#print fullurl
html = loadPage(fullurl,filename)
#print html
writePage(html,filename)
print “谢谢使用”

if name == “main”:
kw = raw_input(“请输入需要爬取的贴吧名:”)
beginPage = int(raw_input(“请输入起始页:”))
endPage = int(raw_input(“请输入结束页:”))
url = "http://tieba.baidu.com/f?"
key = urllib.urlencode({“kw”: kw})
fullurl = url + key
tiebaSpider(fullurl, beginPage, endPage)

#python tieba.py
请输入需要爬取的贴吧名:python
请输入起始页:1
请输入结束页:4
正在下载 第1页.html
正在保存 第1页.html


谢谢使用
正在下载 第2页.html
正在保存 第2页.html


谢谢使用
正在下载 第3页.html
正在保存 第3页.html


python 贴吧小爬虫案例相关推荐

  1. URL编码与解码(使用 Python3 urllib.parse) 与 贴吧小爬虫案例

    一.parse.urlencode() 与parse.unquote() urllib 和urllib.request都是接受URL请求的相关模块,但是提供了不同的功能.两个最显著的不同如下: 1.u ...

  2. Python—实训day4—爬虫案例3:贴吧图片下载

    6 xpath 首先需要安装Google的Chrome浏览器 6.1 安装xpath插件 把 xpath_helper_2_0_2.crx 修改后缀名为 xpath_helper_2_0_2.rar. ...

  3. Python—实训day2—爬虫案例1:访问百度贴吧

    2 爬虫案例1:访问百度贴吧 假设我们要访问的贴吧是:动漫吧 头几页的URL地址为: https://tieba.baidu.com/f?kw=%E5%8A%A8%E6%BC%AB&ie=ut ...

  4. Python 做个小爬虫,要看技术交流群里小伙伴们的上榜情况,真的很方便!

    如何给在技术交流群里小伙伴们加油打气呢? 每天结束后,爬取个热榜排名发群时给大家总结情况,然后相互加油激励!这个主意,好不好? 不多说了,直接上代码: 源代码: user=['boysoft2002' ...

  5. python爬虫案例-Python爬虫案例集合

    原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...

  6. 利用pyhton爬虫(案例3)--X房网的小房子们

    写了个小案例,顺便复习一下以前学的知识点. PS:复试之前绝不写爬虫案例了(对于现在的我来说,费脑又花时间),再写我吃XX. 文章目录 爬取X房网二手房信息 爬取步骤 URL特征 查看HTML页面源代 ...

  7. python网页爬虫漫画案例_python实现网络段子页爬虫案例

    网上的Python教程大都是2.X版本的,python2.X和python3.X相比较改动比较大,好多库的用法不太一样,我安装的是python3.X,我们来看看详细的例子 0x01 春节闲着没事(是有 ...

  8. python各类爬虫案例,爬到你手软!

    小编整理了一些爬虫的案例,代码都整理出来了~ 先来看看有哪些项目呢: python爬虫小工具(文件下载助手) 爬虫实战(笔趣看小说下载) 爬虫实战(VIP视频下载) 爬虫实战(百度文库文章下载) 爬虫 ...

  9. python爬虫案例(二):大学排名

    小菜鸟从一个个案例来练习爬虫,心路是曲折的,555 在爬虫案例(一)中,是用urllib进行的.本案例中应用的是requests库,它会比urllib更加方便,requests是python实现的最简 ...

  10. Python 爬虫案例(二)--附件下载

    Python 爬虫案例(二) 此篇文章将爬取的网站是:http://www.warrensburg-mo.com/Bids.aspx (有时候打开不一定会有标书,因为标书实时更新) 类型跟上一篇相似, ...

最新文章

  1. 2021第一融!第四范式完成D轮7亿美元融资
  2. java 获取绝对路径
  3. STM32F0xx_EXIT中断配置详细过程
  4. 基于C#开发的浏览器隐身工具-上班别乱开
  5. kali字典_kali黑客系统wpscan工具扫描wordpress漏洞入侵攻击测试教程
  6. STM32——ADC
  7. [转载]大型网站架构演变和知识体系
  8. 【转】如何修改IIS的默认端口号
  9. Java程序-进程中的进程
  10. python判断是不是整数_在Python中确定值是否为整数
  11. html能转成stp吗,3DMax怎么转出成stp/igs文件呢?
  12. Netty权威指南2.1BIO通信Demo代码
  13. VBA代码行号显示 VBA代码助手独家功能
  14. git将本地文件push到阿里云Code:出现Permission denied (publickey)错误
  15. Yagmail通过QQ邮箱发送邮件实例
  16. SaaS到底是什么东西
  17. 阿里云企业物联网平台推出千里传音播报服务 高效打造云端一体智能硬件
  18. opencv2计算机视觉编程手册(中文)pdf
  19. [其他]lnmp论坛文档
  20. Nexus(1):Nexus的安装与配置

热门文章

  1. 判断字符串是否为null、是否为空
  2. MaxScript脚本
  3. Rufus制作Ubuntu18.04启动盘并为Dell电脑重装系统
  4. 数据处理与分析|涵盖七大分析方法
  5. log4j 日志输出级别
  6. unity粒子特效与ui遮盖显示
  7. gensim提取一个句子的关键词_包含关键字 关键词提取 的文章 - 科学空间|Scientific Spaces...
  8. 基于MATLAB的指纹识别算法仿真实现
  9. javaweb面试题2
  10. 苹果电脑mac系统空间不足怎么清理内存优化?最详细的教程分享