#encoding=utf-8

import urllib2,urllib

class tieba:

def tiebaSpider(self,name,starPage,endPage):

#要爬取得网络地址

url = "https://tieba.baidu.com/f?"

#要爬取得带关键字的地址

url = url+urllib.urlencode({"kw":name})+"&"

#循环起始位置到终止为止

for i in range(starPage,endPage+1):

pageNum = (i-1)*50

fullUrl = url+urllib.urlencode({"pn":pageNum})

html = self.loadPage(fullUrl,i)

self.writePage(html,i)

def loadPage(self,url,pageNum):

header = {"User-Agent":"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6"}

print "正在爬取第"+str(pageNum)+"页数据......"

request = urllib2.Request(url,headers=header)

response = urllib2.urlopen(request)

html = response.read()

return html

def writePage(self,html,pageNum):

filename = "di"+str(pageNum)+"ye.html"

print "正在写入"+filename

with open(filename,"w") as file:

file.writelines(html)

if __name__=='__main__':

name = raw_input("请输入要搜索的贴吧名:")

startPage = input("请输入起始页:")

endPage = input("请输入一个终止页:")

tieba = tieba()

tieba.tiebaSpider(name,startPage,endPage)

print "爬取结束!"

python爬取贴吧_Python爬取贴吧(简洁版)相关推荐

  1. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  2. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

  3. python爬取手机微信_Python爬取微信好友

    前言 今天看到一篇好玩的文章,可以实现微信的内容爬取和聊天机器人的制作,所以尝试着实现一遍,本文记录了实现过程和一些探索的内容 itchat安装 对微信的控制可以使用itchat来实现,我们找到itc ...

  4. python开源代码百度盘_python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...

  5. python爬取动态网页_python爬取动态网页数据,详解

    原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...

  6. python爬关键词百度指数_Python 抓取指定关键词的百度指数

    百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...

  7. python教程文档下载_Python基础教程(第2版)PDF文档下载

    本书是经典教程的全新改版,作者根据Python 3.0版本的种种变化,全面改写了书中内容,做到既能"瞻前"也能"顾后".本书层次鲜明.结构严谨.内容翔实,特别是 ...

  8. python爬取pdf内容_Python爬取读者并制作成PDF

    学了下beautifulsoup后,做个个网络爬虫,爬取读者杂志并用reportlab制作成pdf.. crawler.py #!/usr/bin/env python #coding=utf-8 & ...

  9. python背景怎么自定义铃声_python爬取手机铃声

    相信每个人都会给自己的手机调一个好听的音乐作为铃声,但是对于iphone用户来说换铃声一般都会去找第三方平台来进行更换,众多平台当中不得不说的就是爱思手机助手,今天我将带你通过python爬虫来批量进 ...

  10. python爬取南京市房价_python 爬取宁波市房价热力图

    爬取安居客的宁波市二手房的平均价格 下面是python代码: from selenium import webdriver import bs4 from time import sleep impo ...

最新文章

  1. 400名微软员工详细薪资信息泄露,资历和国籍对薪资影响巨大!
  2. PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)
  3. nagios远程系统监测服务
  4. eclipse拒绝mysql,eclipse连接mysql的有关问题
  5. Linux驱动开发必看
  6. springboot输出流到页面_Springboot如何使用Map将错误提示输出到页面
  7. android 按钮果冻效果,用Tween动画简单模拟果冻按钮效果
  8. 微信小程序实现星星评分-整颗星星评分、半颗星星评分、任意颗星星展示
  9. android 小游戏心得、,iOS/安卓版《辐射:避难所(Fallout Shelter)》攻略心得:玩法要点详解与心得技巧...
  10. W3school导航条实现的两种方法
  11. Python基础——零基础学Python
  12. 全新的Uber App设计
  13. 《The Wiley Handbook of Human Computer Interaction》翻译(冰山一角)
  14. 密码学系列之:Argon2加密算法详解
  15. mysql如何加索引的时候不锁表
  16. 360极速浏览器扩展 文件夹 在哪
  17. 支持流畅运行win10的最低配置是什么
  18. python三维绘图工具包_Matplotlib Toolkits:三维绘图工具包matplotlib.mplot3d
  19. 2023最新计算机毕业设计题目选题大全
  20. 笔记本电脑推荐2020大学生计算机,笔记本电脑排行榜2020 大学生全能笔记本排行...

热门文章

  1. FD.io VPP 20.09版本正式发布:往期VPP文章回顾+下载地址+相关链接
  2. numpy的where方法
  3. win10下zookeeper的下载以及安装
  4. 多重响应交叉表点不动确定_风靡全球的尼克巨星登陆杭城!还有19.9元美食、多重惊喜好礼……嗨翻12月!...
  5. pytorch dataloader_基于pytorch的DeepLearning入门流程
  6. 安装thinkphp,其实就是下载thinkphp,然后放到网站根目录下就可以直接使用了。
  7. java中对象排序_java中 对象的排序
  8. python2.7中没有zlib库的解决方案(zipimport.ZipImportError: can't decompress data; zlib not available)
  9. 了解和使用DotNetCore和Blazor中的异步编程
  10. LookAheadEnumerator:在解析器中实现回溯