python爬取贴吧_Python爬取贴吧(简洁版)
#encoding=utf-8
import urllib2,urllib
class tieba:
def tiebaSpider(self,name,starPage,endPage):
#要爬取得网络地址
url = "https://tieba.baidu.com/f?"
#要爬取得带关键字的地址
url = url+urllib.urlencode({"kw":name})+"&"
#循环起始位置到终止为止
for i in range(starPage,endPage+1):
pageNum = (i-1)*50
fullUrl = url+urllib.urlencode({"pn":pageNum})
html = self.loadPage(fullUrl,i)
self.writePage(html,i)
def loadPage(self,url,pageNum):
header = {"User-Agent":"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6"}
print "正在爬取第"+str(pageNum)+"页数据......"
request = urllib2.Request(url,headers=header)
response = urllib2.urlopen(request)
html = response.read()
return html
def writePage(self,html,pageNum):
filename = "di"+str(pageNum)+"ye.html"
print "正在写入"+filename
with open(filename,"w") as file:
file.writelines(html)
if __name__=='__main__':
name = raw_input("请输入要搜索的贴吧名:")
startPage = input("请输入起始页:")
endPage = input("请输入一个终止页:")
tieba = tieba()
tieba.tiebaSpider(name,startPage,endPage)
print "爬取结束!"
python爬取贴吧_Python爬取贴吧(简洁版)相关推荐
- python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!
2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...
- python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?
开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...
- python爬取手机微信_Python爬取微信好友
前言 今天看到一篇好玩的文章,可以实现微信的内容爬取和聊天机器人的制作,所以尝试着实现一遍,本文记录了实现过程和一些探索的内容 itchat安装 对微信的控制可以使用itchat来实现,我们找到itc ...
- python开源代码百度盘_python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...
- python爬取动态网页_python爬取动态网页数据,详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
- python爬关键词百度指数_Python 抓取指定关键词的百度指数
百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...
- python教程文档下载_Python基础教程(第2版)PDF文档下载
本书是经典教程的全新改版,作者根据Python 3.0版本的种种变化,全面改写了书中内容,做到既能"瞻前"也能"顾后".本书层次鲜明.结构严谨.内容翔实,特别是 ...
- python爬取pdf内容_Python爬取读者并制作成PDF
学了下beautifulsoup后,做个个网络爬虫,爬取读者杂志并用reportlab制作成pdf.. crawler.py #!/usr/bin/env python #coding=utf-8 & ...
- python背景怎么自定义铃声_python爬取手机铃声
相信每个人都会给自己的手机调一个好听的音乐作为铃声,但是对于iphone用户来说换铃声一般都会去找第三方平台来进行更换,众多平台当中不得不说的就是爱思手机助手,今天我将带你通过python爬虫来批量进 ...
- python爬取南京市房价_python 爬取宁波市房价热力图
爬取安居客的宁波市二手房的平均价格 下面是python代码: from selenium import webdriver import bs4 from time import sleep impo ...
最新文章
- 400名微软员工详细薪资信息泄露,资历和国籍对薪资影响巨大!
- PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)
- nagios远程系统监测服务
- eclipse拒绝mysql,eclipse连接mysql的有关问题
- Linux驱动开发必看
- springboot输出流到页面_Springboot如何使用Map将错误提示输出到页面
- android 按钮果冻效果,用Tween动画简单模拟果冻按钮效果
- 微信小程序实现星星评分-整颗星星评分、半颗星星评分、任意颗星星展示
- android 小游戏心得、,iOS/安卓版《辐射:避难所(Fallout Shelter)》攻略心得:玩法要点详解与心得技巧...
- W3school导航条实现的两种方法
- Python基础——零基础学Python
- 全新的Uber App设计
- 《The Wiley Handbook of Human Computer Interaction》翻译(冰山一角)
- 密码学系列之:Argon2加密算法详解
- mysql如何加索引的时候不锁表
- 360极速浏览器扩展 文件夹 在哪
- 支持流畅运行win10的最低配置是什么
- python三维绘图工具包_Matplotlib Toolkits:三维绘图工具包matplotlib.mplot3d
- 2023最新计算机毕业设计题目选题大全
- 笔记本电脑推荐2020大学生计算机,笔记本电脑排行榜2020 大学生全能笔记本排行...
热门文章
- FD.io VPP 20.09版本正式发布:往期VPP文章回顾+下载地址+相关链接
- numpy的where方法
- win10下zookeeper的下载以及安装
- 多重响应交叉表点不动确定_风靡全球的尼克巨星登陆杭城!还有19.9元美食、多重惊喜好礼……嗨翻12月!...
- pytorch dataloader_基于pytorch的DeepLearning入门流程
- 安装thinkphp,其实就是下载thinkphp,然后放到网站根目录下就可以直接使用了。
- java中对象排序_java中 对象的排序
- python2.7中没有zlib库的解决方案(zipimport.ZipImportError: can't decompress data; zlib not available)
- 了解和使用DotNetCore和Blazor中的异步编程
- LookAheadEnumerator:在解析器中实现回溯