python爬取百度贴吧

利用python爬取百度贴吧的网页，输入贴吧名，起始页，终止页，爬取索要爬取的页面


贴吧
'''
import urllib.request
import urllib.parse
import time
import os#输入贴吧名字-起始页码-终止页码
bname = input('请输入贴吧名字:')
start = int(input('请输入起始页码:'))
end = int(input('请输入终止页码:'))
#不完整的url
url = 'http://tieba.baidu.com/f?'
#通过循环获取拼接每一页的url，得到每一页的内容
for page in range(start,end+1):pn = (page-1) * 50#定义参数列表data = {'kw':bname,'ie':'utf8','pn':pn}
#将date转化为query_stringquery_string = urllib.parse.urlencode(data)#拼接urlnew_url = url + query_string#构建请求对象headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}request = urllib.request.Request(url=new_url,headers=headers)#创建文件夹if not os.path.exists(bname):os.mkdir(bname)#发送请求，得到响应response = urllib.request.urlopen(request)#生成文件名filename ='%s-第%s页.html'%(bname,page)filepath = os.path.join(bname,filename)print('正在下载------%s'%filename)#将内容写入到文件中with open(filepath,'wb') as f:f.write(response.read())print('结束下载------%s' % filename)time.sleep(3)

这样就爬取下来了！！！

python爬取百度贴吧相关推荐

python爬百度翻译-Python爬取百度翻译（利用json提取数据）
本篇文章给大家带来的内容是关于Python爬取百度翻译(利用json提取数据),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 工具:Python 3.6.5.PyCharm开发工具. ...
python爬取百度使用kw关键字爬取时出现，百度安全验证，解决方法
python爬取百度使用kw关键字爬取时出现,百度安全验证,解决方法之前爬取百度用kw时的代码(没有任何问题) import requestsurl = 'http://www.baidu.com/ ...
python爬取百度贴吧图片库_python爬取百度贴吧的图片2
今天看了一下beautifulsoup库的用法,把昨天的python爬取百度贴吧的图片1的代码更新成使用beautifulsoup库的函数来实现.用的还是不太熟练,但是感觉比正则表达式写起来容易了一些 ...
python爬取百度搜索_使用Python + requests爬取百度搜索页面
想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页首先爬取百度主页www.baidu.com import r ...
Python爬取百度翻译及有道翻译
Python爬取百度翻译及网易有道翻译百度翻译一.简介明确翻译链接,百度翻译链接:https://fanyi.baidu.com/,但是该链接不能为我们提供翻译的内容,此时需要在chrome浏览 ...
【Python】python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 标签: <无> 代码片段 [代码][Python]代码 import urllib import urllib.request impor ...
python爬取百度在线语音合成的音频
python爬取百度在线语音合成 URL:https://ai.baidu.com/tech/speech/tts_online 抓包 api从这里抓包,用的post请求,返回的是base64文件格式 ...
python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 代码片段 import urllib import urllib.request import webbrowser import re def yu ...
Python爬取百度图库
Python爬取百度图库页面分析通过Chrome 的开发者模式,我们可以很发现百度图库是通过ajax 加载图片的. 每一次都会发送一个请求:https://image.baidu.com/sea ...

python爬取百度贴吧

这样就爬取下来了！！！

python爬取百度贴吧相关推荐

最新文章

热门文章