python爬取百度贴吧
利用python爬取百度贴吧的网页,输入贴吧名,起始页,终止页,爬取索要爬取的页面
贴吧
'''
import urllib.request
import urllib.parse
import time
import os#输入贴吧名字-起始页码-终止页码
bname = input('请输入贴吧名字:')
start = int(input('请输入起始页码:'))
end = int(input('请输入终止页码:'))
#不完整的url
url = 'http://tieba.baidu.com/f?'
#通过循环获取拼接每一页的url,得到每一页的内容
for page in range(start,end+1):pn = (page-1) * 50#定义参数列表data = {'kw':bname,'ie':'utf8','pn':pn}
#将date转化为query_stringquery_string = urllib.parse.urlencode(data)#拼接urlnew_url = url + query_string#构建请求对象headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}request = urllib.request.Request(url=new_url,headers=headers)#创建文件夹if not os.path.exists(bname):os.mkdir(bname)#发送请求,得到响应response = urllib.request.urlopen(request)#生成文件名filename ='%s-第%s页.html'%(bname,page)filepath = os.path.join(bname,filename)print('正在下载------%s'%filename)#将内容写入到文件中with open(filepath,'wb') as f:f.write(response.read())print('结束下载------%s' % filename)time.sleep(3)
这样就爬取下来了!!!
python爬取百度贴吧相关推荐
- python爬百度翻译-Python爬取百度翻译(利用json提取数据)
本篇文章给大家带来的内容是关于Python爬取百度翻译(利用json提取数据),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 工具:Python 3.6.5.PyCharm开发工具. ...
- python爬取百度使用kw关键字爬取时出现,百度安全验证,解决方法
python爬取百度使用kw关键字爬取时出现,百度安全验证,解决方法 之前爬取百度用kw时的代码(没有任何问题) import requestsurl = 'http://www.baidu.com/ ...
- python爬取百度贴吧图片库_python爬取百度贴吧的图片2
今天看了一下beautifulsoup库的用法,把昨天的python爬取百度贴吧的图片1的代码更新成使用beautifulsoup库的函数来实现.用的还是不太熟练,但是感觉比正则表达式写起来容易了一些 ...
- python爬取百度搜索_使用Python + requests爬取百度搜索页面
想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...
- Python爬取百度翻译及有道翻译
Python爬取百度翻译及网易有道翻译 百度翻译 一.简介 明确翻译链接,百度翻译链接:https://fanyi.baidu.com/,但是该链接不能为我们提供翻译的内容,此时需要在chrome浏览 ...
- 【Python】python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 标签: <无> 代码片段 [代码][Python]代码 import urllib import urllib.request impor ...
- python爬取百度在线语音合成的音频
python爬取百度在线语音合成 URL:https://ai.baidu.com/tech/speech/tts_online 抓包 api从这里抓包,用的post请求,返回的是base64文件格式 ...
- python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 代码片段 import urllib import urllib.request import webbrowser import re def yu ...
- Python爬取百度图库
Python爬取百度图库 页面分析 通过Chrome 的开发者模式,我们可以很发现 百度图库是通过ajax 加载图片的. 每一次都会发送一个请求:https://image.baidu.com/sea ...
最新文章
- 基于HttpModule扩展
- Alpha发布用户使用报告
- 通过yumdownloader下载rpm包
- ssh scp文件同步(先不搞了)
- C语言中的数据类型在VB中的申明
- uefi多linux系统启动盘,DIY制作无需格BIOS+UEFI双启动U盘工具|支持syslinux+grub+boomgr+grub2多启动...
- 三维重建5:场景中语义分析/语义SLAM/DCNN-大尺度SLAM
- Java GridBagLayout 简单使用
- c语言插入排序算法_插入排序算法,流程图和C,C ++代码
- 【工程项目经验】之软链接跟硬链接
- RelativeLayout相对布局
- PHP工程师学习计划
- 全球资产管理平台提供商:Charles River Development 应用
- 【优化预测】基于matlab鲸鱼算法优化LSSVM预测【含Matlab源码 104期】
- 配置CACTI监控MySQL数据库状态(2)安装cacti相关软件包
- 【SSTFlashFlex51单片机烧录软件的使用方法】
- screen linux卸载,Ubuntu常用软件安装(附截图软件、FTP、卸载命令)
- c# 模拟串口通信 SerialPort
- 整理的Android资源代码 源码 整理 Github开源项目下载地址
- Matlab subs函数的使用方法
热门文章
- 计算机播放声音时进行模数转换,音频的基础知识.ppt
- 智能电销机器人对企业的营销助力
- 2021年R1快开门式压力容器操作试题及解析及R1快开门式压力容器操作复审考试
- 乖离率背离公式_股市偏离率怎么计算 公式是怎么样的?-BIAS-技术指标-股票入门基础知识学习网...
- day07 资产泄露CMS识别Git监控SVNDS_Store备份
- 测试开发知识点整理(二)
- matlab降维观测器,全维.降维观测器 - 范文中心
- 解读5G非独立组网(NSA)方案
- Python-4.6 查看进程的pid和ppid
- muduo 架构解析