利用python爬取百度贴吧的网页,输入贴吧名,起始页,终止页,爬取索要爬取的页面


贴吧
'''
import urllib.request
import urllib.parse
import time
import os#输入贴吧名字-起始页码-终止页码
bname = input('请输入贴吧名字:')
start = int(input('请输入起始页码:'))
end = int(input('请输入终止页码:'))
#不完整的url
url = 'http://tieba.baidu.com/f?'
#通过循环获取拼接每一页的url,得到每一页的内容
for page in range(start,end+1):pn = (page-1) * 50#定义参数列表data = {'kw':bname,'ie':'utf8','pn':pn}
#将date转化为query_stringquery_string = urllib.parse.urlencode(data)#拼接urlnew_url = url + query_string#构建请求对象headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}request = urllib.request.Request(url=new_url,headers=headers)#创建文件夹if not os.path.exists(bname):os.mkdir(bname)#发送请求,得到响应response = urllib.request.urlopen(request)#生成文件名filename ='%s-第%s页.html'%(bname,page)filepath = os.path.join(bname,filename)print('正在下载------%s'%filename)#将内容写入到文件中with open(filepath,'wb') as f:f.write(response.read())print('结束下载------%s' % filename)time.sleep(3)

这样就爬取下来了!!!

python爬取百度贴吧相关推荐

  1. python爬百度翻译-Python爬取百度翻译(利用json提取数据)

    本篇文章给大家带来的内容是关于Python爬取百度翻译(利用json提取数据),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 工具:Python 3.6.5.PyCharm开发工具. ...

  2. python爬取百度使用kw关键字爬取时出现,百度安全验证,解决方法

    python爬取百度使用kw关键字爬取时出现,百度安全验证,解决方法 之前爬取百度用kw时的代码(没有任何问题) import requestsurl = 'http://www.baidu.com/ ...

  3. python爬取百度贴吧图片库_python爬取百度贴吧的图片2

    今天看了一下beautifulsoup库的用法,把昨天的python爬取百度贴吧的图片1的代码更新成使用beautifulsoup库的函数来实现.用的还是不太熟练,但是感觉比正则表达式写起来容易了一些 ...

  4. python爬取百度搜索_使用Python + requests爬取百度搜索页面

    想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...

  5. Python爬取百度翻译及有道翻译

    Python爬取百度翻译及网易有道翻译 百度翻译 一.简介 明确翻译链接,百度翻译链接:https://fanyi.baidu.com/,但是该链接不能为我们提供翻译的内容,此时需要在chrome浏览 ...

  6. 【Python】python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 标签: <无> 代码片段 [代码][Python]代码 import urllib import urllib.request impor ...

  7. python爬取百度在线语音合成的音频

    python爬取百度在线语音合成 URL:https://ai.baidu.com/tech/speech/tts_online 抓包 api从这里抓包,用的post请求,返回的是base64文件格式 ...

  8. python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 代码片段 import urllib import urllib.request import webbrowser import re def yu ...

  9. Python爬取百度图库

    Python爬取百度图库 页面分析 通过Chrome 的开发者模式,我们可以很发现 百度图库是通过ajax 加载图片的. 每一次都会发送一个请求:https://image.baidu.com/sea ...

最新文章

  1. 基于HttpModule扩展
  2. Alpha发布用户使用报告
  3. 通过yumdownloader下载rpm包
  4. ssh scp文件同步(先不搞了)
  5. C语言中的数据类型在VB中的申明
  6. uefi多linux系统启动盘,DIY制作无需格BIOS+UEFI双启动U盘工具|支持syslinux+grub+boomgr+grub2多启动...
  7. 三维重建5:场景中语义分析/语义SLAM/DCNN-大尺度SLAM
  8. Java GridBagLayout 简单使用
  9. c语言插入排序算法_插入排序算法,流程图和C,C ++代码
  10. 【工程项目经验】之软链接跟硬链接
  11. RelativeLayout相对布局
  12. PHP工程师学习计划
  13. 全球资产管理平台提供商:Charles River Development 应用
  14. 【优化预测】基于matlab鲸鱼算法优化LSSVM预测【含Matlab源码 104期】
  15. 配置CACTI监控MySQL数据库状态(2)安装cacti相关软件包
  16. 【SSTFlashFlex51单片机烧录软件的使用方法】
  17. screen linux卸载,Ubuntu常用软件安装(附截图软件、FTP、卸载命令)
  18. c# 模拟串口通信 SerialPort
  19. 整理的Android资源代码 源码 整理 Github开源项目下载地址
  20. Matlab subs函数的使用方法

热门文章

  1. 计算机播放声音时进行模数转换,音频的基础知识.ppt
  2. 智能电销机器人对企业的营销助力
  3. 2021年R1快开门式压力容器操作试题及解析及R1快开门式压力容器操作复审考试
  4. 乖离率背离公式_股市偏离率怎么计算 公式是怎么样的?-BIAS-技术指标-股票入门基础知识学习网...
  5. day07 资产泄露CMS识别Git监控SVNDS_Store备份
  6. 测试开发知识点整理(二)
  7. matlab降维观测器,全维.降维观测器 - 范文中心
  8. 解读5G非独立组网(NSA)方案
  9. Python-4.6 查看进程的pid和ppid
  10. muduo 架构解析