get案例

需求 爬取贴吧的数据

1.输入爬取贴吧的主题(列如 火影忍者)
2. 输入起始页和终止页(列如 3- 5)
3. 把每一页的数据保存到本地(列如 第一页.html 第二页.html)

思路

https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=0        第一页
https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=50      第二页
https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=100    第三页
https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=150    第四页
pn = (page -1) * 50
发起请求  ---->  数据
保存数据```python
import urllib.request
import urllib.parse#贴吧的主题
name = input('请输入贴吧的名称:')
begin = int(input('请输入起始页:'))
end = int (input('请输入终止页:'))headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
}#对name进行处理
kw = {'kw': name}
result = urllib.parse.urlencode(kw)
#1 2 3 pn 0 50 150
for i in range(begin,end+1):pn = (i - 1) * 50#print(pn)#拼接url地址 https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=0base_url = 'https://tieba.baidu.com/f?'url = base_url + result + '&pn=' + str(pn)#print(url)#发起请求req = urllib.request.Request(url,headers=headers)res = urllib.request.urlopen(req)html = res.read().decode('utf-8')#保存数据filename = '第' + str(i) + '页.html'with open(filename,'w', encoding='utf-8') as f:f.write(html)

#大家好我是技术小白, 一直都在努力的路上,一直的期望是有大神带着我飞起来!!!!

get案例 爬取百度贴吧相关推荐

  1. 爬虫小案例 爬取百度贴吧赵丽颖图片案例 xpath 美丽汤

    美丽汤版本: import requests from bs4 import BeautifulSoup import os from hashlib import md5def get_html(u ...

  2. Python爬虫实战,简单的爬虫案例,以及爬取百度贴吧网页原码和360翻译

    一.爬取网页上的图片 import requestsresponse = requests.get("http://file.elecfans.com/web1/M00/8B/33/o4YB ...

  3. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  4. 爬取百度 《一人之下》 贴吧

    爬取百度贴吧 分析 分析过程中代码 最终源代码 爬虫理论部分基本完结,后续可能进行补充 接下来, 我会通过 分析 + 代码 记录全系列的爬虫案例 注: 大部分案例虽然格式有点小瑕疵,但思路和分析的过程 ...

  5. Python之爬取百度地图兴趣点(POI)数据

    关于爬虫系列,前三篇文章分别讲了三个简单案例,分别爬取了<你好,李焕英>电影豆瓣热门短评.58同城在售楼盘房源信息以及安居客网二手房小区详情页数据.通过前三个案例,相信大家都对爬虫有了简单 ...

  6. 经典爬虫:用Scrapy爬取百度股票

    前言 今天我们编写一个用 Scrapy 框架来爬取百度股票的代码,之前写过一篇爬取百度股票的文章(点我),代码的逻辑和这篇文章的逻辑是一样的,用到的解析器不同罢了. Scrapy 爬虫框架 Scrap ...

  7. Python 爬虫实例(1)—— 爬取百度图片

    爬取百度图片  在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNightimport json ...

  8. python爬取贴吧所有帖子-Python爬虫实例(一)爬取百度贴吧帖子中的图片

    程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取 例如我们进入秦时明月吧,提取并分析其有效url如下 ?后面为查询字 ...

  9. 用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科

    最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释 我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果 但是自己又没有心思做这样一个数 ...

最新文章

  1. Oracle EBS PO 接受入库
  2. 春运首日山东烟台海上安全巡航
  3. VAE(变分自编码器)学习笔记
  4. JQuery. Parse XML children recursively. How? - Stack Overflow
  5. 高考封路,大叔骑车强闯
  6. grub rescue 修复
  7. Harmony OS — Image图片
  8. SqlServer 2008R2修改表结构提示“不允许保存更改”解决方案
  9. go lang chrome 爬虫 (MAC 系统)
  10. linux 内核参数优化 mysql_Linux 系统内核参数优化
  11. 如何实现:GridView 控件中显示的文本不自动换行,隐藏超出宽度部分wj-wangjun
  12. access h3c交换机光口_华为交换机的配置及:access、trunk、hybird端口详解
  13. Redis客户端工具-AnotherRedisDesktopManager
  14. Resource Hacker-资源替换工具
  15. 通过描述系统的微分方程,判断系统是否为线性系统以及是定常系统还是时变系统
  16. 2021年谷歌地球专业版使用方法,解决Google Earth无法连接服务器问题。
  17. 全球数据共享网站集合
  18. WARNING: There was an error checking the latest version of pip.
  19. 点电荷分布matlab仿真,利用Matlab模拟点电荷的电场分布..doc
  20. 如何快速搞定技术女神

热门文章

  1. InnoDB 离线转储工具
  2. 2012年移动SEO启示
  3. SAM9X60 curiosity开发板,U盘拷贝文件到开发板
  4. SCCM2012软件分发
  5. 【3维视觉】DCC-DIF复现,超详细避坑指南
  6. Python itchat模块报错:为了你的帐号安全,此微信号不能登录网页微信。你可以使用Windows微信或Mac微信在电脑端登录。
  7. java调用zebra_java调用斑马GK888t打印机(ZPL指令)
  8. 客制化键盘编程_装机单推荐 篇二:垃圾佬的第一个客制化键盘---gk64升级版
  9. Simulink永磁同步电机控制仿真系列五:使用滑模观测器的反电动势法位置估计
  10. HTTP协议及GET、POST的差异