这里要注意,获取贴吧ID有防爬虫,他会把数据用<!-- -->这个注释掉。

运行截图如下:

注意要伪造成浏览器,不然获取不到数据

代码如下:

import requests
import queue
import time
from bs4 import BeautifulSoupheader = {'Host' : 'tieba.baidu.com','Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','Accept-Language' : 'zh-CN,zh;q=0.9','Cache-Control' : 'no-cache','Connection' : 'keep-alive','Cookie' : 'xxxxxxxxxxxxxxxx','Pragma' : 'no-cache','User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36','sec-ch-ua' : '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"'
}baseUrl = "https://tieba.baidu.com/f?kw=%E5%B8%9D&ie=utf-8"
urlQueue = queue.Queue(10000)def getRequest(url):response = requests.get(url, headers = header)return response.textpassif __name__ == '__main__':urlQueue.put(baseUrl)for i in range(100):url = urlQueue.get()content = getRequest(baseUrl + url)content = content.replace('-->', '').replace('<!--', '')contentSoup = BeautifulSoup(content, "html.parser")urlAllList = contentSoup.select("a")for urlTmp in urlAllList:if urlTmp.attrs.__contains__('href'):urlString = urlTmp['href']if '/p/' in urlString:testUrl = urlString.split('/p/')[1]urlQueue.put(testUrl)passpasspassprint('over')pass

Python笔记-获取某贴吧页面所有的贴吧id相关推荐

  1. python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...

    A8 书    名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版    次:01-01 页    数:212 开   ...

  2. Python笔记-获取某百科页面所有URL(提取某百科所有URL)

    程序运行截图如下: 这里分析下页面: 凡是百度百科的都是在此url上 https://baike.baidu.com/item/ xxxxx,所以可以直接提取. 这里我们用个队列,将这个页面的所有有关 ...

  3. Python笔记-获取拉钩网南京关于python岗位数据

    FIddler抓包如下: 程序打印如下: 源码如下: import re import requestsclass HandleLaGou(object):def __init__(self):sel ...

  4. vue element ui跳转页获取跳转前页面列表里的行id

    后台管理系统经常要用到列表,在列表的每一行经常需要做编辑操作,自己做项目的时候,编辑页用了一个新的隐藏页,通过路由加载,隐藏页需要获取前一页当前行的id,可以在跳转时携带一个行参数id,通过this. ...

  5. python爬虫获取url_Python爬虫如何获取页面内所有URL链接?本文详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  6. python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解

    如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  7. Python笔记:日期时间获取与转换

    世界时(Universal Time, UT)是根据地球自转周期确定的时间,1s为全年内每日平均长度的1/86400,由于地球绕太阳公转的轨道不是圆的,地球与太阳之间的距离不是固定的,导致太阳相对绕地 ...

  8. python笔记-爬取猎聘网招聘信息

    目录 猎聘网信息爬取 爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格 爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...

  9. 好全面的python笔记,那我就笑纳了

    注:本笔记基于python2.6而编辑,尽量的偏向3.x的语法 Python的特色 1.简单 2.易学 3.免费.开源 4.高层语言: 封装内存管理等 5.可移植性: 程序如果避免使用依赖于系统的特性 ...

最新文章

  1. windows cmd 查看占用端口号PID并且结束进程
  2. python 抓取网页(一)
  3. 今日机器学习概念:感知机模型
  4. 编写下载服务器。 第三部分:标头:内容长度和范围
  5. python 获取windows上 网络连接信息 ip dhcp dns gateway
  6. HTML5实现Word中文字全环绕图片效果
  7. Python《回车桌面图片》
  8. 很多创业者总是说融资难
  9. Python3读取kafka消息写入HBASE
  10. 计算机网络体系结构整理-第九单元移动IP
  11. 每天10个Linux命令四
  12. 技术是如何推动内容产业的。
  13. WPS国际版(安卓)
  14. Facebook分享动态内容
  15. 计算机桌面ico图标,.ico格式图标制作转换教程及DIY桌面图标的方法
  16. 单片机管脚工作状态的解释
  17. window终端光标消失
  18. 安装fcitx五笔拼音
  19. ROS项目库依赖库 CMakeLists.txt中添加第三方库路径
  20. Qt QSqlQueryModel详解

热门文章

  1. SAN Inter-Fabric Routing and Vitrual Fabrics
  2. C#中的泛型化方法的实现
  3. VS Code前端开发利器-常用快捷键
  4. Castle ActiveRecord学习实践(2):构建配置信息
  5. 如何在数字化转型战略中真正获得价值?浅谈数字化转型的四个层级
  6. 手也很光滑的飞鸽传书
  7. 今天的一下子跳出来了的超级玛丽
  8. 马上就要到了的即时通讯
  9. 【秘诀】我进公司到现在都尽量避免遇上和同事撞单
  10. [多图]全球范围内Linux用户普及度数据