Python笔记-获取某贴吧页面所有的贴吧id

这里要注意，获取贴吧ID有防爬虫，他会把数据用这个注释掉。

运行截图如下：

注意要伪造成浏览器，不然获取不到数据

代码如下：

import requests
import queue
import time
from bs4 import BeautifulSoupheader = {'Host' : 'tieba.baidu.com','Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','Accept-Language' : 'zh-CN,zh;q=0.9','Cache-Control' : 'no-cache','Connection' : 'keep-alive','Cookie' : 'xxxxxxxxxxxxxxxx','Pragma' : 'no-cache','User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36','sec-ch-ua' : '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"'
}baseUrl = "https://tieba.baidu.com/f?kw=%E5%B8%9D&ie=utf-8"
urlQueue = queue.Queue(10000)def getRequest(url):response = requests.get(url, headers = header)return response.textpassif __name__ == '__main__':urlQueue.put(baseUrl)for i in range(100):url = urlQueue.get()content = getRequest(baseUrl + url)content = content.replace('-->', '').replace('<!--', '')contentSoup = BeautifulSoup(content, "html.parser")urlAllList = contentSoup.select("a")for urlTmp in urlAllList:if urlTmp.attrs.__contains__('href'):urlString = urlTmp['href']if '/p/' in urlString:testUrl = urlString.split('/p/')[1]urlQueue.put(testUrl)passpasspassprint('over')pass

Python笔记-获取某贴吧页面所有的贴吧id相关推荐

python爬取淘宝商品做数据挖掘_Python 3爬虫数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍运用Python工具获取电商平台页面数据挖掘书籍...
A8 书名:Python 3爬虫数据清洗与可视化实战作译者:零一,韩要宾,黄园园出版时间:2018-03 千字数:200 版次:01-01 页数:212 开 ...
Python笔记-获取某百科页面所有URL（提取某百科所有URL）
程序运行截图如下: 这里分析下页面: 凡是百度百科的都是在此url上 https://baike.baidu.com/item/ xxxxx,所以可以直接提取. 这里我们用个队列,将这个页面的所有有关 ...
Python笔记-获取拉钩网南京关于python岗位数据
FIddler抓包如下: 程序打印如下: 源码如下: import re import requestsclass HandleLaGou(object):def __init__(self):sel ...
vue element ui跳转页获取跳转前页面列表里的行id
后台管理系统经常要用到列表,在列表的每一行经常需要做编辑操作,自己做项目的时候,编辑页用了一个新的隐藏页,通过路由加载,隐藏页需要获取前一页当前行的id,可以在跳转时携带一个行参数id,通过this. ...
python爬虫获取url_Python爬虫如何获取页面内所有URL链接？本文详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
Python笔记：日期时间获取与转换
世界时(Universal Time, UT)是根据地球自转周期确定的时间,1s为全年内每日平均长度的1/86400,由于地球绕太阳公转的轨道不是圆的,地球与太阳之间的距离不是固定的,导致太阳相对绕地 ...
python笔记-爬取猎聘网招聘信息
目录猎聘网信息爬取爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...
好全面的python笔记，那我就笑纳了
注:本笔记基于python2.6而编辑,尽量的偏向3.x的语法 Python的特色 1.简单 2.易学 3.免费.开源 4.高层语言: 封装内存管理等 5.可移植性: 程序如果避免使用依赖于系统的特性 ...

Python笔记-获取某贴吧页面所有的贴吧id

Python笔记-获取某贴吧页面所有的贴吧id相关推荐

最新文章

热门文章