Python笔记-获取某贴吧页面所有的贴吧id
这里要注意,获取贴吧ID有防爬虫,他会把数据用<!-- -->这个注释掉。
运行截图如下:
注意要伪造成浏览器,不然获取不到数据
代码如下:
import requests
import queue
import time
from bs4 import BeautifulSoupheader = {'Host' : 'tieba.baidu.com','Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','Accept-Language' : 'zh-CN,zh;q=0.9','Cache-Control' : 'no-cache','Connection' : 'keep-alive','Cookie' : 'xxxxxxxxxxxxxxxx','Pragma' : 'no-cache','User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36','sec-ch-ua' : '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"'
}baseUrl = "https://tieba.baidu.com/f?kw=%E5%B8%9D&ie=utf-8"
urlQueue = queue.Queue(10000)def getRequest(url):response = requests.get(url, headers = header)return response.textpassif __name__ == '__main__':urlQueue.put(baseUrl)for i in range(100):url = urlQueue.get()content = getRequest(baseUrl + url)content = content.replace('-->', '').replace('<!--', '')contentSoup = BeautifulSoup(content, "html.parser")urlAllList = contentSoup.select("a")for urlTmp in urlAllList:if urlTmp.attrs.__contains__('href'):urlString = urlTmp['href']if '/p/' in urlString:testUrl = urlString.split('/p/')[1]urlQueue.put(testUrl)passpasspassprint('over')pass
Python笔记-获取某贴吧页面所有的贴吧id相关推荐
- python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...
A8 书 名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版 次:01-01 页 数:212 开 ...
- Python笔记-获取某百科页面所有URL(提取某百科所有URL)
程序运行截图如下: 这里分析下页面: 凡是百度百科的都是在此url上 https://baike.baidu.com/item/ xxxxx,所以可以直接提取. 这里我们用个队列,将这个页面的所有有关 ...
- Python笔记-获取拉钩网南京关于python岗位数据
FIddler抓包如下: 程序打印如下: 源码如下: import re import requestsclass HandleLaGou(object):def __init__(self):sel ...
- vue element ui跳转页获取跳转前页面列表里的行id
后台管理系统经常要用到列表,在列表的每一行经常需要做编辑操作,自己做项目的时候,编辑页用了一个新的隐藏页,通过路由加载,隐藏页需要获取前一页当前行的id,可以在跳转时携带一个行参数id,通过this. ...
- python爬虫获取url_Python爬虫如何获取页面内所有URL链接?本文详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
- python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
- Python笔记:日期时间获取与转换
世界时(Universal Time, UT)是根据地球自转周期确定的时间,1s为全年内每日平均长度的1/86400,由于地球绕太阳公转的轨道不是圆的,地球与太阳之间的距离不是固定的,导致太阳相对绕地 ...
- python笔记-爬取猎聘网招聘信息
目录 猎聘网信息爬取 爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格 爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...
- 好全面的python笔记,那我就笑纳了
注:本笔记基于python2.6而编辑,尽量的偏向3.x的语法 Python的特色 1.简单 2.易学 3.免费.开源 4.高层语言: 封装内存管理等 5.可移植性: 程序如果避免使用依赖于系统的特性 ...
最新文章
- windows cmd 查看占用端口号PID并且结束进程
- python 抓取网页(一)
- 今日机器学习概念:感知机模型
- 编写下载服务器。 第三部分:标头:内容长度和范围
- python 获取windows上 网络连接信息 ip dhcp dns gateway
- HTML5实现Word中文字全环绕图片效果
- Python《回车桌面图片》
- 很多创业者总是说融资难
- Python3读取kafka消息写入HBASE
- 计算机网络体系结构整理-第九单元移动IP
- 每天10个Linux命令四
- 技术是如何推动内容产业的。
- WPS国际版(安卓)
- Facebook分享动态内容
- 计算机桌面ico图标,.ico格式图标制作转换教程及DIY桌面图标的方法
- 单片机管脚工作状态的解释
- window终端光标消失
- 安装fcitx五笔拼音
- ROS项目库依赖库 CMakeLists.txt中添加第三方库路径
- Qt QSqlQueryModel详解