HackRequests+BeautifulSoup+re爬取网站网址

先用语法搜索一波想要爬取的网站

点击页码，抓包看看请求头，多抓几个放入对比器找到页码参数

可以看到页码参数为pn，第一页为0，第二页为10，第五页为40，可以知道每一页pn增加10，写python脚本。

import re
from bs4 import BeautifulSoup as BS
import HackRequests as hackdef tomcat(raw):hh = hack.httpraw(raw=raw)soup = BS(hh.text(), features="html.parser")#正则匹配网址，通过观察，a标签，href属性格式links = soup.findAll(name='a', attrs={'href': re.compile('http://www.baidu.com/link\?url=.*')})for link in links:print(link.string)      #输出字段名print(link['href'])     #输出网址#将pn参数放到最后，方便连接字符串
raw_page = 'GET /s?ie=utf-8&mod=1&isbd=1&isid=129DDD7A2FE32451&wd=site%3A%20edu.cn&oq=site%3A%20edu.cn&ie=utf-8&fenlei=256&rsv_idx=1&rsv_pq=e3c8f4c5000b3572&rsv_t=870dU8DsHEu%2FioPhYCTFNvt%2BwBmK%2F7nBbRXcKJjYJ3V33QGx26u%2Ft7M%2BR1g&bs=site%3A%20edu.cn&rsv_sid=undefined&_ss=1&clist=&hsug=&f4s=1&csor=0&_cr1=23354&pn='raw_start = ''' HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0
Accept: */*
Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2
Accept-Encoding: gzip, deflate
Referer: https://www.baidu.com/s?wd=site%3A%20edu.cn&pn=0&oq=site%3A%20edu.cn&ie=utf-8&fenlei=256&rsv_idx=1&rsv_pq=e3c8f4c5000b3572&rsv_t=870dU8DsHEu%2FioPhYCTFNvt%2BwBmK%2F7nBbRXcKJjYJ3V33QGx26u%2Ft7M%2BR1g
is_referer: https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=site%3A%20edu.cn&fenlei=256&oq=site%3A%20edu.cn&rsv_pq=e3c8f4c5000b3572&rsv_t=115e78IopHFoGK3emidi6dEC2gCfqIXU0IfxQcXi3b2R4B2cbxBCjZmwooM&rqlang=cn
is_xhr: 1
X-Requested-With: XMLHttpRequest
Connection: close
Cookie: BAIDUID=129DDDFF46D0A1C212B27A6371E7A2FE:FG=1; BIDUPSID=129DDDFF46D0A1C22BD8222C5A00E952; PSTM=1610935116; __yjs_duid=1_1c81f77543f4482a411171dff7443ae81618402635899; H_PS_PSSID=31660_34552_33848_34449_34585_34092_34505_34577_26350_34556; BD_UPN=13314752; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_645EC=870dU8DsHEu%2FioPhYCTFNvt%2BwBmK%2F7nBbRXcKJjYJ3V33QGx26u%2Ft7M%2BR1g; rsv_jmp_slow=1631093805704; delPer=0; BD_CK_SAM=1; PSINO=1; BA_HECTOR=akah0k0585a4800k961gjh12i0r
Sec-Fetch-Dest: empty
Sec-Fetch-Mode: cors
Sec-Fetch-Site: same-origin'''for pages_count in range(0, 100, 10):raw = raw_page+str(pages_count)+raw_starttomcat(raw)

运行查看结果

HackRequests+BeautifulSoup+re爬取网站网址相关推荐

python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...
Python运用urllib2和BeautifulSoup爬取网站ZOL桌面壁纸上的精美电脑壁纸
Python运用urllib2和BeautifulSoup爬取网站ZOL桌面壁纸上的精美电脑壁纸 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Ti ...
python爬取网站的图片
python爬取网站的图片本次爬取图片所需要用到的库:Requests库,BeautifulSoup库,正则表达式,os库. 思路:先爬一张图片,再爬一个网站的图片先爬一张图片: 首先要得到这张图 ...
今天教你用 Python 爬取网站的指南
通过基本的 Python 工具获得爬取完整 HTML 网站的实践经验. (本文字数:11235,阅读时长大约:14 分钟) 有很多很棒的书可以帮助你学习 Python ,但是谁真正读了这那些大部头呢? ...
爬虫简单爬取网站信息
首先打开想要爬取的网站,找到想要爬取的内容开始编写代码: 引入需要的模块 import os #引入系统模块 from bs4 import BeautifulSoup # 网页解析,获取数据 im ...
python如何爬取网站所有目录_[python] 爬取网站所有的URL
运行python脚本,最终程序目录下会是这样: result.txt中保存所有的URL 文件夹sh.neusoft.com中保存爬虫得到的所有网页 main.py的源代码如下 # -*- coding ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
scrapy框架爬取网站图片
使用scrapy 框架爬取彼岸图库前言: 这两天在网上学习了一下scrapy框架,发现及其好用,把爬虫步骤分的细细的.所以写了一个简单项目回顾一下并分享给大家^ . ^ 源码我已经放到Github了 ...
python爬取网站源代码+图片
python爬取网站源代码+图片需求分析基础知识正则表达式 python网络请求文件读写实现基本思路具体实现结果总结需求分析大部分有志青年都想建立属于自己的个人网站,从零开始设计 ...

HackRequests+BeautifulSoup+re爬取网站网址

HackRequests+BeautifulSoup+re爬取网站网址相关推荐

最新文章

热门文章