先用语法搜索一波想要爬取的网站

点击页码,抓包看看请求头,多抓几个放入对比器找到页码参数



可以看到页码参数为pn,第一页为0,第二页为10,第五页为40,可以知道每一页pn增加10,写python脚本。

import re
from bs4 import BeautifulSoup as BS
import HackRequests as hackdef tomcat(raw):hh = hack.httpraw(raw=raw)soup = BS(hh.text(), features="html.parser")#正则匹配网址,通过观察,a标签,href属性格式links = soup.findAll(name='a', attrs={'href': re.compile('http://www.baidu.com/link\?url=.*')})for link in links:print(link.string)      #输出字段名print(link['href'])     #输出网址#将pn参数放到最后,方便连接字符串
raw_page = 'GET /s?ie=utf-8&mod=1&isbd=1&isid=129DDD7A2FE32451&wd=site%3A%20edu.cn&oq=site%3A%20edu.cn&ie=utf-8&fenlei=256&rsv_idx=1&rsv_pq=e3c8f4c5000b3572&rsv_t=870dU8DsHEu%2FioPhYCTFNvt%2BwBmK%2F7nBbRXcKJjYJ3V33QGx26u%2Ft7M%2BR1g&bs=site%3A%20edu.cn&rsv_sid=undefined&_ss=1&clist=&hsug=&f4s=1&csor=0&_cr1=23354&pn='raw_start = ''' HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0
Accept: */*
Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2
Accept-Encoding: gzip, deflate
Referer: https://www.baidu.com/s?wd=site%3A%20edu.cn&pn=0&oq=site%3A%20edu.cn&ie=utf-8&fenlei=256&rsv_idx=1&rsv_pq=e3c8f4c5000b3572&rsv_t=870dU8DsHEu%2FioPhYCTFNvt%2BwBmK%2F7nBbRXcKJjYJ3V33QGx26u%2Ft7M%2BR1g
is_referer: https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=site%3A%20edu.cn&fenlei=256&oq=site%3A%20edu.cn&rsv_pq=e3c8f4c5000b3572&rsv_t=115e78IopHFoGK3emidi6dEC2gCfqIXU0IfxQcXi3b2R4B2cbxBCjZmwooM&rqlang=cn
is_xhr: 1
X-Requested-With: XMLHttpRequest
Connection: close
Cookie: BAIDUID=129DDDFF46D0A1C212B27A6371E7A2FE:FG=1; BIDUPSID=129DDDFF46D0A1C22BD8222C5A00E952; PSTM=1610935116; __yjs_duid=1_1c81f77543f4482a411171dff7443ae81618402635899; H_PS_PSSID=31660_34552_33848_34449_34585_34092_34505_34577_26350_34556; BD_UPN=13314752; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_645EC=870dU8DsHEu%2FioPhYCTFNvt%2BwBmK%2F7nBbRXcKJjYJ3V33QGx26u%2Ft7M%2BR1g; rsv_jmp_slow=1631093805704; delPer=0; BD_CK_SAM=1; PSINO=1; BA_HECTOR=akah0k0585a4800k961gjh12i0r
Sec-Fetch-Dest: empty
Sec-Fetch-Mode: cors
Sec-Fetch-Site: same-origin'''for pages_count in range(0, 100, 10):raw = raw_page+str(pages_count)+raw_starttomcat(raw)

运行查看结果

HackRequests+BeautifulSoup+re爬取网站网址相关推荐

  1. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  2. Python运用urllib2和BeautifulSoup爬取网站ZOL桌面壁纸上的精美电脑壁纸

    Python运用urllib2和BeautifulSoup爬取网站ZOL桌面壁纸上的精美电脑壁纸 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Ti ...

  3. python爬取网站的图片

    python爬取网站的图片 本次爬取图片所需要用到的库:Requests库,BeautifulSoup库,正则表达式,os库. 思路:先爬一张图片,再爬一个网站的图片 先爬一张图片: 首先要得到这张图 ...

  4. 今天教你用 Python 爬取网站的指南

    通过基本的 Python 工具获得爬取完整 HTML 网站的实践经验. (本文字数:11235,阅读时长大约:14 分钟) 有很多很棒的书可以帮助你学习 Python ,但是谁真正读了这那些大部头呢? ...

  5. 爬虫简单爬取网站信息

    首先打开想要爬取的网站,找到想要爬取的内容 开始编写代码: 引入需要的模块 import os #引入系统模块 from bs4 import BeautifulSoup # 网页解析,获取数据 im ...

  6. python如何爬取网站所有目录_[python] 爬取网站所有的URL

    运行python脚本,最终程序目录下会是这样: result.txt中保存所有的URL 文件夹sh.neusoft.com中保存爬虫得到的所有网页 main.py的源代码如下 # -*- coding ...

  7. 利用linux curl爬取网站数据

    看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...

  8. scrapy框架爬取网站图片

    使用scrapy 框架爬取彼岸图库 前言: 这两天在网上学习了一下scrapy框架,发现及其好用,把爬虫步骤分的细细的.所以写了一个简单项目回顾一下并分享给大家^ . ^ 源码我已经放到Github了 ...

  9. python爬取网站源代码+图片

    python爬取网站源代码+图片 需求分析 基础知识 正则表达式 python网络请求 文件读写 实现 基本思路 具体实现 结果 总结 需求分析 大部分有志青年都想建立属于自己的个人网站,从零开始设计 ...

最新文章

  1. django 2.0路由配置变化
  2. 计算机教师40辞职能做什么,干了二十多年老师,四十多岁了,嫌累想辞职,还能有更好的出路吗...
  3. javascript函数练习1
  4. SQL Server-聚焦事务对本地变量、临时表、表变量影响以及日志文件存满时如何收缩(三十一)...
  5. 程序员应该具备的能力
  6. Web前端开发应该避免的几个思维误区
  7. 三相pmsm矢量控制仿真模型_低载波比工况下永磁同步电机磁链矢量轨迹分析
  8. php下的原生ajax请求
  9. 2019-03-14-算法-进化(两个数组的交集 II)
  10. UIViewController生命周期的理解
  11. 推荐几个手机网站在线预览测试工具
  12. 杭电1286找新朋友
  13. R语言︱R社区的简单解析(CRAN、CRAN Task View)
  14. 学习Java随记之swing编程(2)
  15. 数字通信计算机仿真问题汇总,燕山大学数字通信计算机仿真课设模板.doc
  16. 数据库系统工程师真题及详解(2015~2021)
  17. 中国移动计算机岗专业知识,【中国移动】计算机技术岗面经
  18. excel转txt后导入mysql 20211207
  19. 1022-郑煤三板、锰硅、硅铁、纯碱跌停
  20. Java类汽车,JAVA 建立一个汽车AutoMobile类......

热门文章

  1. PLSA的理解及推导
  2. 数字天堂移动办公服务 为三一世界五百强梦想助力
  3. zabbix安装部署(简单,全)
  4. 服务器磁盘管理(分区和挂载)
  5. scp 保留文件属组_SCP和Rsync远程拷贝的几个技巧
  6. VSM Studio Arduino 数码管显示串口接收数字
  7. BUUCTF之“axb_2019_fmt64”
  8. 像麦肯锡咨询师一样做商业分析_课程笔记 模块二:信息收集
  9. 一个软件解决OPC系统平稳升级难题
  10. Postman一个接口多次循环调用