PHP curl 爬取反 爬的网站,请开启JavaScript并刷新该页.
目标链接:http://www.pbc.gov.cn/zhengcehuobisi/125207/125213/125440/3876551/index.html
笔者查阅很多资料,大部分人说这样子需要模拟浏览器访问,根本原因是因为cookie不是动态生成的或者不是有效的,方法:
1、chrome-php(一款php模拟chrome或chrome浏览器的插件),注意需要php7
2、直接复制浏览器的cookie
因为笔者用的php5,上述方法1不适用,方法2,还没找到很多办法生成,所以衍生第三种方法,看下图,有没有看出来什么
看到这这个图,然后对比第一张图 的人估计有心中有数了吧,没错就是post请求,用其他请求可以绕过这个坑,估计也是他们的漏洞
PHP curl 爬取反 爬的网站,请开启JavaScript并刷新该页.相关推荐
- requests+bs4批量爬取反爬虫图片网站
导读:爬取反爬虫图片网站 预览效果 遇到的问题: 刚开始爬虫的时候,爬取到的所有图片都是一张重定向推广图片 解决办法:在requests请求头headers中配置Referer属性,指向爬取网站的顶级 ...
- 克服反爬虫机制爬取智联招聘网站
一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制: 在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...
- 爬虫实战:链家租房数据爬取,实习僧网站数据爬取
前面已经进行了爬虫基础部分的学习,于是自己也尝试爬了一些网站数据,用的策略都是比较简单,可能有些因素没有考虑到,但是也爬取到了一定的数据,下面介绍两个爬过的案例. 爬虫实战 链家网站爬取 实习僧网站爬 ...
- Python零基础之爬取王者荣耀官方网站高清壁纸(普通版)
Python零基础之爬取王者荣耀官方网站高清壁纸 目标: 分析过程: 1. 确定目标url 2. 解决url解析问题 3. 图片下载解析 4. 多页面的处理 代码示例 需要注意的问题: 目标: 1.下 ...
- Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内
Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内 目录 输出结果 设计思路 核心 ...
- 从入门到入土:基于Python爬取四川大学所有官方网站|狗头保命|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 爬取唯美女生网站上所有小姐姐的照片
爬取唯美女生网站 前几天刚好看到有人在教学爬取唯美女生网站(https://www.vmgirls.com)的图片,大致听了一下,只是介绍了一次爬取某一个小姐姐的照片,因此就尝试做一个爬取全站小姐姐照 ...
- Scrapy学习——爬取智联招聘网站案例
Scrapy学习--爬取智联招聘网站案例 安装scrapy 下载 安装 准备 分析 代码 结果 安装scrapy 如果直接使用pip安装会在安装Twisted报错,所以我们需要手动安装. 下载 安装s ...
- 使用selenium爬取fofa中的网站链接
上一次爬取fafo给的HTML是被处理过的,不能用,这次我们直接爬取他们给到网站链接,然后自己去爬ip的网站 由于登录后只能爬5页,所以我们只爬5页. import requests from bs4 ...
最新文章
- XFile 关键帧动画的解析遇到的问题
- 《Java Web高级编程——涵盖WebSockets、Spring Framework、JPA H
- php中address,address.php
- 表中的数据导出为insert语句的简单方法
- mysql如何explan优化sql_《MySQL数据库》MySQL 优化SQL(explain)
- WebStrom如何设置字体?
- UEditor 插入图片大于2M提示文件大小超出范围解决办法
- mui中子页面标志html,MUI 图标筛选切换(父页面传值子页面)代码
- 前端工作、学习中常用工具推荐
- 连接不上sql server服务器的解决方案
- Python正则表达式指南下半部
- github客户端与git使用指南
- 人工智能搜索算法案例分析
- 沧海的孤塔-chimera
- 80%菜鸟保税仓可实现送货上门 实现进口全链路、多场景、端到端物流解决方案...
- linux移植1.3寸oled屏幕,芯片SH1106
- 配置 SQL Server 以便使用 2 GB 以上的物理内存
- 塑胶卡扣弹性计算公式_弹性的计算方法
- 强连通基础与例题(Kosaraju算法与Tarjan算法)
- 企查查接口full的实现`