php 模拟蜘蛛,PHP实现使用CURL模拟百度蜘蛛进行采集
//实现使用curl模拟百度蜘蛛进行采集
class Curlcontent{
protected function _GetContent( $url )
{
$this->ch = curl_init();
$this->ip = '220.181.108.'.rand(1,255); // 百度蜘蛛
$this->timeout = 15;
curl_setopt($this->ch,CURLOPT_URL,$url);
curl_setopt($this->ch,CURLOPT_TIMEOUT,0);
//伪造百度蜘蛛IP
curl_setopt($this->ch,CURLOPT_HTTPHEADER,array('X-FORWARDED-FOR:'.$this->ip.'','CLIENT-IP:'.$this->ip.''));
//伪造百度蜘蛛头部
curl_setopt($this->ch,CURLOPT_USERAGENT,"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");
curl_setopt($this->ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($this->ch,CURLOPT_HEADER,0);
curl_setopt($this->ch,CURLOPT_CONNECTTIMEOUT,$this->timeout);
curl_setopt($this->ch,CURLOPT_SSL_VERIFYPEER,false);
$content = curl_exec($this->ch);
if($content === false)
{//输出错误信息
$no = curl_errno($this->ch);
switch(trim($no))
{
case 28 : $this->error = '访问目标地址超时'; break;
default : $this->error = curl_error($this->ch); break;
}
echo $this->error;
}
else
{
$this->succ = true;
return $content;
}
}
public function getcurl($url){
return $this->_GetContent($url);
}
}
使用方法:
$api = "https://www.maihuangjin.com/mobile/";
$Curlcontent = new Curlcontent();
$data = $Curlcontent->getcurl($api);
php 模拟蜘蛛,PHP实现使用CURL模拟百度蜘蛛进行采集相关推荐
- php 模拟登录淘宝taobao阿里妈妈|模拟登录淘宝联盟|curl模拟登录淘宝|模拟登陆淘宝采集数据
php 模拟登录淘宝taobao阿里妈妈|模拟登录淘宝联盟|curl模拟登录淘宝|模拟登陆淘宝采集数据 在很多项目中我们可能要采集淘宝会员中心的一些数据.但是程序采集的时候会员中心必须是登录的,这里我 ...
- php模拟苹果手机访问,php 使用curl模拟ip和来源进行访问的实现方法
对于限制了ip和来源的网站,使用正常的访问方式是无法访问的.本文将介绍一种方法,使用php的curl类实现模拟ip和来源,访问那些限制了ip和来源的网站. 1.设置页面限制ip和来源访问 server ...
- 网站服务器蜘蛛日志怎么看,如何查看百度蜘蛛,google蜘蛛爬取记录?《网站日志分析篇》...
也许各位常常看到别人在群里聊天,某某人的网站出现什么问题了...别人建议查看网站的日志文件,分析蜘蛛的爬取情况.可是如何去分析日志文件却很少有人去提,接下来我会大概介绍一下,如何去分析网站的日志文件, ...
- 蜘蛛会抓取html框架,百度蜘蛛抓取网站的基本规则
网站做优化的都是希望搜索引擎蜘蛛可以快速抓取,这些大家都是希望的.但是蜘蛛抓取SEO网站的基本规则又是怎样的? 第一:高质量内容 网站高质量内容永远是搜索引擎蜘蛛抓取的首选.不管是谷歌还是百度,高质量 ...
- 简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题
这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503,对Ngi ...
- 简谈如何吸引百度蜘蛛爬到你网站
昨天是星期四,作为一个站长,星期四意味着怎么呢?星期四的时候百度会有一次大调整,所以星期四最好就是更新一些新的内容,好让baiduspider爬到. 先说昨天,昨天因为这个情况,我一时兴起想查看一下百 ...
- 百度爬虫:如何提高百度蜘蛛对网站的抓取量
百度爬虫跟百度蜘蛛其实是一回事,百度蜘蛛在抓取网页信息后,会通过临时数据库进行处理,处理后的内容会被分门别类的收到索引库,等用户搜索相关关键词的时候才会在搜索结果页展现出来. 如何提高百度蜘蛛对网站的 ...
- nginx下禁止垃圾蜘蛛爬取网站,只保留百度蜘蛛和搜狗360神马等
nginx下禁止垃圾蜘蛛爬行网站,只保留百度蜘蛛和搜狗360神马等.访客浏览器打开则出现404错误页,进行跳转.站群引流比较方便,也能规避一些小白参考自己的站群内容. 以宝塔面板为例 if ($htt ...
- php 模拟蜘蛛,PHP模拟百度蜘蛛,伪造IP爬行网站,附源代码
PHP模拟百度蜘蛛,伪造IP爬行网站,附源代码 // 关闭PHP报错 error_reporting( E_ALL^E_NOTICE^E_WARNING ); //实现使用curl模拟百度 蜘蛛进行采 ...
- php读取cookie文件,PHP读取CURL模拟登录时生成Cookie文件的方法,_PHP教程
PHP读取CURL模拟登录时生成Cookie文件的方法, 本文实例讲述了PHP读取CURL模拟登录时生成Cookie文件的方法.分享给大家供大家参考.具体实现方法如下: 在使用PHP中的CURL模拟登 ...
最新文章
- @ConfigurationProperties和@Value不同的使用场景,@Bean添加组件 (6.spring boot配置文件注入)...
- JSP引入CSS文件无法生效的问题
- 关于tomcat Post 数据参数的问题
- asp.net mvc 缓存CaChe使用
- Cryengine 3新的全局光照算法简介
- Avalanche发布AvalancheGo v1.2.3版本
- 算法与数据结构简单启蒙,我当年学习算法走过的坑
- mschart 控件
- 优化动画卡顿:卡顿原因分析及优化方案
- Spring Security 强制退出指定用户
- Android Studio Shape属性(上)
- neo4j java 模糊搜索,Neo4j 使用cypher语言进行查询
- Docker学习笔记八:删除镜像构建私有Registry
- 计算机基础实验教程第二版苏州大学出版社,计算机基础实验教程
- python中什么是一个无序的不重复元素序列_无序Python集的“顺序”
- [福禄克] Fluke同轴电缆测试模块DSX-CHA003 COAX
- 黑马程序员01_String
- PureFTPd Readme 中文文档
- 世界上最远的距离 ——泰戈尔
- 微信公众号前端开发,学习路线图必不可少