php 模拟蜘蛛,PHP实现使用CURL模拟百度蜘蛛进行采集

//实现使用curl模拟百度蜘蛛进行采集

class Curlcontent{

protected function _GetContent( $url )

{

$this->ch = curl_init();

$this->ip = '220.181.108.'.rand(1,255); // 百度蜘蛛

$this->timeout = 15;

curl_setopt($this->ch,CURLOPT_URL,$url);

curl_setopt($this->ch,CURLOPT_TIMEOUT,0);

//伪造百度蜘蛛IP

curl_setopt($this->ch,CURLOPT_HTTPHEADER,array('X-FORWARDED-FOR:'.$this->ip.'','CLIENT-IP:'.$this->ip.''));

//伪造百度蜘蛛头部

curl_setopt($this->ch,CURLOPT_USERAGENT,"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");

curl_setopt($this->ch,CURLOPT_RETURNTRANSFER,1);

curl_setopt($this->ch,CURLOPT_HEADER,0);

curl_setopt($this->ch,CURLOPT_CONNECTTIMEOUT,$this->timeout);

curl_setopt($this->ch,CURLOPT_SSL_VERIFYPEER,false);

$content = curl_exec($this->ch);

if($content === false)

{//输出错误信息

$no = curl_errno($this->ch);

switch(trim($no))

{

case 28 : $this->error = '访问目标地址超时'; break;

default : $this->error = curl_error($this->ch); break;

}

echo $this->error;

}

else

{

$this->succ = true;

return $content;

}

public function getcurl($url){

return $this->_GetContent($url);

}

使用方法：

$api = "https://www.maihuangjin.com/mobile/";

$Curlcontent = new Curlcontent();

$data = $Curlcontent->getcurl($api);

php 模拟蜘蛛,PHP实现使用CURL模拟百度蜘蛛进行采集相关推荐

php 模拟登录淘宝taobao阿里妈妈|模拟登录淘宝联盟|curl模拟登录淘宝|模拟登陆淘宝采集数据
php 模拟登录淘宝taobao阿里妈妈|模拟登录淘宝联盟|curl模拟登录淘宝|模拟登陆淘宝采集数据在很多项目中我们可能要采集淘宝会员中心的一些数据.但是程序采集的时候会员中心必须是登录的,这里我 ...
php模拟苹果手机访问,php 使用curl模拟ip和来源进行访问的实现方法
对于限制了ip和来源的网站,使用正常的访问方式是无法访问的.本文将介绍一种方法,使用php的curl类实现模拟ip和来源,访问那些限制了ip和来源的网站. 1.设置页面限制ip和来源访问 server ...
网站服务器蜘蛛日志怎么看,如何查看百度蜘蛛，google蜘蛛爬取记录？《网站日志分析篇》...
也许各位常常看到别人在群里聊天,某某人的网站出现什么问题了...别人建议查看网站的日志文件,分析蜘蛛的爬取情况.可是如何去分析日志文件却很少有人去提,接下来我会大概介绍一下,如何去分析网站的日志文件, ...
蜘蛛会抓取html框架,百度蜘蛛抓取网站的基本规则
网站做优化的都是希望搜索引擎蜘蛛可以快速抓取,这些大家都是希望的.但是蜘蛛抓取SEO网站的基本规则又是怎样的? 第一:高质量内容网站高质量内容永远是搜索引擎蜘蛛抓取的首选.不管是谷歌还是百度,高质量 ...
简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题
这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503,对Ngi ...
简谈如何吸引百度蜘蛛爬到你网站
昨天是星期四,作为一个站长,星期四意味着怎么呢?星期四的时候百度会有一次大调整,所以星期四最好就是更新一些新的内容,好让baiduspider爬到. 先说昨天,昨天因为这个情况,我一时兴起想查看一下百 ...
百度爬虫：如何提高百度蜘蛛对网站的抓取量
百度爬虫跟百度蜘蛛其实是一回事,百度蜘蛛在抓取网页信息后,会通过临时数据库进行处理,处理后的内容会被分门别类的收到索引库,等用户搜索相关关键词的时候才会在搜索结果页展现出来. 如何提高百度蜘蛛对网站的 ...
nginx下禁止垃圾蜘蛛爬取网站，只保留百度蜘蛛和搜狗360神马等
nginx下禁止垃圾蜘蛛爬行网站,只保留百度蜘蛛和搜狗360神马等.访客浏览器打开则出现404错误页,进行跳转.站群引流比较方便,也能规避一些小白参考自己的站群内容. 以宝塔面板为例 if ($htt ...
php 模拟蜘蛛,PHP模拟百度蜘蛛，伪造IP爬行网站，附源代码
PHP模拟百度蜘蛛,伪造IP爬行网站,附源代码 // 关闭PHP报错 error_reporting( E_ALL^E_NOTICE^E_WARNING ); //实现使用curl模拟百度蜘蛛进行采 ...
php读取cookie文件,PHP读取CURL模拟登录时生成Cookie文件的方法，_PHP教程
PHP读取CURL模拟登录时生成Cookie文件的方法, 本文实例讲述了PHP读取CURL模拟登录时生成Cookie文件的方法.分享给大家供大家参考.具体实现方法如下: 在使用PHP中的CURL模拟登 ...

php 模拟蜘蛛,PHP实现使用CURL模拟百度蜘蛛进行采集

php 模拟蜘蛛,PHP实现使用CURL模拟百度蜘蛛进行采集相关推荐

最新文章

热门文章