//实现使用curl模拟百度蜘蛛进行采集

class Curlcontent{

protected function _GetContent( $url )

{

$this->ch = curl_init();

$this->ip = '220.181.108.'.rand(1,255);  // 百度蜘蛛

$this->timeout = 15;

curl_setopt($this->ch,CURLOPT_URL,$url);

curl_setopt($this->ch,CURLOPT_TIMEOUT,0);

//伪造百度蜘蛛IP

curl_setopt($this->ch,CURLOPT_HTTPHEADER,array('X-FORWARDED-FOR:'.$this->ip.'','CLIENT-IP:'.$this->ip.''));

//伪造百度蜘蛛头部

curl_setopt($this->ch,CURLOPT_USERAGENT,"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");

curl_setopt($this->ch,CURLOPT_RETURNTRANSFER,1);

curl_setopt($this->ch,CURLOPT_HEADER,0);

curl_setopt($this->ch,CURLOPT_CONNECTTIMEOUT,$this->timeout);

curl_setopt($this->ch,CURLOPT_SSL_VERIFYPEER,false);

$content = curl_exec($this->ch);

if($content === false)

{//输出错误信息

$no = curl_errno($this->ch);

switch(trim($no))

{

case 28 : $this->error = '访问目标地址超时'; break;

default : $this->error = curl_error($this->ch); break;

}

echo $this->error;

}

else

{

$this->succ = true;

return $content;

}

}

public  function getcurl($url){

return $this->_GetContent($url);

}

}

使用方法:

$api = "https://www.maihuangjin.com/mobile/";

$Curlcontent = new Curlcontent();

$data = $Curlcontent->getcurl($api);

php 模拟蜘蛛,PHP实现使用CURL模拟百度蜘蛛进行采集相关推荐

  1. php 模拟登录淘宝taobao阿里妈妈|模拟登录淘宝联盟|curl模拟登录淘宝|模拟登陆淘宝采集数据

    php 模拟登录淘宝taobao阿里妈妈|模拟登录淘宝联盟|curl模拟登录淘宝|模拟登陆淘宝采集数据 在很多项目中我们可能要采集淘宝会员中心的一些数据.但是程序采集的时候会员中心必须是登录的,这里我 ...

  2. php模拟苹果手机访问,php 使用curl模拟ip和来源进行访问的实现方法

    对于限制了ip和来源的网站,使用正常的访问方式是无法访问的.本文将介绍一种方法,使用php的curl类实现模拟ip和来源,访问那些限制了ip和来源的网站. 1.设置页面限制ip和来源访问 server ...

  3. 网站服务器蜘蛛日志怎么看,如何查看百度蜘蛛,google蜘蛛爬取记录?《网站日志分析篇》...

    也许各位常常看到别人在群里聊天,某某人的网站出现什么问题了...别人建议查看网站的日志文件,分析蜘蛛的爬取情况.可是如何去分析日志文件却很少有人去提,接下来我会大概介绍一下,如何去分析网站的日志文件, ...

  4. 蜘蛛会抓取html框架,百度蜘蛛抓取网站的基本规则

    网站做优化的都是希望搜索引擎蜘蛛可以快速抓取,这些大家都是希望的.但是蜘蛛抓取SEO网站的基本规则又是怎样的? 第一:高质量内容 网站高质量内容永远是搜索引擎蜘蛛抓取的首选.不管是谷歌还是百度,高质量 ...

  5. 简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题

    这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503,对Ngi ...

  6. 简谈如何吸引百度蜘蛛爬到你网站

    昨天是星期四,作为一个站长,星期四意味着怎么呢?星期四的时候百度会有一次大调整,所以星期四最好就是更新一些新的内容,好让baiduspider爬到. 先说昨天,昨天因为这个情况,我一时兴起想查看一下百 ...

  7. 百度爬虫:如何提高百度蜘蛛对网站的抓取量

    百度爬虫跟百度蜘蛛其实是一回事,百度蜘蛛在抓取网页信息后,会通过临时数据库进行处理,处理后的内容会被分门别类的收到索引库,等用户搜索相关关键词的时候才会在搜索结果页展现出来. 如何提高百度蜘蛛对网站的 ...

  8. nginx下禁止垃圾蜘蛛爬取网站,只保留百度蜘蛛和搜狗360神马等

    nginx下禁止垃圾蜘蛛爬行网站,只保留百度蜘蛛和搜狗360神马等.访客浏览器打开则出现404错误页,进行跳转.站群引流比较方便,也能规避一些小白参考自己的站群内容. 以宝塔面板为例 if ($htt ...

  9. php 模拟蜘蛛,PHP模拟百度蜘蛛,伪造IP爬行网站,附源代码

    PHP模拟百度蜘蛛,伪造IP爬行网站,附源代码 // 关闭PHP报错 error_reporting( E_ALL^E_NOTICE^E_WARNING ); //实现使用curl模拟百度 蜘蛛进行采 ...

  10. php读取cookie文件,PHP读取CURL模拟登录时生成Cookie文件的方法,_PHP教程

    PHP读取CURL模拟登录时生成Cookie文件的方法, 本文实例讲述了PHP读取CURL模拟登录时生成Cookie文件的方法.分享给大家供大家参考.具体实现方法如下: 在使用PHP中的CURL模拟登 ...

最新文章

  1. @ConfigurationProperties和@Value不同的使用场景,@Bean添加组件 (6.spring boot配置文件注入)...
  2. JSP引入CSS文件无法生效的问题
  3. 关于tomcat Post 数据参数的问题
  4. asp.net mvc 缓存CaChe使用
  5. Cryengine 3新的全局光照算法简介
  6. Avalanche发布AvalancheGo v1.2.3版本
  7. 算法与数据结构简单启蒙,我当年学习算法走过的坑
  8. mschart 控件
  9. 优化动画卡顿:卡顿原因分析及优化方案
  10. Spring Security 强制退出指定用户
  11. Android Studio Shape属性(上)
  12. neo4j java 模糊搜索,Neo4j 使用cypher语言进行查询
  13. Docker学习笔记八:删除镜像构建私有Registry
  14. 计算机基础实验教程第二版苏州大学出版社,计算机基础实验教程
  15. python中什么是一个无序的不重复元素序列_无序Python集的“顺序”
  16. [福禄克] Fluke同轴电缆测试模块DSX-CHA003 COAX
  17. 黑马程序员01_String
  18. PureFTPd Readme 中文文档
  19. 世界上最远的距离 ——泰戈尔
  20. 微信公众号前端开发,学习路线图必不可少

热门文章

  1. 奥克兰计算机科学专业世界排名,2020年新西兰计算机科学专业大学排名
  2. PLC可编程控制器实验
  3. 评弱水三千,该取几瓢饮?———贪恋还是专情
  4. 联想thinkpad e430 设置u盘启动
  5. 一维码二维码的生成及打印
  6. linux 2.6.32文件系统的dentry父子关系
  7. U盘文件变成exe格式的解决办法
  8. 在线卡西欧计算机,卡西欧科学计算器在线
  9. iOS 音乐播放器demo讲解
  10. 树形结构的数据库表设计