用php抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等,抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的同学可以参考本站的《正则表达式》板块:http://phpzixue.cn/articles11.shtml ,以下就是几种常用的用php抓取网页中的内容的方法。

1.file_get_contents

PHP代码

$url = "http://www.phpzixue.cn";

$contents = file_get_contents($url);

//如果出现中文乱码使用下面代码

//$getcontent = iconv("gb2312", "utf-8",$contents);

echo $contents;

?>

2.curl

PHP代码

$url = "http://www.phpzixue.cn";

$ch = curl_init();

$timeout = 5;

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

//在需要用户检测的网页里需要增加下面两行

//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);

//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);

$contents = curl_exec($ch);

curl_close($ch);

echo $contents;

?>

3.fopen->fread->fclose

PHP代码

$handle = fopen ("http://www.phpzixue.cn", "rb");

$contents = "";

do {

$data = fread($handle, 1024);

if (strlen($data) == 0) {

break;

}

$contents .= $data;

} while(true);

fclose ($handle);

echo $contents;

?>

注: 1.使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。 2.使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而 且需要拷贝ssleay32.dll和libeay32.dll到C:/WINDOWS/system32下;Linux下要安装curl扩展。

php抓取网页内容 设置抓取时间,用php抓取网页内容方法总结相关推荐

  1. Fiddler抓取https设置及其原理

    Fiddler抓取https设置及其原理 2018-02-02 目录 1 HTTPS握手过程 2 Fiddler抓取HTTPS过程 3 Fiddler抓取HTTPS设置 参考 数字签名是什么? 1 H ...

  2. IDM下载器:站点抓取相关设置介绍

    Internet Download Manager(简称IDM)是一款十分好用资源下载器,它的站点抓取功能不仅可以下载被过滤器指定所需文件,例如一个站点的所有图片,或者一个站点的所有音频,也可以下载站 ...

  3. php抓取网页内容实例,详解php中抓取网页内容的实例

    php中抓取网页内容的实例详解 方法一: 使用file_get_contents方法实现$url = "http://news.sina.com.cn/c/nd/2016-10-23/doc ...

  4. 美国服务器百度抓取耗时不稳定,百度或者其他搜索引擎抓取频次快慢的因素,还会受什么有影响?...

    什么是搜索引擎的抓取频次? 抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数. 对于百度搜索引擎来说非常智能: 如果百度搜索引擎对站点的抓取频次过高,就很有可能造成服务器不稳定(相对而言 ...

  5. 爬虫取中间文本_小小爬虫批量抓取微信推文里的图片

    哈喽,大家好,今天给大家分享一个特别特别小的爬虫案例! 爬取微信推文中的图片!!!! 有人说,这有啥用,,,,万一人家推文是放的是以图片的方式放的某个PPT的内容呢,你想把它弄下来,咋整,就是爬取啦. ...

  6. php抓取aspx_哪些因素会影响蜘蛛抓取页面?

    我们在优化网站时,有很多设置是不利于蜘蛛抓取的,具体有哪些呢? 建设网站地图 网站地图就像一个指向标,唯有清晰明了的指向标,才能指引蜘蛛抓取的路线.如果网站地图清晰明了,蜘蛛很乐意在网站进行爬行.但是 ...

  7. python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  8. 华为抓取错误日志在哪里_分析Spider抓取情况和SEO优化

    搜索引擎蜘蛛网站的爬行应该更值得搜索引擎优化人员的研究.然而,许多搜索引擎优化人员面对搜索引擎抓取从日志中提取的记录,并且不知道要分析什么.下面简要讨论Spider在网站上的爬行值得分析以及分析结果如 ...

  9. webscraper多页爬取_Web Scraper 高级用法——Web Scraper 抓取多条内容 | 简易数据分析 07...

    这是简易数据分析系列的第 7 篇文章. 在第 4 篇文章里,我讲解了如何抓取单个网页里的单类信息: 在第 5 篇文章里,我讲解了如何抓取多个网页里的单类信息: 今天我们要讲的是,如何抓取多个网页里的多 ...

  10. 机器人识别抓取笔记(基于视觉的机器人抓取——从物体定位、物体姿态估计到平行抓取器抓取估计:综述)

    Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous Robotic ...

最新文章

  1. php自动轮播图代码,JavaScript如何实现动态轮播图效果?(代码示例)
  2. e站app改内置hosts_e-Mobile安卓下载-e
  3. python变量类型-python变量的数据类型有哪些?
  4. 垃圾回收机制之复制算法
  5. 计算机语言由低到高就被分为了什么阶段,2004年4月高等教育自学考试认知心理试题...
  6. (王道408考研数据结构)第二章线性表-第一节:线性表的定义和基本操作
  7. jenkins执行本地/远程shell脚本
  8. sublime text 3的组合快捷键汇总
  9. visio专业版svg图片裁剪
  10. 手机连接hp打印机打印
  11. ADM2587E外围电路设计
  12. linux下解压war格式的包
  13. 关于如何排查vpn服务器无法转发的问题
  14. 安全策略手记 (安全沙箱全攻略)
  15. 【学术前沿分析】1 论文数据统计
  16. 普通用户不能登录linux图形界面,只有root用户可以登录到图形界面
  17. element中关于el-autocomplete和validate规则trigger/change之间的问题
  18. 一维信号小波阈值去噪
  19. AcWing Round #14
  20. 计算机网桥知识,网桥的作用及工作原理【图文】

热门文章

  1. 计算机视觉入门学习笔记(二)——图像预处理
  2. R16 Dormant BWP
  3. 【产品】产品设计:印刷文件准备要求详解
  4. SQLite Joins
  5. IT作秀大王:李开复
  6. tomcat启动失败处理
  7. Triconex 英维思 7400209-010 I/O 模块
  8. java实现发红包案例(一)
  9. 花生壳微信公众号开发配置
  10. 1106. 解析布尔表达式