php抓取网页内容 设置抓取时间,用php抓取网页内容方法总结
用php抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等,抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的同学可以参考本站的《正则表达式》板块:http://phpzixue.cn/articles11.shtml ,以下就是几种常用的用php抓取网页中的内容的方法。
1.file_get_contents
PHP代码
$url = "http://www.phpzixue.cn";
$contents = file_get_contents($url);
//如果出现中文乱码使用下面代码
//$getcontent = iconv("gb2312", "utf-8",$contents);
echo $contents;
?>
2.curl
PHP代码
$url = "http://www.phpzixue.cn";
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;
?>
3.fopen->fread->fclose
PHP代码
$handle = fopen ("http://www.phpzixue.cn", "rb");
$contents = "";
do {
$data = fread($handle, 1024);
if (strlen($data) == 0) {
break;
}
$contents .= $data;
} while(true);
fclose ($handle);
echo $contents;
?>
注: 1.使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。 2.使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而 且需要拷贝ssleay32.dll和libeay32.dll到C:/WINDOWS/system32下;Linux下要安装curl扩展。
php抓取网页内容 设置抓取时间,用php抓取网页内容方法总结相关推荐
- Fiddler抓取https设置及其原理
Fiddler抓取https设置及其原理 2018-02-02 目录 1 HTTPS握手过程 2 Fiddler抓取HTTPS过程 3 Fiddler抓取HTTPS设置 参考 数字签名是什么? 1 H ...
- IDM下载器:站点抓取相关设置介绍
Internet Download Manager(简称IDM)是一款十分好用资源下载器,它的站点抓取功能不仅可以下载被过滤器指定所需文件,例如一个站点的所有图片,或者一个站点的所有音频,也可以下载站 ...
- php抓取网页内容实例,详解php中抓取网页内容的实例
php中抓取网页内容的实例详解 方法一: 使用file_get_contents方法实现$url = "http://news.sina.com.cn/c/nd/2016-10-23/doc ...
- 美国服务器百度抓取耗时不稳定,百度或者其他搜索引擎抓取频次快慢的因素,还会受什么有影响?...
什么是搜索引擎的抓取频次? 抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数. 对于百度搜索引擎来说非常智能: 如果百度搜索引擎对站点的抓取频次过高,就很有可能造成服务器不稳定(相对而言 ...
- 爬虫取中间文本_小小爬虫批量抓取微信推文里的图片
哈喽,大家好,今天给大家分享一个特别特别小的爬虫案例! 爬取微信推文中的图片!!!! 有人说,这有啥用,,,,万一人家推文是放的是以图片的方式放的某个PPT的内容呢,你想把它弄下来,咋整,就是爬取啦. ...
- php抓取aspx_哪些因素会影响蜘蛛抓取页面?
我们在优化网站时,有很多设置是不利于蜘蛛抓取的,具体有哪些呢? 建设网站地图 网站地图就像一个指向标,唯有清晰明了的指向标,才能指引蜘蛛抓取的路线.如果网站地图清晰明了,蜘蛛很乐意在网站进行爬行.但是 ...
- python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
- 华为抓取错误日志在哪里_分析Spider抓取情况和SEO优化
搜索引擎蜘蛛网站的爬行应该更值得搜索引擎优化人员的研究.然而,许多搜索引擎优化人员面对搜索引擎抓取从日志中提取的记录,并且不知道要分析什么.下面简要讨论Spider在网站上的爬行值得分析以及分析结果如 ...
- webscraper多页爬取_Web Scraper 高级用法——Web Scraper 抓取多条内容 | 简易数据分析 07...
这是简易数据分析系列的第 7 篇文章. 在第 4 篇文章里,我讲解了如何抓取单个网页里的单类信息: 在第 5 篇文章里,我讲解了如何抓取多个网页里的单类信息: 今天我们要讲的是,如何抓取多个网页里的多 ...
- 机器人识别抓取笔记(基于视觉的机器人抓取——从物体定位、物体姿态估计到平行抓取器抓取估计:综述)
Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous Robotic ...
最新文章
- php自动轮播图代码,JavaScript如何实现动态轮播图效果?(代码示例)
- e站app改内置hosts_e-Mobile安卓下载-e
- python变量类型-python变量的数据类型有哪些?
- 垃圾回收机制之复制算法
- 计算机语言由低到高就被分为了什么阶段,2004年4月高等教育自学考试认知心理试题...
- (王道408考研数据结构)第二章线性表-第一节:线性表的定义和基本操作
- jenkins执行本地/远程shell脚本
- sublime text 3的组合快捷键汇总
- visio专业版svg图片裁剪
- 手机连接hp打印机打印
- ADM2587E外围电路设计
- linux下解压war格式的包
- 关于如何排查vpn服务器无法转发的问题
- 安全策略手记 (安全沙箱全攻略)
- 【学术前沿分析】1 论文数据统计
- 普通用户不能登录linux图形界面,只有root用户可以登录到图形界面
- element中关于el-autocomplete和validate规则trigger/change之间的问题
- 一维信号小波阈值去噪
- AcWing Round #14
- 计算机网桥知识,网桥的作用及工作原理【图文】