class PhpSpiders {
public $useragent ; //user-agent
public $title ; // 标题
public $encoding ; //编码
public $status ; //状态码
public $url ;
public $text ; //内容
public $content ; //源代码
//规则
public $pattern_key = array (
‘title’ => ‘/<title>(\s*.*)<\/title>/isum’ , //获取title
‘descriptions’ => ‘/<meta +name=”[d|D]escription” +content=”(.*)” +\/>/’ , //获取描述
‘charset’ => ‘/charset=\”?([\w-]+)\”?/i’ , // 获取charset 编码
);
function __construct ( $url ){
$this -> url = $url ;
$this -> useragent = “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36” ;
}
function getData () {
$curl = curl_init ();
curl_setopt ( $curl , CURLOPT_AUTOREFERER , 1 );
curl_setopt ( $curl , CURLOPT_CONNECTTIMEOUT , 10 );
curl_setopt ( $curl , CURLOPT_RETURNTRANSFER , 1 ); //信息流形式返回数据
curl_setopt ( $curl , CURLOPT_USERAGENT , $this -> useragent );
curl_setopt ( $curl , CURLOPT_HTTP_VERSION , CURL_HTTP_VERSION_1_0 );
curl_setopt ( $curl , CURLOPT_SSL_VERIFYPEER , 0 ); //禁用后cURL将终止从服务端进行验证
curl_setopt ( $curl , CURLOPT_URL , $this -> url );
try {
$this -> content = curl_exec ( $curl );
curl_close ( $curl );
} catch ( Exception $e ) {
echo $e . getMessage ();
return false ;
}
}
function getEncoding (){ //获取编码
if ( $this -> content ) {
preg_match ( $this -> pattern_key [ ‘charset’ ], $this -> content , $this -> encoding );
return $this -> encoding [ 1 ];
}
}
function getTitle () {
$this -> getData ();
preg_match ( $this -> pattern_key [ ‘title’ ], $this -> content , $keyContent );
return $keyContent [ 1 ];
}
}
$url = “http://php.net/manual/en/function.curl-setopt.php” ;
$spider = new PhpSpiders ( $url );
$spider -> getData ();
print_r ( $spider -> getTitle ());

http://www.taodudu.cc/news/show-6296786.html

相关文章:

  • php2-3v690,php网页版文件浏览器
  • PHP网页常见漏洞
  • 浏览我的php网页时,出现的都是网页的代码
  • PHP WEB
  • PHP相关网站
  • 本地浏览php网页的方法
  • PHP+HTML
  • php网址
  • PHP网页简单的计算机源代码
  • php 网站
  • 今天做了一个简单的PHP网页
  • PHP做网站
  • PHP 在网页中的运用
  • php网页转html网页怎么弄
  • 查看内存大小时解决的单位问题
  • Infinite
  • The Final
  • 【final】
  • artifact is missing.
  • -inf nan
  • BUU-Crypto-Alice与Bob
  • cf1341 Nastya and Door
  • FZU - 2062 - Suneast Yayamao
  • BZOJ3681: Arietta
  • a-mnesia
  • CF1131F Asya And Kittens
  • [CF1131F] Asya And Kittens
  • final....
  • [Ec Final 2018] Misunderstood … Missing
  • F. Asya And Kittens

php网页爬虫-简单的类相关推荐

  1. python网页爬虫+简单的数据分析

    python网页爬虫+简单的数据分析 文章目录 python网页爬虫+简单的数据分析 一.数据爬取 二.数据分析 1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是 ...

  2. java 天气爬虫_java网页爬虫简单实例详解——获取天气预报。

    [本文介绍] 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西,例如呢?例如天气预报,总不能自己拿着仪器去测吧!当然,要获取天气预报还是用webService好.这里 ...

  3. 【Python 爬虫】简单的网页爬虫

    这边有一个用来测试的网站点击跳转 简单的网页爬虫 requests的使用 使用requests获取网页的源代码 requests与正则结合 多线爬虫 多进程库 开发多线程爬虫 爬虫算法的开发 深度优先 ...

  4. Python之简单的网页爬虫开发

    Python之简单的网页爬虫开发 文章目录 Python之简单的网页爬虫开发 下面简单介绍一下request: 简单介绍一下什么是第三方库: 结合requests与正则表达式 多线程爬虫 多进程库(m ...

  5. Python简单网页爬虫——极客学院视频自动下载

    一.需求背景 最近正好在研究Python,看了菜鸟教程上的基本教程,然后又再看极客学院的教学视频,向实战进军. 极客学院的视频是需要年费会员才能下载的,客户端倒是可以批量下载,但是下载之后,没有目录结 ...

  6. python制作查询网页_Python制作简单的网页爬虫

    1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...

  7. python制作简单网页_Python制作简单的网页爬虫

    1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...

  8. 网页爬虫的设计与实现(Java版)

    最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/developerworks/cn/java/j-l ...

  9. Java实现网页爬虫

    public class Demo {public static void main(String[] args) throws Exception {// 本程序内部异常过多为了简便,不一Try,直 ...

最新文章

  1. html运行代码出现问号乱码_Java 0基础入门(初识Html)
  2. sgi allocate
  3. pdf.js插件使用记录,在线打开pdf
  4. 美团点评金融平台Web前端技术体系
  5. 无限递归替换文件内的某个字符串
  6. java 当前日期 所在周_关于Java的小工具(计算当前日期所在周的区间)
  7. 金融评分卡项目—2.银行客户流失预警模型介绍(单因子与多因子分析)
  8. xshell连接Linxu系统乱码
  9. QQ空间的汉字转拼音代码
  10. GoEasy使用详解
  11. 百度富文本编辑器UEditor增加自定义字体
  12. 韩国严厉监管元宇宙相关企业
  13. 李开复:如何设计你的年度计划
  14. CCF题目:相邻数对
  15. 设计必备,5个免费图标资源网站
  16. python余弦定理_使用余弦定理计算两篇文章的相似性
  17. STUFF()函数将查询的多行数据合并为一行
  18. 公信宝CEO黄敏强:区块链让数据所有权回归大众
  19. python关键字提取源码_python实现按关键字筛选日志文件
  20. 基于PysimpleGUI+pymysql建立的简单管理系统(1)

热门文章

  1. xss-platform平台的入门搭建
  2. laravel没有vendor文件夹的解决方法
  3. STM32F4驱动NEC协议的红外接收头
  4. 将数组格式的字符串转换成数组
  5. 契约测试之Spring Cloud Contract
  6. 扰码器原理详解及verilog实现
  7. oracle获取最新的一条记录
  8. 爱立信也扛不住了?员工变外包,不接受拿N+1赔偿
  9. 输出二叉查找树poj 2418 二叉查找树
  10. 弹性云服务器有什么用