php网页爬虫-简单的类

class PhpSpiders {

public $useragent ; //user-agent

public $title ; // 标题

public $encoding ; //编码

public $status ; //状态码

public $url ;

public $text ; //内容

public $content ; //源代码

//规则

public $pattern_key = array (

‘title’ => ‘/<title>(\s*.*)<\/title>/isum’ , //获取title

‘descriptions’ => ‘/<meta +name=”[d|D]escription” +content=”(.*)” +\/>/’ , //获取描述

‘charset’ => ‘/charset=\”?([\w-]+)\”?/i’ , // 获取charset 编码

);

function __construct ( $url ){

$this -> url = $url ;

$this -> useragent = “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36” ;

}

function getData () {

$curl = curl_init ();

curl_setopt ( $curl , CURLOPT_AUTOREFERER , 1 );

curl_setopt ( $curl , CURLOPT_CONNECTTIMEOUT , 10 );

curl_setopt ( $curl , CURLOPT_RETURNTRANSFER , 1 ); //信息流形式返回数据

curl_setopt ( $curl , CURLOPT_USERAGENT , $this -> useragent );

curl_setopt ( $curl , CURLOPT_HTTP_VERSION , CURL_HTTP_VERSION_1_0 );

curl_setopt ( $curl , CURLOPT_SSL_VERIFYPEER , 0 ); //禁用后cURL将终止从服务端进行验证

curl_setopt ( $curl , CURLOPT_URL , $this -> url );

try {

$this -> content = curl_exec ( $curl );

curl_close ( $curl );

} catch ( Exception $e ) {

echo $e . getMessage ();

return false ;

}

}

function getEncoding (){ //获取编码

if ( $this -> content ) {

preg_match ( $this -> pattern_key [ ‘charset’ ], $this -> content , $this -> encoding );

return $this -> encoding [ 1 ];

}

}

function getTitle () {

$this -> getData ();

preg_match ( $this -> pattern_key [ ‘title’ ], $this -> content , $keyContent );

return $keyContent [ 1 ];

}

}

$url = “http://php.net/manual/en/function.curl-setopt.php” ;

$spider = new PhpSpiders ( $url );

$spider -> getData ();

print_r ( $spider -> getTitle ());

查看全文

http://www.taodudu.cc/news/show-6296786.html

php2-3v690,php网页版文件浏览器
PHP网页常见漏洞
浏览我的php网页时，出现的都是网页的代码
PHP WEB
PHP相关网站
本地浏览php网页的方法
PHP+HTML
php网址
PHP网页简单的计算机源代码
php 网站
今天做了一个简单的PHP网页
PHP做网站
PHP 在网页中的运用
php网页转html网页怎么弄
查看内存大小时解决的单位问题
Infinite
The Final
【final】
artifact is missing.
-inf nan
BUU-Crypto-Alice与Bob
cf1341 Nastya and Door
FZU - 2062 - Suneast Yayamao
BZOJ3681: Arietta
a-mnesia
CF1131F Asya And Kittens
[CF1131F] Asya And Kittens
final....
[Ec Final 2018] Misunderstood … Missing
F. Asya And Kittens

php网页爬虫-简单的类相关推荐

python网页爬虫+简单的数据分析
python网页爬虫+简单的数据分析文章目录 python网页爬虫+简单的数据分析一.数据爬取二.数据分析 1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是 ...
java 天气爬虫_java网页爬虫简单实例详解——获取天气预报。
[本文介绍] 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西,例如呢?例如天气预报,总不能自己拿着仪器去测吧!当然,要获取天气预报还是用webService好.这里 ...
【Python 爬虫】简单的网页爬虫
这边有一个用来测试的网站点击跳转简单的网页爬虫 requests的使用使用requests获取网页的源代码 requests与正则结合多线爬虫多进程库开发多线程爬虫爬虫算法的开发深度优先 ...
Python之简单的网页爬虫开发
Python之简单的网页爬虫开发文章目录 Python之简单的网页爬虫开发下面简单介绍一下request: 简单介绍一下什么是第三方库: 结合requests与正则表达式多线程爬虫多进程库(m ...
Python简单网页爬虫——极客学院视频自动下载
一.需求背景最近正好在研究Python,看了菜鸟教程上的基本教程,然后又再看极客学院的教学视频,向实战进军. 极客学院的视频是需要年费会员才能下载的,客户端倒是可以批量下载,但是下载之后,没有目录结 ...
python制作查询网页_Python制作简单的网页爬虫
1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...
python制作简单网页_Python制作简单的网页爬虫
1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...
网页爬虫的设计与实现（Java版）
最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/developerworks/cn/java/j-l ...
Java实现网页爬虫
public class Demo {public static void main(String[] args) throws Exception {// 本程序内部异常过多为了简便,不一Try,直 ...

php网页爬虫-简单的类

相关文章：

php网页爬虫-简单的类相关推荐

最新文章

热门文章