php网页爬虫-简单的类
class PhpSpiders {public $useragent ; //user-agentpublic $title ; // 标题public $encoding ; //编码public $status ; //状态码public $url ;public $text ; //内容public $content ; //源代码//规则public $pattern_key = array (‘title’ => ‘/<title>(\s*.*)<\/title>/isum’ , //获取title‘descriptions’ => ‘/<meta +name=”[d|D]escription” +content=”(.*)” +\/>/’ , //获取描述‘charset’ => ‘/charset=\”?([\w-]+)\”?/i’ , // 获取charset 编码);function __construct ( $url ){$this -> url = $url ;$this -> useragent = “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36” ;}function getData () {$curl = curl_init ();curl_setopt ( $curl , CURLOPT_AUTOREFERER , 1 );curl_setopt ( $curl , CURLOPT_CONNECTTIMEOUT , 10 );curl_setopt ( $curl , CURLOPT_RETURNTRANSFER , 1 ); //信息流形式返回数据curl_setopt ( $curl , CURLOPT_USERAGENT , $this -> useragent );curl_setopt ( $curl , CURLOPT_HTTP_VERSION , CURL_HTTP_VERSION_1_0 );curl_setopt ( $curl , CURLOPT_SSL_VERIFYPEER , 0 ); //禁用后cURL将终止从服务端进行验证curl_setopt ( $curl , CURLOPT_URL , $this -> url );try {$this -> content = curl_exec ( $curl );curl_close ( $curl );} catch ( Exception $e ) {echo $e . getMessage ();return false ;}}function getEncoding (){ //获取编码if ( $this -> content ) {preg_match ( $this -> pattern_key [ ‘charset’ ], $this -> content , $this -> encoding );return $this -> encoding [ 1 ];}}function getTitle () {$this -> getData ();preg_match ( $this -> pattern_key [ ‘title’ ], $this -> content , $keyContent );return $keyContent [ 1 ];}}$url = “http://php.net/manual/en/function.curl-setopt.php” ;$spider = new PhpSpiders ( $url );$spider -> getData ();print_r ( $spider -> getTitle ());
http://www.taodudu.cc/news/show-6296786.html
相关文章:
- php2-3v690,php网页版文件浏览器
- PHP网页常见漏洞
- 浏览我的php网页时,出现的都是网页的代码
- PHP WEB
- PHP相关网站
- 本地浏览php网页的方法
- PHP+HTML
- php网址
- PHP网页简单的计算机源代码
- php 网站
- 今天做了一个简单的PHP网页
- PHP做网站
- PHP 在网页中的运用
- php网页转html网页怎么弄
- 查看内存大小时解决的单位问题
- Infinite
- The Final
- 【final】
- artifact is missing.
- -inf nan
- BUU-Crypto-Alice与Bob
- cf1341 Nastya and Door
- FZU - 2062 - Suneast Yayamao
- BZOJ3681: Arietta
- a-mnesia
- CF1131F Asya And Kittens
- [CF1131F] Asya And Kittens
- final....
- [Ec Final 2018] Misunderstood … Missing
- F. Asya And Kittens
php网页爬虫-简单的类相关推荐
- python网页爬虫+简单的数据分析
python网页爬虫+简单的数据分析 文章目录 python网页爬虫+简单的数据分析 一.数据爬取 二.数据分析 1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是 ...
- java 天气爬虫_java网页爬虫简单实例详解——获取天气预报。
[本文介绍] 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西,例如呢?例如天气预报,总不能自己拿着仪器去测吧!当然,要获取天气预报还是用webService好.这里 ...
- 【Python 爬虫】简单的网页爬虫
这边有一个用来测试的网站点击跳转 简单的网页爬虫 requests的使用 使用requests获取网页的源代码 requests与正则结合 多线爬虫 多进程库 开发多线程爬虫 爬虫算法的开发 深度优先 ...
- Python之简单的网页爬虫开发
Python之简单的网页爬虫开发 文章目录 Python之简单的网页爬虫开发 下面简单介绍一下request: 简单介绍一下什么是第三方库: 结合requests与正则表达式 多线程爬虫 多进程库(m ...
- Python简单网页爬虫——极客学院视频自动下载
一.需求背景 最近正好在研究Python,看了菜鸟教程上的基本教程,然后又再看极客学院的教学视频,向实战进军. 极客学院的视频是需要年费会员才能下载的,客户端倒是可以批量下载,但是下载之后,没有目录结 ...
- python制作查询网页_Python制作简单的网页爬虫
1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...
- python制作简单网页_Python制作简单的网页爬虫
1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...
- 网页爬虫的设计与实现(Java版)
最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/developerworks/cn/java/j-l ...
- Java实现网页爬虫
public class Demo {public static void main(String[] args) throws Exception {// 本程序内部异常过多为了简便,不一Try,直 ...
最新文章
- html运行代码出现问号乱码_Java 0基础入门(初识Html)
- sgi allocate
- pdf.js插件使用记录,在线打开pdf
- 美团点评金融平台Web前端技术体系
- 无限递归替换文件内的某个字符串
- java 当前日期 所在周_关于Java的小工具(计算当前日期所在周的区间)
- 金融评分卡项目—2.银行客户流失预警模型介绍(单因子与多因子分析)
- xshell连接Linxu系统乱码
- QQ空间的汉字转拼音代码
- GoEasy使用详解
- 百度富文本编辑器UEditor增加自定义字体
- 韩国严厉监管元宇宙相关企业
- 李开复:如何设计你的年度计划
- CCF题目:相邻数对
- 设计必备,5个免费图标资源网站
- python余弦定理_使用余弦定理计算两篇文章的相似性
- STUFF()函数将查询的多行数据合并为一行
- 公信宝CEO黄敏强:区块链让数据所有权回归大众
- python关键字提取源码_python实现按关键字筛选日志文件
- 基于PysimpleGUI+pymysql建立的简单管理系统(1)