Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程。

Snoopy的一些特点:

  • 抓取网页的内容 fetch
  • 抓取网页的文本内容 (去除HTML标签) fetchtext
  • 抓取网页的链接,表单 fetchlinks fetchform
  • 支持代理主机
  • 支持基本的用户名/密码验证
  • 支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
  • 支持浏览器重定向,并能控制重定向深度
  • 能把网页中的链接扩展成高质量的url(默认)
  • 提交数据并且获取返回值
  • 支持跟踪HTML框架
  • 支持重定向的时候传递cookies

要求php4以上就可以了 由于本身是php一个类 无需扩支持 服务器不支持curl时候的最好选择,

Snoopy类方法及示例:

fetch($URI)

这是为了抓取网页的内容而使用的方法。

$URI参数是被抓取网页的URL地址。

抓取的结果被存储在 $this->results 中。

如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。

fetchtext($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。

fetchform($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。

fetchlinks($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。

默认情况下,相对链接将自动补全,转换成完整的URL。

submit($URI,$formvars)

本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。

submittext($URI,$formvars)

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。

submitlinks($URI)

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。

默认情况下,相对链接将自动补全,转换成完整的URL。

Snoopy采集类属性: (默认值在括号里)

$host 连接的主机

$port 连接的端口

$proxy_host 使用的代理主机,如果有的话

$proxy_port 使用的代理主机端口,如果有的话

$agent 用户代理伪装 (Snoopy v0.1)

$referer 来路信息,如果有的话

$cookies cookies, 如果有的话

$rawheaders 其他的头信息, 如果有的话

$maxredirs 最大重定向次数, 0=不允许 (5)

$offsiteok whether or not to allow redirects off-site. (true)

$expandlinks 是否将链接都补全为完整地址 (true)

$user 认证用户名, 如果有的话

$pass 认证用户名, 如果有的话

$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)

$error 哪里报错, 如果有的话

$response_code 从服务器返回的响应代码

$headers 从服务器返回的头信息

$maxlength 最长返回数据长度

$read_timeout 读取操作超时 (requires PHP 4 Beta 4+) 设置为0为没有超时

$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)

$maxframes 允许追踪的框架最大数量

$status 抓取的http的状态

$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)

$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

下面是一个示例:

include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.9it.me";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.9it.me";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if ($snoopy->fetchtext("http://www.9it.me")) {echo "<PRE>" . htmlspecialchars($snoopy->results) . "</PRE>\n";
} else {echo "error fetching document: " . $snoopy->error . "\n";
}

获取指定url内容

$url = "http://www.9it.me";
include("snoopy.php");
$snoopy = new Snoopy;
$snoopy->fetch($url); //获取所有内容
echo $snoopy->results; //显示结果 //可选以下
echo $snoopy->fetchtext; //获取文本内容(去掉html代码)
echo $snoopy->fetchlinks; //获取链接
echo $snoopy->fetchform; //获取表单

表单提交

$formvars["username"] = "admin";
$formvars["pwd"] = "admin";
$action = "http://www.9it.me";//</a>表单提交地址
$snoopy->submit($action,$formvars);//$formvars为提交的数组
echo $snoopy->results; //获取表单提交后的 返回的结果 //可选以下
$snoopy->submittext; //提交后只返回 去除html的 文本
$snoopy->submitlinks;//提交后只返回 链接

既然已经提交的表单 那就可以做很多事情 接下来我们来伪装ip,伪装浏览器

伪装浏览器

$formvars["username"] = "lanfengye";
$formvars["pwd"] = "lanfengye";
$action = "http://www.9it.me";
include "snoopy.php";
$snoopy = new Snoopy;
$snoopy->cookies["PHPSESSID"] = 'fc106b1918bd522cc863f36890e6fff7'; //伪装sessionid
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; //伪装浏览器
$snoopy->referer = "http://www.9it.me"; //伪装来源页地址 http_referer
$snoopy->rawheaders["Pragma"] = "no-cache"; //cache 的http头信息
$snoopy->rawheaders["X_FORWARDED_FOR"] = "127.0.0.101"; //伪装ip
$snoopy->submit($action,$formvars);
echo $snoopy->results; 

原来我们可以伪装session 伪装浏览器 ,伪装ip, haha 可以做很多事情了。

例如 带验证码,验证ip 投票, 可以不停的投。

ps:这里伪装ip ,其实是伪装http头, 所以一般的通过 REMOTE_ADDR 获取的ip是伪装不了,

反而那些通过http头来获取ip的(可以防止代理的那种) 就可以自己来制造ip。

关于如何验证码 ,简单说下:

首先用普通的浏览器, 查看页面 , 找到验证码所对应的sessionid,

同时记下sessionid和验证码值,

接下来就用snoopy去伪造 。

原理:由于是同一个sessionid 所以取得的验证码和第一次输入的是一样的。

有时我们可能需要伪造更多的东西,snoopy完全为我们想到了

$snoopy->proxy_host = "http://www.9it.me";
$snoopy->proxy_port = "8080"; //使用代理
$snoopy->maxredirs = 2; //重定向次数
$snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到 // 例如链接为 /images/taoav.gif 可改为它的全链接 <a href="http://www.9it.me/images/taoav.gif">http://www.9it.me/images/taoav.gif</a>
$snoopy->maxframes = 5; //允许的最大框架数 //注意抓取框架的时候
$snoopy->results;// 返回的是一个数组
$snoopy->error //返回报错信息

snoopy(强大的PHP采集类) 详细介绍相关推荐

  1. 创作课程和SCORM的强大工具iSpring Suite详细介绍

    iSpring Learn是简化员工培训和发展的在线学习系统,具有员工入职.培训.评估等功能.iSpring Suite是一个新兴的创作工具包,也许您不太了解iSpring Suite,那您就可以看看 ...

  2. php snoopy 下载图片,PHP采集类Snoopy抓取图片实例

    这篇文章主要介绍了PHP采集类Snoopy抓取图片实例,Snoopy是一个强大的PHP采集类,可以用来开发一些采集程序和小偷程序,需要的朋友可以参考下. 用了两天php的Snoopy这个类,发现很好用 ...

  3. Iptables防火墙详细介绍与实战增强服务器安全

    Iptables防火墙详细介绍与实战增强服务器安全 一:Iptables的概述及应用 iptables概述: netfilter/iptables : IP信息包过滤系统,它实际上由两个组件netfi ...

  4. 【抓包工具】Fiddler(详细介绍)

    一.Fiddler与其他抓包工具的区别 1.Firebug虽然可以抓包,但是对于分析http请求的详细信息,不够强大.模拟http请求的功能也不够,且firebug常常是需要"无刷新修改&q ...

  5. 抓包工具 - Fiddler(详细介绍)

    原文:抓包工具 - Fiddler(详细介绍) Fiddler的详细介绍 一.Fiddler与其他抓包工具的区别 1.Firebug虽然可以抓包,但是对于分析http请求的详细信息,不够强大.模拟ht ...

  6. Detection and Classification of Acoustic Scenes and Events(DCASE2013详细介绍)

    在DCASE 2013官网上,了解到在本篇文章中,详细描述了DCASE2013挑战赛的结果.下面加上个人的理解做了相应的翻译,可能有不对的地方,在之后的会慢慢改善. 摘要 对于智能系统来说,使用音频形 ...

  7. Ubuntu根目录下各文件夹的功能详细介绍

    Ubuntu的根目录下存在着很多的文件夹,但你知道他们都存放着哪些文件呢?这些是深入了解Ubuntu系统必不缺少的知识,本文就关于此做一下介绍吧. /bin/    用以存储二进制可执行命令文件. / ...

  8. mysql如何设置多节点_详细介绍Mysql5.7从节点设置多线程主从复制的办法

    软件安装:装机软件必备包 SQL是Structured Query Language(结构化查询语言)的缩写.SQL是专为数据库而建立的操作命令集,是一种功能齐全的数据库语言.在使用它时,只需要发出& ...

  9. 【WiFi密码破解详细图文教程】ZOL仅此一份 详细介绍从CDlinux U盘启动到设置扫描破解

    From: http://softbbs.zol.com.cn/1/32_7991.html 每天都能看到有不少网友在回复论坛之前发布的一篇破解WiFi密码的帖子,并伴随各种疑问.今天流云就为大家准备 ...

最新文章

  1. 4 三元表达式 列表解析 生成器表达式
  2. [转]微服务(Microservice)那点事
  3. MyISAM和InnoDB的索引在实现上的不同
  4. ABAP中查找代码的标准程序
  5. hdu 3671 Boonie and Clyde
  6. caffe.pb.h丢失问题:
  7. ai的预览模式切换_深耕基础办公领域,永中软件云端远程办公新模式助力企业复工复产...
  8. OpenCms显示默认作者
  9. linux中双方同步unison服务器搭建
  10. 计算机开机网络连接启动慢,开机后网络连接出来慢,win7开机后网络连接慢
  11. 华为OD机试Golang解题 - 最快到达医院方式
  12. 全国计算机等级考试信息安全三级笔记
  13. 苹果电脑怎么更换计算机模式,苹果电脑装windows7后怎么切回来_苹果电脑安装win7后如何切换...
  14. 腾讯云https证书部署nginx
  15. 诺思格医药通过注册:年营收6亿 实控人武杰为美国籍
  16. 01-javaWeb-html
  17. 使用node.js + express开发web应用笔记(3) - 模板页与局部视图
  18. 智云通CRM:客户说“我随便看看”,如何回应才能促进成交?
  19. Android基站定位——通过手机信号获取基站信息(一)
  20. 小程序 cover-view 字体_可升降、护眼、高清的明基PD2500Q显示器解决了程序猿99%的烦恼...

热门文章

  1. 计算机对英语口语考试成绩,英语口语考试人机对话得分技巧
  2. java面试基础_Java面试基础
  3. [深度学习]Ubuntu16.04 + GTX 1050 + cuda8.0 + cuDNN5.1 + caffe安装详解
  4. GoogleAppEngine是什么?
  5. PHP:第三章——PHP中控制函数的函数
  6. Mysql捕捉(网站)应用执行的语句
  7. 【C++】函数缺省参数的作用
  8. CCRD_TOC_2008年第2期
  9. Android 编程下 java.lang.NoClassDefFoundError: cn.jpush.android.api.JPushInterface 报错
  10. Sql语句里的递归查询