PHP采网址(列表页处理)插件的开发方法

作者:小文 发布于:2010-9-15 11:12 Wednesday

分类:软件培训

火车采集器中列表页插件是用来处理采网址时采集的网页源代码的.插件可以对源代码进行处理,然后采集器从处理过的代码中分析网址或是采集数据和网址.

今天我们以采集 http://news.hexun.com/ 的网址为例,比如我们只采集包含有当天日期的网址,比如今天是 2010-09-15,那么只有网址中有这个日期代码的才可以被我们采集到.

我们的处理思路就是用插件提取所有符合条件的网址,然后生成链接地址,那么,最后采集器采集到的网址就是符合条件的网址了.

具体请看插件代码

/*

*火车采集器外部编程接口处理标签内容示范文件

*该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl

*对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出,

*采集器内部即可接收到该标签的内容,对比以前的接口规则,新规则可以实现标签之间的数据调用和处理

*参数说明:

*$LabelArray    -  标签名及标签内容集合 结构如:Array('栏目id' => 2,'出处'=>  'www.locoy.com','作者'=>'火车采集器','内容'=>'

暴笑短信')  ##

*$LabelCookie   -  对应采集中用到的Cookie值

*$LabelUrl      -  当前采集的页面的Url地址

* 特别注意:如果是处理列表页,默认页,多页时会有以下两个标签

$LabelArray['Html']       网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']

$LabelArray['PageType']   值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页

* @Copyright  Copyright (c) 2005-2010 http://www.locoy.com

* @Version    LocoySpider 2010 or later

* @Licence    Support On LocoySpider Standard and Enterprise Edition

*以上语句建议不更改,以下为用户操作区域  该区域只限对数组值进行操作,不得有打印输出产生,不得直接增加或删除相应标签名

*/

if($LabelArray['Html'])

{

if($LabelArray['PageType']=='List')

{

$urlArr=array();

$html=$LabelArray['Html'];

$today=date("Y-m-d",time());

preg_match_all("/href=\"([^\"]*?\.html)\"/",$html,$mcs);

//var_dump($mcs);

if(count($mcs)>0)

{

foreach($mcs[1] as $url)

{

if(strpos($url,$today)>0) $urlArr[]=$url;

}

$LabelArray['Html']='';

}

}

}

//#############以上为用户操作区域#############################################################################################################################

//#############以下语句必须保留,建议不更改###################################################################################################################

//ob_clean();

echo serialize($LabelArray);

?>

评论:

wam52m

2016-08-17 22:25

学习了 ,但是不知怎么用啊、、、

2011-11-24 09:35

很有启发。。。支持

2011-02-23 17:02

学无止境再虚心

2011-02-10 15:38

谢谢, 有用的信息!

2010-09-27 21:45

如果网址没有时间这些特征的话,怎么办?

小文

2010-09-27 22:47

@lv包:网址里没有的话就需要到内容页中去判断了。比如采集前几篇文章,然后采集发表时间,在插件里判断一下时间是否今天,不是的话该文件不采集。

发表评论:

昵称

邮件地址 (选填)

个人主页 (选填)

php网站采集器,PHP采网址(列表页处理)插件的开发方法相关推荐

  1. 视采网站采集器用户操作手册

    文章来源:视采网站采集器 1 产品简介 DM视采网站采集器是一款可视化的数据挖掘软件,它可用于网站采集.论坛采集.文章采集.博客采集.dedecms采集.动易采集.新云采集.论坛发帖.论坛顶贴等. 2 ...

  2. 视采网站采集器需求分析

    来源:视采网站采集 1 前言 本章提供整个SRS综述. 开源,注定了她属于全人类,并且永远永远的忠诚于抚育她的精英们.她是我们每个人的爱的结晶,展示我们自我的才华. 开源也付给openWEBant一个 ...

  3. DM视采网站采集器简介

    文章来源:视采网站采集器 DM视采网站采集器简介 DM视采网站采集器是一款可视化的数据挖掘软件,它可用于网站采集,论坛采集,dedecms采集,动易采集,新云采集,论坛发帖,论坛顶贴,博客采集等. 系 ...

  4. 网站采集器,网站采集工具(图文教程)

    网站采集器,是实用简单的网页资源下载工具,站长可以监控某一个或者多网页的所有资源,并将其下载到自己的数据库上,站长可以自定义下载的内容,包括图片.文字等资源,也可以将整个网页上的内容全部一次性下载,方 ...

  5. dede php 调用自定义字段,在dedecms搜索结果列表页调用自定义字段的方法(绝对可用)...

    关于在dedecms搜索结果列表页调用自定义字段的方法比较多有些教程都写得比较含糊,经过织梦者的测试今天推荐一个比较有效的方法给大家,方法是从网络中搜到的,但是绝对可用 打开 include/exte ...

  6. Dede列表页调用TAG标签的方法

    整理了以下几种方法供大家使用: 1.tag标签的语法解释 基本语法: {dede:tag row='30' sort='new' getall='0'} <a href='[field:link ...

  7. Discuz!开发之论坛主题列表页标题长度的限制方法

    Discuz!的模板非常的多,各种模板的情况也不一样,很多站长使用的模板论坛主题列表页面偏窄,主题标题长度太长的时候就显得不好看了,本文介绍一下如何改变主题列表页标题长度: 打开文件 /source/ ...

  8. php 视频网站采集器,自己在用的视频网站开源,真正的自动采集无需手动更新...

    项目开源地址:https://github.com/smiger/collectMovies 项目使用Laravel框架,需要安装PHP >= 7.0.0 一.部署 1.打开命令行窗口(这里我们 ...

  9. 待付款已收货订单php,微信小程序待付款收货订单列表页样式设计制作开发教程(3)...

    var wxpay = require('../../utils/pay.js') var app = getApp() Page({ data:{ statusType: ["待付款&qu ...

最新文章

  1. 从理论到实践,Top选手带你进入数据竞赛的大门
  2. 不用软件,对回收站删除文件后的恢复(windows 高级技巧)
  3. 数据中心小母线与列头柜供配电系统的综合比较
  4. python virtualenv 如何更改mkvirtualenv默认新建虚拟环境的路径?WORKON_HOME
  5. VHDL硬件描述语言
  6. 现在的python版本_现在python 流行哪个版本
  7. MySQL--字符集
  8. java接口课程_用java定义一个接口,用于查询课程
  9. 极品飞车ol服务器维护,《极品飞车OL》配件升级常见问题介绍
  10. 作者:王题(1976-),男,中国联合网络通信有限公司网络技术研究院高级工程师。...
  11. 边缘计算:万物互联时代新型计算模型
  12. 写给萌新们的Python安装及环境配置(anaconda,pycharm,GPU)教程
  13. 神奇的 SQL 之 HAVING → 容易被轻视的主角
  14. linux centos7.9图形界面版本下载_适合在任何地方使用的 Linux:15 个小型 Linux 发行版...
  15. asp.net core跨域访问ajax的验证访问
  16. 中国软件行进销存管理系统 免费
  17. mysql省市区数据导入_最新行政区划省市区镇街道 导入数据库 MYSQL (2020年8月 )
  18. 微信商户平台(商户号)申请流程(仅供参考)
  19. 中国本地化汽车“软件战争”打响
  20. Cpp多重继承会产生的问题

热门文章

  1. python3.5安装步骤-pycharm安装步骤
  2. python怎么读取excel-python怎么读取excel表格
  3. 简明python教程-简明Python教程-中文版.pdf
  4. python经典实例pdf-Python机器学习经典实例_PDF电子书
  5. python画条形图-python使用Matplotlib画条形图
  6. python工资一般多少大专学历-这个面试官真霸气 不收大专程序员
  7. python编程是啥-Python编程语言的特点是什么?老男孩Python学习
  8. python编程入门-Python编程入门电子书教程,看这几个就够了
  9. 横向对比5大开源语音识别工具包,CMU Sphinx最佳
  10. h5 在线语音识别接口