如何正确写DedeCms采集规则:

下面是详细过程,网上希望大家能认真看完慢慢去琢磨应该能帮助到你的:

第一步、确定采集的网站(我们以DEDE的官方站做为采集站做示范)

引用

http://www.dedecms.com/plus/list.php?tid=10

第二步、确定被采集站的编码。打开被采集的网页之后,查看源代码(IE:查看 - > 源代码)

之间找到 charset 这个,后面就显示网页的编码了,截图的是 “gb2312”

第三步、采集列表获取规则写法

来源网址写法 很明显pageno是表示分页页码 那么有多页列表的采集就要用“[var:分页]”来替换分页页码,截图如下

http://www.dedecms.com/ plus/list.php?tid=10&pageno=[var:分页]

文章网址需包含 网址不能包含 这两个一般不用写,用于采集列表范围有很多不需要的连接才用到他来做过滤使用。

上面的网址并没有带有至于http://www.dedecms.com 为什么要在前面加上,这个就不要我说了吧。

如果只有一个列表页,那么在来源网址就直接写上网址就OK了。

注意这里,最关键就是这里。

下面就是“采集获取文章列表的规则写法”,

就是上面打开的被采集页面的源代码文件,找到文章列表之前 和本页面没有其他相同的代码

在DedeCms官方站的列表页文章列表之前和之后最近的且没有相同的是“

”和“

”,分别写入“起始HTML”和“结束HTML”,写法看截图

第四步、采集文章标题,文章内容,文章作者,文章来源等规则写法,分页采集等。

“起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”

下面讲的是如何采集分页内容 看截图圈着的地方 截图

文档是否分页 里面选择“全部列出的分页列表”

“起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”

这里本来还有一张截图的,由于论坛配置,他现在显示在最上面.

在文章内容那里点上“分页内容字段”,不选择就不能采集。

“下载字段里的多媒体资源 ”这个是采集的时候把多媒体资源(视频,软件,图片等)下载到本地,也就是你的网站。

下面�*****滤规�

过滤规则需要用 “正则表达式”来写,但是对于新手来说,这个简直是比登天还要难,具体的可以参考

http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html这个网页

下面教大家一个简单的方法

把下面的过滤规则复制到你那里去,几乎就可以了,也可以自己分析一下,说不定你就懂了

引用

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

  • {/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

当然 上面这些不能用来采集带有视频的,因为已经过滤了

自定义处理接口

这个说白了,就是PHP代码。只不过 “ @ me 表示当前标记值和最终结果“@ body表示原始网页”“ @ litpic 缩略图”,按照PHP的写法的就OK了

织梦php 文章采集规则,如何正确写DedeCms采集规则相关推荐

  1. 织梦php 文章采集规则,dedecms采集怎么用

    以织梦官方站为例,我们采集站长学院下的PHP教程栏目,打开列表地址http://www.dedecms.com/web-art/PHP_jiaocheng. 登录后台,进入"采集节点管理&q ...

  2. 织梦自动插入自动替换图片插件(支持采集)

    织梦自动插入自动替换图片插件功能简介: 1.开启无图插入图片功能,采集或者手动发布都会自动插入图片,释放你的双手 2.开启自动替换功能,手动复制或者采集的文章的图片都会自动替换,文章有多少张图片就替换 ...

  3. dedecmsmip_织梦MIP文章内容页图片适配百度MIP规范

    不用修改程序内核文件,不影响电脑站和手机站文章内容页的文章内容输出,增加个自定义方法来解决织梦MIP文章内容页图片适配百度MIP规范 操作步骤 width|height 去除图片宽高 style 去除 ...

  4. archives_do.php,织梦后台文章管理中增加批量添加tag标签功能

    需求背景: 之前发布了不少文章,后来发现之前的这些文章当时发布时都没有添加tag标签,然而现在需要都添加上tag标签,然而这个在默认的织梦后台是没办法批量实现的,只能一篇篇文章去修改. 思考: 织梦原 ...

  5. 织梦主动提交_织梦发布文章主动推送(实时)给百度的方法

    织梦内容管理系统(DedeCms) 是一款很老的程序了,主要是以简单.实用.开源而闻名,很多建站初学者第一次做网站都是使用的织梦.不过织梦也有不足之处,比方说我们用织梦发布文章之后还需要手动去提交链接 ...

  6. 新闻网站模板html4,织梦新闻文章门户网站模板,Html5响应式高权重网站织梦模板...

    织梦新闻文章门户网站模板,Html5响应式高权重网站织梦模板 模板基于织梦CMSv57sp2开发.运行环境已升级并完全兼容PHP5.6. 模板结构以黄金比例分割.更加符合用户人群体验. 该门户网站模板 ...

  7. php写火车头采集接口,的这个火车头采集接口我在火车头采集规则里已经写了采集时间的规,迅睿CMS,CodeIgniter技术文档,PHP开发文档,迅睿CMS框架官方教程...

    官方的这个火车头采集接口,我在火车头采集规则里已经写了采集时间的规则,接口这里要怎么写才能把采集到的时间入库呀?<?php $this->_module_init('news'); //  ...

  8. 织梦dede文章列表调用标签的用法和规则

    织梦dede列表标签在任何模板的网站中都可能会使用到,而且我们在仿站的时候也经常要使用到列表标签.这里主机吧就给大家讲一下文章列表以及图片列表.软件列表以及分类信息列表标签的用法,和结合div+css ...

  9. 手机站的view.php,织梦网站文章内容页动态地址plus/view.php路径修改

    织梦系统的漏洞很多来自plus目录,一般的文章站根本用不了那么多功能,因此可以考虑直接把整个plus文件夹删除掉.在发布文章时要预览文章,因此我把plus下除了view.php 和 img文件夹(存放 ...

  10. 织梦缩略图自动补齐绝对路径_织梦生成文章内容缩略图时自动加上域名绝对路径...

    今天又接了个织梦CMS的有偿服务,客户想要后台添加文章内容的时候,缩略图自动变成带上绝对路径的格式.比如我们默认的缩略图是这样的 /uploads/allimg/150814/123P2NB-0-lp ...

最新文章

  1. python手机版怎么用-手机使用python操作图片文件(pydroid3)过程详解
  2. redis介绍及保持session会话
  3. java.lang.NoSuchMethodError
  4. java包的概念及作用
  5. 小技巧:with用法 pycharm控制台输出带颜色的文字 打印进度条的
  6. springboot+sockjs进行消息推送(群发)
  7. ModelArts 与HiLens Kit联合开发丨行人社交距离风险提示Demo
  8. 在Swift中向数组添加元素
  9. 《罗辑思维》让知识交融做爱
  10. 电子数字计算机和电子模拟计算机区别,电子数字计算机和电子模拟计算机的区别在哪里?...
  11. 显示更清晰,书写更专业:汉王手写电纸本N10发布
  12. 程序员《周易》入门一
  13. 相机标定——张正友棋盘格标定法
  14. SAP权限管理,我的理解
  15. 几行Python代码实现自动陪女友聊天,制作开心机器人
  16. 添加msg文件找不到目录add_message_files() directory not found:
  17. 二级python——(三)format()方法的基本使用
  18. 学习方法——TRIZ创新理论中的40个发明原则(三)
  19. cronolog 安装配置 Centos 7
  20. 为什么做微信视频直播?

热门文章

  1. (一)Redfish简介
  2. mysql 局域网数据库共享,SQL Server 2005 在局域网中共享数据库
  3. Unity3d笔记——制作简单动画
  4. Android studio创建Java测试类
  5. window10华硕计算机主板VT,华硕电脑主板开启VT虚拟化方法详解
  6. c语言仿ce内存搜索工 源代码_仿CE内存搜索工具的全部功能
  7. oc实时渲染的图如何导出_最新C4D渲染器全家桶随便用,不仅有OC+阿诺德,还有两款哦...
  8. c4d阿诺德渲染器支持a卡吗_C4D常用的4大主流渲染器如何选择与比较 (OC/RS/VR/阿诺德)?...
  9. 山东泰开集团 工业机器人_泰开机器人有限公司
  10. 盐城工学院c语言实验报告簿,盐城工学院单片机实验指导书.doc