作者:小文 发布于:2016-5-26 9:25 Thursday

分类:官方公告

除了支持PHP,C#插件,最近火车采集器终于又迎来了一个新的插件,Python插件。用户可以在自己的Python插件中,修改html代码,修改最终采集结果,可以实现更多自己的想法。python插件支持2.7和3.x版本,采集器默认自带2.7和3.4的示例代码,用户只需要稍微修改即可以完成自己的功能。Python插件功能将在V9.2版本中集成,马上就能和大家见面了。

更多插件及开发,请加QQ群 火车头开放平台 149855485

以下是3.4的python插件示例代码

import sys,importlib

from urllib import parse

import json

if len(sys.argv)!= 5:

print(len(sys.argv))

print("命令行参数长度不为5")

sys.exit()

else:

LabelCookie = parse.unquote(sys.argv[1])

LabelUrl = parse.unquote(sys.argv[2])

#PageType为List,Content,Pages分别代表列表页,内容页,多页http请求处理,Save代表内容处理

PageType=sys.argv[3]

SerializerStr = parse.unquote(sys.argv[4])

if (SerializerStr[0:2] != '''{"'''):

file_object = open(SerializerStr)

try:

SerializerStr = file_object.read()

finally:

file_object.close()

LabelArray = json.loads(SerializerStr)

#以下是用户编写代码区域

if(PageType=="Save"):

if(LabelArray['标题']):

LabelArray['标题']='这是Python插件处理的标题'

else:

LabelArray['Html']='当前页面的网址为:'+ LabelUrl +"\r\n页面类型为:" + PageType + "\r\nCookies数据为:"+LabelCookie+"\r\n接收到的数据是:" + LabelArray['Html']

#以上是用户编写代码区域

LabelArray = json.dumps(LabelArray)

print(LabelArray)

作者:小文 发布于:2016-5-26 9:09 Thursday

分类:官方公告

号外:火车浏览器打码插件开源开放了,优优云,若快,GSA,联众,云速打码,DeCaptcher全部开放,全部源码。开发者可以按示例迅速集成自己的打码平台。源码及开发注意事项请看附件

作者:小文 发布于:2012-3-7 13:14 Wednesday

分类:官方公告

火车采集器V7的C#插件进行了比较大的更改。为了方便用户更快的上手,我们提供了大量的代码示例。请各位需要开发的朋友打开采集器 Extensions\LocoySpider\Develop 目录下的项目,研究学习。

标签:插件

作者:小文 发布于:2012-3-7 10:21 Wednesday

分类:其它资源

请下载附件中的代码示例和使用说明。代码示例为Shopex图片上传插件。

作者:小文 发布于:2011-6-1 14:59 Wednesday

分类:软件培训

有的网站使用多种模板显示分页地址,这种情况下我们要获取分页地址就非常困难了。不过我们可以通过插件的功能,自己编写程序判断并生成分页的地址,然后让采集器去获取到。我们的例子如下:

本次测试的网址:

http://www.diyifanwen.com/fanwen/lunwenzhidao/1141715512857992.htm

http://www.diyifanwen.com/fanwen/zhuchici/20101011222334115874624.htm

我们分析其分页地址,可以看到不同的分页样式和代码

对于这种基本没规律的分页,我们无法判断分页的区域,也无法直接得知其总分页数,该怎么办呢?

经分析可以得知,分页的规律是在原网址后加上分页页码,如 默认页是1141715512857992.htm,则分页是 1141715512857992_2.htm 。因为这个分页是全部列出的,我们就有办法了:可以去循环查找是否有分页地址存在,有存在则说明有这个分页,然后我们生成存在的网页地址即可。我们用php来写插件。

插件中判断了当前页面类型,然后对整个内容页代码进行修改,生成有分页的代码。

在采集器中,插件使用位置如下

最后的结果如下

注意设置这里的分页区域和插件中的一致。

到这里,这个分页的处理就完成了。

如果我们有时遇到更复杂的怎么办,如 无法确认有几个分页,是上下页模式的,这时用插件可以使用笨办法,先探测一下下一页是否存在,如果存在则加入,不存在就跳过。

附件中为本次的规则和插件。大家可以再研究一下。

1 2

火车头 php 插件,插件 - 火车采集器官方博客相关推荐

  1. python调用按键精灵插件_谈一谈火车采集器的插件使用

    ​ 火车采集器.火车浏览器这两款软件大家在平常工作中应该经常使用吧,有数据采集需求和各类公司运营人员想必都亲自使用过这个软件吧! 今天小编就与大家分享下两款软件所支持的插件,并讲解下每款插件的功能.一 ...

  2. 火车头双标题插件-火车头采集器双标题插件下载及安装教程

    火车头双标题插件,为什么这么多人使用火车头双标题插件?因为双标题组合增强了标题的相关性和关键词密度,同时在词库方面也有了更多的展现,收录后也会有2个长尾词参与排名.详细参考图片 怎么设置火车头双标题? ...

  3. 织梦自动插入自动替换图片插件(支持采集)

    织梦自动插入自动替换图片插件功能简介: 1.开启无图插入图片功能,采集或者手动发布都会自动插入图片,释放你的双手 2.开启自动替换功能,手动复制或者采集的文章的图片都会自动替换,文章有多少张图片就替换 ...

  4. fastadmin采集插件-免费fastadmin采集

    fastadmin采集插件,为什么要用fastadmin采集插件?因为fastadmin采集插件能让我们的网站快速拥有更多资源以及内容.今天就给大家分享一款万能采集工具:支持各种电影资源.小说资源.资 ...

  5. 织梦插件,织梦dedecms自动采集插件,自动采集

    此为织梦插件,dede织梦自动采集插件,自动采集文章发布,此外赠送161个采集规则(部分采集规则可能失效) 采集插件安装 点击模块,上传新模块,选择文件,根据你使用的后台上传对应的版本(DedePlu ...

  6. EMLOG采集插件 最新资源采集 一键显示资源1.1

    介绍: 插件目前支持采集小刀类似的大部分模板,绑定分类ID从此分类不用手. 添加emlog gid文章连续ID从此不会断断续续. 添加资源后台一键显示资源. 网盘下载地址: https://zijie ...

  7. 火车采集器-对在固定网页上进行更新的文件的下载方法

    遇到的案例是这样的,在http://www.xxx.com/index.html 上有多个pdf的下载连接,不定时会有新的pdf增加(下载链接有变化),现在需要监控网页变化,并下载新增加的文件. 直接 ...

  8. 关于火车采集js调用文章资讯的方法 淘宝采集 相关

    关于火车采集js调用文章资讯的方法 心岛发布于2014年12月16日 分类: 数据采集  浏览:761 人次 评论:0 一.需要准备的工具软件: 火车头采集器 抓包软件(我使用的是fiddler) 二 ...

  9. dts插件 foobar pan baidu_SU插件插件库安装教程

    插件下载 [名称]:SketchUP插件-插件库 [大小]:219.7 MB [语言]:简体中文 [安装环境]:Win7/Win8/Win10 [支持版本]:SketchUP2014-2019 [32 ...

  10. php网页 安装插件,插件安装流程

    下述的步骤只是按照通用流程进行说明,如果与插件安装说明中的描述不符,请以插件提供者的描述为准. 下载所需的插件 PHPWind百款插件,集大家所爱,请下载适合您当前论坛情况的插件,并仔细阅读插件安装说 ...

最新文章

  1. java process exit_Java Process.exitValue()中值的含义是什么?
  2. ucache来广营(望京)机房
  3. CentOS常见配置
  4. PHP 获取当前类名、方法名、URL地址
  5. 澳洲森林火灾蔓延数学建模,基于元胞自动机模拟多模式下火灾蔓延(附部分源码)
  6. CG CTF WEB /x00
  7. java ee maven_针对新手的Java EE7和Maven项目–第6部分
  8. Java调试器和超时
  9. 减去字符串_从文本字符串中提取指定值的6个超级技巧解读
  10. Shell编程:awk使用总结
  11. Recbole自定义训练集、验证集和测试集推荐
  12. centos7下修改/找回mysql的密码,我这里是mysql5.7
  13. python开发效率怎样_Python 的开发效率真的比 Java高吗?
  14. WPF和Expression Blend开发实例:Adorner(装饰器)应用实例
  15. python卸载_手把手教Python环境安装
  16. Illustrator 教程,如何在 Illustrator 中设计插画?
  17. jmeter连接mysql并定义变量提供给后续接口使用
  18. 客服系统源代码下载-h5手机端在线客服代码-在线聊天系统源代码(前端vue开发,后台go语言开发)
  19. 宽带运营商的dns服务器,给大家介绍 几个常用的公共DNS服务器
  20. BDrate、BDBR、BDPSNR的计算原理和程序

热门文章

  1. 国内外需求管理工具使用感悟!
  2. JavaScript 编写Date 格式化方法『Python风格』
  3. 服务器电源维修书籍,380G5服务器电源维修经历.pdf
  4. Python爬取哔哩哔哩视频
  5. 网页打开慢升级服务器宽带,网速快打开网页慢怎么办_网络测速很快但是上网很慢如何解决-win7之家...
  6. 编译jitsi-meet安卓遇到的问题
  7. Vivado时钟之间的三种关系
  8. 高等数学:求“分段函数在分段点”的导数,可以直接用导数公式吗?
  9. 只因写了一段爬虫,公司200多人被抓!
  10. 达梦数据库DM8启动与关闭