API说明——下载gsExtractor内容提取器

1,接口名称

下载内容提取器

2,接口说明

如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试。

如果要从一个网页上提取很多字段,逐个调试XPath将是十分耗时的。通过这个接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得。

这个XSLT提取器可以是您用MS谋数台生成的,也可以是其他人共享给您的,只要您有读权限,皆可下载使用。

用于数据分析和数据挖掘的网络爬虫程序中,内容提取器是影响通用性的关键障碍,如果这个提取器是从API获得的,您的网络爬虫程序就能写成通用的框架。请参看GooSeeker的开源Python网络爬虫项目。

3,接口规范

3.1,接口地址(URL)

http://www.gooseeker.com/api/getextractor

3.2,请求类型(contentType)

不限

3.3,请求方法

HTTP GET

3.4,请求参数

key 必选:Yes;类型:String;说明:申请API时分配的AppKey

theme 必选:Yes;类型:String;说明:提取器名,就是用MS谋数台定义的规则名

middle 必选:No;类型:String;说明:规则编号,如果相同规则名下定义了多个规则,需填写

bname 必选:No;类型:String;说明:整理箱名,如果规则含有多个整理箱,需填写

注释:请参看GooSeeker网络爬虫术语解释:集搜客GooSeeker专有名词解释

3.5,返回类型(contentType)

text/xml; charset=UTF-8

3.6,返回参数

HTTP消息头中的参数,如下:

more-extractor 类型:String;说明:相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数,用以提示客户端有多个规则和整理箱,客户端自己决定是否要在发送请求时携带明确的参数

3.7,返回错误信息

消息层错误以HTTP 400返回,比如,URL中的参数不符合本规范

应用层错误以HTTP 200 OK返回,具体错误码用XML文件放在消息体中,XML结构如下:

具体的错误码

具体的code值如下:

keyError:权限验证失败

paramError:URL中传来的参数有误,比如,参数名称或值不正确

empty:非错误状态,而是请求的提取器是不存在的,比如,某个抓取规则并没有创建整理箱,则返回empty

4,用法范例(python语言)

示例代码:

# -*- coding: utf-8 -*-

from urllib import request

url = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名'

resp = request.urlopen(url)

content = resp.read()

if(content):

print(content)

接下来我会对此API进行测试,将案例发布出来。

5,相关文档

6,集搜客GooSeeker开源代码下载源

7,文档修改历史

1,2016-06-22:V1.0

python爬虫程序说明_Python即时网络爬虫:API说明相关推荐

  1. python爬虫程序的流程图_Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)...

    ###1. 项目背景 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到 ...

  2. python网络爬虫_Python即时网络爬虫:API说明

    1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试. 如果 ...

  3. Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)

    1. 项目背景 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...

  4. python网络爬虫的项目背景_第四章 Python即时网络爬虫项目: 内容提取器的定义

    1. 项目背景 在python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中 ...

  5. [Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  6. 【python爬虫 系列】1.理解网络爬虫

    第一节:理解网络爬虫 1.1网络爬虫的定义 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.另外一些不常使用的名字还有 ...

  7. [Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  8. Python爬虫总结——Scrapy+Gerapy部署网络爬虫

    Python爬虫总结--从基础爬虫到Scrapy+Gerapy部署网络爬虫 前言 一.常用pip模块介绍 1.NumPy库 2.Pandas库 3.Requests库 4.BeautifulSoup库 ...

  9. c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...

    首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...

最新文章

  1. 自建28核树莓派集群,顺便学学docker,这里有一个500美元的搭建方案
  2. (原創) 如何將CMOS所擷取的影像傳到PC端? (SOC) (DE2) (TRDB-DC2)
  3. eureka心跳_Eureka工作原理及心跳机制
  4. CS8900A网络驱动程序移植
  5. php边框圆角,css3圆角和圆角边框使用方法总结
  6. html中,怎么样才能获得iframe页面里的内容
  7. solr.Net课程二 solr5.5之core配置
  8. Learning to rank 特征抽取
  9. Java 8 中的 java.util.Optional
  10. STM32CubeMX官网下载方法
  11. 富士相机设置传原图_「富士相机」机身设置分享,摄影小白也可以拍摄到胶片感的照片...
  12. Win10桌面背景(壁纸)导出工具
  13. mysql 建数据库命令_新手入门MySQL数据库命令大全
  14. STP生成树——安全特性——单向环路故障——loopguard技术详细讲解、网线分类(附图,建议PC观看)
  15. Python 3 网络爬虫 个人笔记 (未完待续)
  16. 2010中国移动开发者大会21日开幕 揭密五大亮
  17. 【社区团购平台排名】社区团购平台有哪些?
  18. stata怎么画分类图_stata如何画分布图
  19. Android 后台服务(Service)
  20. 笔记本显示网络电缆被拔出怎么解决_电脑提示本地网络电缆被拔出怎么办?

热门文章

  1. 工作流引擎 Activiti 实战系列
  2. 来看看如何使用策略模式干掉讨厌的 if else
  3. main方法的格式讲解
  4. mysql select语句详解_mysql学习笔记之完整的select语句用法实例详解
  5. dae模型如何合并_FBX、DAE模型的格式、导入与骨骼动画
  6. 运维企业专题(11)RHCS高可用集群下MySql数据库与共享磁盘(单点写入、多点写入)的设置
  7. 模拟运维中产品上线流程
  8. 伤感网络验证系统_可验证云数据库架构与设计
  9. 磁盘分区形式mbr和gpt哪个好_济南历下区中考美术集训应该选哪个
  10. blockly自定义中文出问题_3.8 事件 - Blockly 二次开发文档中文版