python爬虫程序说明_Python即时网络爬虫：API说明

API说明——下载gsExtractor内容提取器

1，接口名称

下载内容提取器

2，接口说明

如果您想编写一个网络爬虫程序，您会发现大部分时间耗费在调测网页内容提取规则上，不讲正则表达式的语法如何怪异，即便使用XPath，您也得逐个编写和调试。

如果要从一个网页上提取很多字段，逐个调试XPath将是十分耗时的。通过这个接口，你可以直接获得一个调测好的提取器脚本程序，是标准的XSLT程序，您只需针对目标网页的DOM运行它，就能获得XML格式的结果，所有字段一次性获得。

这个XSLT提取器可以是您用MS谋数台生成的，也可以是其他人共享给您的，只要您有读权限，皆可下载使用。

用于数据分析和数据挖掘的网络爬虫程序中，内容提取器是影响通用性的关键障碍，如果这个提取器是从API获得的，您的网络爬虫程序就能写成通用的框架。请参看GooSeeker的开源Python网络爬虫项目。

3，接口规范

3.1，接口地址（URL）

http://www.gooseeker.com/api/getextractor

3.2，请求类型（contentType）

不限

3.3，请求方法

HTTP GET

3.4，请求参数

key 必选：Yes；类型：String；说明：申请API时分配的AppKey

theme 必选：Yes；类型：String；说明：提取器名，就是用MS谋数台定义的规则名

middle 必选：No；类型：String；说明：规则编号，如果相同规则名下定义了多个规则，需填写

bname 必选：No；类型：String；说明：整理箱名，如果规则含有多个整理箱，需填写

注释：请参看GooSeeker网络爬虫术语解释：集搜客GooSeeker专有名词解释

3.5，返回类型（contentType）

text/xml; charset=UTF-8

3.6，返回参数

HTTP消息头中的参数，如下：

more-extractor 类型：String；说明：相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数，用以提示客户端有多个规则和整理箱，客户端自己决定是否要在发送请求时携带明确的参数

3.7，返回错误信息

消息层错误以HTTP 400返回，比如，URL中的参数不符合本规范

应用层错误以HTTP 200 OK返回，具体错误码用XML文件放在消息体中，XML结构如下：

具体的错误码

具体的code值如下：

keyError：权限验证失败

paramError：URL中传来的参数有误，比如，参数名称或值不正确

empty：非错误状态，而是请求的提取器是不存在的，比如，某个抓取规则并没有创建整理箱，则返回empty

4，用法范例（python语言）

示例代码：

# -*- coding: utf-8 -*-

from urllib import request

url = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名'

resp = request.urlopen(url)

content = resp.read()

if(content):

print(content)

接下来我会对此API进行测试，将案例发布出来。

5，相关文档

6，集搜客GooSeeker开源代码下载源

7，文档修改历史

1，2016-06-22：V1.0

python爬虫程序说明_Python即时网络爬虫：API说明相关推荐

python爬虫程序的流程图_Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)...
###1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到 ...
python网络爬虫_Python即时网络爬虫：API说明
1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试. 如果 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...
python网络爬虫的项目背景_第四章 Python即时网络爬虫项目: 内容提取器的定义
1. 项目背景在python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中 ...
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素、常用方法、键盘鼠标操作）
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
【python爬虫系列】1.理解网络爬虫
第一节:理解网络爬虫 1.1网络爬虫的定义网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.另外一些不常使用的名字还有 ...
[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
Python爬虫总结——Scrapy+Gerapy部署网络爬虫
Python爬虫总结--从基础爬虫到Scrapy+Gerapy部署网络爬虫前言一.常用pip模块介绍 1.NumPy库 2.Pandas库 3.Requests库 4.BeautifulSoup库 ...
c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...
首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...

python爬虫程序说明_Python即时网络爬虫：API说明

python爬虫程序说明_Python即时网络爬虫：API说明相关推荐

最新文章

热门文章