1,接口名称

下载内容提取器

2,接口说明

如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试。

如果要从一个网页上提取很多字段,逐个调试XPath将是十分耗时的。通过这个接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得。

这个XSLT提取器可以是您用MS谋数台生成的,也可以是其他人共享给您的,只要您有读权限,皆可下载使用。

用于数据分析和数据挖掘的网络爬虫程序中,内容提取器是影响通用性的关键障碍,如果这个提取器是从API获得的,您的网络爬虫程序就能写成通用的框架。

3,接口规范

3.1,接口地址(URL)

http://www.gooseeker.com/api/getextractor

3.2,请求类型(contentType)

不限

3.3,请求方法

HTTP GET

3.4,请求参数

key 必选:Yes;类型:String;说明:申请API时分配的AppKey

theme 必选:Yes;类型:String;说明:提取器名,就是用MS谋数台定义的规则名

middle 必选:No;类型:String;说明:规则编号,如果相同规则名下定义了多个规则,需填写

bname 必选:No;类型:String;说明:整理箱名,如果规则含有多个整理箱,需填写

3.5,返回类型(contentType)

text/xml; charset=UTF-8

3.6,返回参数

HTTP消息头中的参数,如下:

more-extractor 类型:String;说明:相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数,用以提示客户端有多个规则和整理箱,客户端自己决定是否要在发送请求时携带明确的参数

3.7,返回错误信息

消息层错误以HTTP 400返回,比如,URL中的参数不符合本规范

应用层错误以HTTP 200 OK返回,具体错误码用XML文件放在消息体中,XML结构如下:

具体的错误码

具体的code值如下:

keyError:权限验证失败

paramError:URL中传来的参数有误,比如,参数名称或值不正确

empty:非错误状态,而是请求的提取器是不存在的,比如,某个抓取规则并没有创建整理箱,则返回empty

4,用法范例(python语言)

示例代码:

python网络爬虫_Python即时网络爬虫:API说明相关推荐

  1. python爬虫程序的流程图_Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)...

    ###1. 项目背景 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到 ...

  2. python实例代码爬虫_Python实例教程爬虫从网络上下载文档的实例代码

    Python实例教程爬虫从网络上下载文档的实例代码 来源:中文源码网    浏览: 次    日期:2018年8月30日 [下载文档:  Python实例教程爬虫从网络上下载文档的实例代码.txt ] ...

  3. python异步爬虫_Python实战异步爬虫(协程)+分布式爬虫(多进程)

    转自:https://blog.csdn.net/SL_World/article/details/86633611 在讲解之前,我们先来通过一幅图看清多进程和协程的爬虫之间的原理及其区别.(图片来源 ...

  4. python 静态网页_Python静态网页爬虫相关知识

    想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现 爬虫包括调度器,管理器,解析器,下载器和输出器. ...

  5. python高级网络编程_Python高级网络编程系列之基础篇

    一.Socket简介 1.不同电脑上的进程如何通信? 进程间通信的首要问题是如何找到目标进程,也就是操作系统是如何唯一标识一个进程的! 在一台电脑上是只通过进程号PID,但在网络中是行不通的,因为每台 ...

  6. python爬虫程序说明_Python即时网络爬虫:API说明

    API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...

  7. python百度百科api-Python即时网络爬虫:API说明

    API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...

  8. python windows自动化 爬虫_Python体系(网络爬虫、人工智能、WEB开发、自动化运维)详细介绍...

    不论你是对Python初出茅庐,还是如指诸掌,这篇文章对你的收获总归还是有的啦,可能只是程度的问题.好了不扯远了,来说正题,下面在分享这套体系前还是要让Python做一下"自我介绍" ...

  9. python soup歌词_python学习之爬虫(一) ——————爬取网易云歌词

    接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着"Done is b ...

最新文章

  1. 2008找回企业久违的网速
  2. {面试题2: 实现 Singleton 模式}
  3. 某网SQL注入漏洞实战
  4. 用华为鸿蒙 OS 2.0 系统写出了HelloWorld!那些说鸿蒙是PPT的可以闭嘴了!
  5. ESP32-CAM使用过程中可能会遇到的问题
  6. SSD 因 NCQ hang,failed command: WRITE FPDMA QUEUED / tag 28 ncq 4096 out
  7. 钉钉终于崩了!小学生欢呼庆祝解放,没想到没高兴多久就...
  8. ArcEngine二次开发_04(鼠标点击图层点显示属性(两个及以上))
  9. abb机器人伺服电机报闸是什么_ABB机器人伺服电机维修更换马达步骤
  10. jsp文件创建后自动设置其pageEncoding的属性值为UTF-8
  11. yum在linux安装mysql数据库_linux安装mysql(yum安装,比较简单)
  12. java 分词搜索_基于JAVA的小型中文分词系统
  13. 学士后java单元项目答案_北大青鸟学士后java工程师第二单元项目源代码
  14. C语言在当代人工智能背景下的作用,人工智能c语言新手入门
  15. 协议栈之packet_type
  16. android 获取控件在屏幕中位置
  17. PAKDD 2019 中国企业深兰科技夺冠:AutoML 如何推动 AI 应用落地?
  18. 基于python的水果销售系统设计与实现 django框架毕业设计毕设参考
  19. ue4 离线渲染_[译]Real Shading in Unreal Engine 4(UE4中的真实渲染)(2)
  20. 2021年低压电工考试题及低压电工考试报名

热门文章

  1. iview使用原生html,iview在vue-cli3如何按需加载的方法
  2. 新入职了一个卷王,一来就把性能提升4倍,这谁受的了~
  3. 面试中常问多线程相关的知识,在工作中到底用在哪里呢?
  4. 分享一套基于SpringBoot和Vue的企业级中后台开源项目,代码很规范!
  5. IntelliJ IDEA 开启很慢,运行不流畅,大项目卡顿?一招配置解决!
  6. JavaWeb JDBC初步连接和JDBC连接规范化
  7. java 反射 field get方法_JAVA学习之反射getDeclaredField()方法与getField()方法的区别
  8. 二进制十六进制相互转换
  9. ffmpeg基本知识
  10. sublime text插件emmet自定义模板