1. 项目背景

最近产品研发中我们设计了一个算法集成规范,定义了一个统一的算法服务API接口,并通过产品的“模型管理”模块进行算法服务的配置,从而实现外部算法服务的灵活集成与扩展。

这个模式对于新开发的算法是没有问题的,按照定义的接口规范实现就可以轻松地集成。但是对于已有的算法,或者遇到客户比较强势不愿意改自己接口的时候,就比较尴尬了。有没有什么比较好的方式能够解决这个问题呢?

另外,网上有很多开放的API服务,可以非常方便地进行调用。但是尽管大部分API都采用JSON格式作为返回数据格式但却格式不同,如何能够方便进行利用呢?

2. 需求提炼

根据场景问题,我把需求进行了提炼,问题转化为:设计一个通用的工具,以JSON数据作为输入,根据指定的规则进行数据格式转换、数据提取,从而解决上述问题。

目前仅考虑支持JSON,主要是大部分线上API服务(我司全部后台服务)使用JSON作为返回值格式,甚至采用标准restful 形式。

那么,对于规则应该如何提炼、设计呢?初步考虑也采用JSON语法,JSON本身相对简单、容易理解,对于不太了解编程开发的人来说会比较友好。关于JSON语法规范,建议大家直接看JSON官网,非常好理解。

下一步就是对JSON规则进行设计

3. 规则设计

我目前先考虑几种简单情况。
(1)样例数据设计

{code: 20000,msg: "abcde",data: {ner: {name: "aaa",type: "person",start: 5,end: 7,info: ['abc']},events: [{type, subtype, trigger}],ent_name: ["a", "b", "c"],ent_type: ["person", "loc", "org"]}
}

(2)单值规则

1. $ 代表顶层,即输入本身(当前处理的顶层)
2. x.field 表示x为JSON对象,获取x的field字段;支持特殊field:$len 表示字符串或数组长度;$keys 表示获取字典的key组成的数组
3. x[y] 表示x为JSON数组,获取x数组的第y项元素
4. 上述规则可以嵌套,从而支持任意层次的单值信息获取(除非获取元素本身为数组)

示例如下:

- $.code -> 20000
- $.data -> {ner, events }
- $.data.ner.name -> 'aaa'
- $.data.ner.info[0] -> 'abc'
- $.data.ner.$keys -> ['name', 'type', 'start', 'end', 'info']
- $.data.events.$length -> 1
- $.data.events

(3)对象规则

5. 对象规则,返回对象  { "a": "aaa" } 没有变量,返回规则本身;{ "a": "$.a[2].e"} 根据指定规则获得a的值
6. key为$root 用于指定当前访问的顶层节点
7. key为$val 用于将本规则返回值作为当前层级的值
8. key为$fun 用于提供一段脚本函数(例如js脚本,待定)进行执行,以函数返回值作为该字段的值,用于应对复杂情况

示例如下:

{"$root": "$""data": {"$root": "$.data.events","$val": "$"}
}
->
{"data": [{type, subtype, trigger}]
}

(4)数组规则

9. 数据规则返回数组,数组中每个元素为一个新的规则

示例如下:

["$.data.ent_name[0]", "$.data.ent_type[0]"]
->
["a", "person"]

(5)其他待考虑情况
基于目前了解到的API形式,还有以下需求上述规则未能很好覆盖:

  1. 对于对称的子树,如果自动进行匹配返回?例如示例数据中,需要对ent_name和ent_type进行配对返回:
 [["a", "person"], ["b", "loc"], ["c", "org"] ]

这里的问题是数组长度是不定的,且横向的数量也是不定的(请大家想象一棵树,水平的多个子树)。另外对于对称的JSON对象节点又应该如何处理?

  1. 如何实现对获取值进行映射?比如上述NLP结果中返回的person(人物),需要转换成统一标识PER
  2. 如何实现根据业务逻辑进行获取?比如上述实例数据中如果code不等于20000,就应该返回错误
    这留待后续进行完善。

4. 程序设计

把规则描述清楚了,其实主要工作就结束了,因为这个问题就是树遍历+文本处理问题,类似SQL解析、模板消解或着编程课里面小儿科的“手写计算器”之类的问题。

说一下主要思想:

  1. 首先JSON值是一棵树,输入规则是JSON,所以也是一棵树,带着规则对树进行遍历,直到获取所有数据。由于是多叉树,所以一开始别想着用循环进行树遍历,那样太累了,直接上递归。在限定数据规划和栈层次的情况下,不会发生溢出,这一点我可以保证,信不信由你 ^^
  2. 根据当前规则的类型进行判断,如果是字符串,并且以$开头,那么肯定是简单规则,一撸到底
  3. 再看是否是对象规则,区分几种特殊key的情况:
    3.1 $root 这是相当于上下文跃迁,直接把当前数据节点定位到了指定的数据节点上了,甚至可以新建一个上下文 与原来的节点可以毫无干系

3.2 $val 是指定获取的值直接作为当前对象规则的返回值,所以要直接返回

3.3 $fun 是指定用函数进行评估,这个函数具体用什么语言(JS还是python),稍微有点复杂(例如跨语言)后面再考虑,但是基本可以确定需要传递给函数的是当前节点和当前规则

3.4 其他特殊key考虑,可能涉及调整优先级,目前暂无

3.5 进行对象遍历,相当于以输入为模板对象,进入下一层

  1. 再看是否是数组规则,目前比较简单粗暴,直接遍历数组,递归进入下一层,最后返回数组值

  2. 其他情况,直接返回当前数据节点

5. 简单规则解析

在上述思想框架下,剩下一个叶子节点问题,那就是对简单规则进行解析。直接点,上状态机:

状态转移矩阵:

在此状态图指引下,很容易写出相关程序,这里不再赘述。

初步效果如下:

6. 错误处理

如果规则不符合约定规范怎么办?这个时候肯定需要进行错误处理。程序里面唯一没有问题的就是总是有问题!

目前简单的想法就是在遇到错误的时候返回错误状态,但是解析过程会尽可能继续。

主要考虑的几种错误包括(再看一下状态图):

  1. 期待 .[ ,但遇到了其他字符,Invalid Start
  2. 期待其他字符,却遇到了.[,Invalid Token
  3. [开始的token,没有遇到],Dangling [
  4. " 开始的token,没有遇到结束的引号,Dangling "
  5. ]结束的token,发现不是数字 Invalid Index

7. 设计细节

  1. 把简单规则归纳为以$开头,包含0个或多个<操作, 参数>的列表,解析过程就是获取每一个操作及其参数,操作分为 .操作和index操作,分别对应对象和数组的访问
  2. 我利用了Python的生成器机制,符合条件的时候就yield返回,从而解析函数可以被当做迭代器来遍历
  3. 为了支持特殊符号的key,引入引号,凡是引号括起来的内容都是一个token
  4. 添加一个简单的校验函数,通过调用解析函数,发现错误即失败返回

8. 工程化设计应用

目前为止只是实现了一个工具,可以单独运行,但是不能很好地提供给别人使用。那么需要考虑几个方面:

  1. 服务化,基于Web框架,实现Web服务,支持接收数据和规则,返回解析结果。常见的Python Flask和Java SpringBoot都可以很方便地实现。
  2. 持久化,规则多了之后就需要管理,由于规则相对来说不变,优先考虑把规则存储起来,并分配一个ID,使用时,只需要传递数据和规则ID即可。常用的MySQL和MongoDB都可以推荐。使用MongoDB的时候,注意MongoDB的查询语法也是JSON,因此建议对规则进行JSON序列化,保存为一个String字段
  3. 服务集成,不仅要保存规则,还要保存服务相关的信息,基本信息包括API地址、请求方法、请求头固定参数、请求体固定参数等。请求服务时,由客户端指定服务ID、规则ID,以及请求头和请求体中变化的参数,基于服务基本信息封装成最后的请求后执行,对返回结果应用规则获取输出并返回给客户端。这里主要涉及HTTP的知识。常用的库requests、urllib、Apache HttpClient等
  4. 规模化调用,系统如果涉及大量的服务集成调用或大量规则需要分别执行,可以采用多线程、多进程、消息中间件等技术,实现任务调度。推荐使用消息中间件(如Kafka),将任务写入队列中,并启用多个消费者或流处理引擎(Spark 或 Flink)进行消费执行
  5. 自动化,基于触发或定时进行自动化调度。crontab就很好用。

9. 下一步考虑

  1. 完善规则设计和解析引擎,使得规则更加强大
  2. 算法服务集成的demo系统,提供简单前端界面进行配置
  3. 线上数据服务持续集成,实现特定领域数据快速获取和持续积累

一种基于JSON语法的JSON数据转换器相关推荐

  1. JSON语法之JSON 对象

    JSON 对象是一个无序的key/value对的集合.一个对象以 '{' 开始,以 '}' 结束:每个key 和 value 中使用冒号分隔:每个 key/value 对之间使用逗号分隔.如图 1‑4 ...

  2. JSON语法之JSON数组

    JSON数组是值(value)的有序集合.一个数组以"["(左中括号)开始,"]"(右中括号)结束.值之间使用","(逗号)分隔.如图 1‑ ...

  3. JSON语法之JSON字符串

    JSON 的字符串(string)跟C或者Java的字符串非常相似,是由双引号包围的任意数量Unicode字符的集合,使用反斜线转义.如图 1‑2所示: 图1-2 JSON字符串 由于JSON 字符串 ...

  4. JSON 语法之 JSON 文件

    JSON 文件的文件类型是 ".json" JSON 文本的 MIME 类型是 "application/json" 关于作者 歪脖先生,十五年以上软件开发经验 ...

  5. JSON 语法之JSON null

    JSON 可以设置 null 值.如: { "zhihu":null } 关于作者 歪脖先生,十五年以上软件开发经验,酷爱Web开发,精通 HTML.CSS.JavaScript. ...

  6. JSON语法之JSON 数值

    JSON 数值(number)与C或者Java的数值非常相似,支持整型.浮点型,浮点型也可以用指数表示.如图 1‑3所示: 图1-3 JSON数值 JSON不支持八进制和十六进制, 数值必须以十进制表 ...

  7. JSON语法之JSON键/值对

    JSON键/值对由键和值组成,键必须是字符串,值可以是字符串(string).数值(number) .对象(object).数组(array).true.false.null.如图 1‑1所示: 图1 ...

  8. JSON 语法之JSON 布尔值

    JSON 布尔值可以是 true 或者 false.如: { "flag":true } 关于作者 歪脖先生,十五年以上软件开发经验,酷爱Web开发,精通 HTML.CSS.Jav ...

  9. JSON数据格式---JSON语法规则、JSON文件

    JSON是JavaScript Object Notation的缩写,是一种轻量级的数据交换格式. JSON是独立于任何语言的文本格式.易于被计算机解析和生成 JSON中文网:http://www.j ...

  10. 笔记 Json语法 01

    1 基本语法规则 JSON 语法规则 JSON 语法是 JavaScript 对象表示法语法的子集. 1.1 数据在名称/值对中 { "navigationBarTitleText" ...

最新文章

  1. 手机编程micropython_MicroPython可视化拼插编辑器:让硬件编程更智能!
  2. java冒泡函数解释,JS DOM操作 函数 事件 阻止事件冒泡
  3. 【2018.4.7】模拟赛之六-ssl2387 树【图论,树】
  4. linux mysql提示1045_linux mysql ERROR 1045
  5. r语言的MASS包干什么的_R语言综述的包
  6. 信息学奥赛一本通 1027:输出浮点数 | OpenJudge NOI 1.1 07
  7. 少儿编程几种语言_您使用了几种编程语言?
  8. 【华为云技术分享】盘点物联网常用开发板
  9. 11月16日云栖精选夜读:阿里云 oss JavaScript客户端签名文件上传 vue2.0
  10. 几种无线充电解决方案特点及原理图
  11. 怎么关闭虚拟机服务器,ESXI | 命令行 | 强行关闭虚拟机进程 | 无法远程访问服务器...
  12. 编译原理 自顶向下分析
  13. HTML基础知识回顾整理
  14. Linux下C语言编程(1):IO编程
  15. 前端50个精美登录注册模板
  16. Leetcode力扣 MySQL数据库 1194 竞标赛优胜者
  17. 使用Python实现消息轰炸
  18. 全网最全——数字信号和模拟信号的区别
  19. php单页菜单,CSS3单页切换导航菜单界面设计的实现详解
  20. 债券收益率预测模型_证券盈利预测模型

热门文章

  1. Activity-GalleryView
  2. 北京地铁挤,最挤昌平线
  3. 刷屏的北京雾霾,2018 年北上广深空气质量分析
  4. 数据挖掘导论课后习题答案-第二章
  5. 中文版orgin图像数字化工具_GetData Graph Digitizer(图表数字化工具) V2.25 官方版
  6. keyboard dialog 仿微博表情键盘输入框
  7. 蓝桥杯 c语言入门试题,蓝桥杯c语言试题2015
  8. PLC控制系统设计的一般步骤是什么?
  9. 拯救者Y7000在CentOS7上面无法打开网卡 Ath10k (QCA9377)
  10. 发那科机器人圆弧指令怎么用_发那科机器人走弧线的指令是什么