简介: 女娲是飞天分布式系统中提供分布式协同的基础服务,支撑着阿里云的计算、网络、存储等几乎所有云产品。在女娲分布式协同服务中,一致性引擎是核心基础模块,支持了Paxos,Raft,EPaxos等多种一致性协议,根据业务需求支撑不同业务状态机。如何保证一致性库的正确性是一个很大挑战,我们引入了TLA+、Jepsen等工具保证一致性库的正确性。本文即从程序员视角介绍形式化验证工具TLA+。

作者 | 祥光
来源 | 阿里技术公众号

一 引言

女娲是飞天分布式系统中提供分布式协同的基础服务,支撑着阿里云的计算、网络、存储等几乎所有云产品。在女娲分布式协同服务中,一致性引擎是核心基础模块,支持了Paxos,Raft,EPaxos等多种一致性协议,根据业务需求支撑不同业务状态机。如何保证一致性库的正确性是一个很大挑战,我们引入了TLA+、Jepsen等工具保证一致性库的正确性。本文即从程序员视角介绍形式化验证工具TLA+。

从理论上证明一个程序或者算法的正确性往往是困难的,工程中一般使用测试来发现问题,但再多的测试也无法保证覆盖到了所有的行为,那些没覆盖到的行为就成为潜在的隐患,一旦在线上再暴露出来,往往会带来不可预期的结果。形式化验证正是为了解决这样的问题,它使用计算机强大的计算能力,暴力的搜索所有可能的行为,检查是否满足事先设定的属性,任何不符合预期的行为都能被发现,从根本上保证算法的正确性。

二 TLA+简介

TLA+(Temporal Logic of Actions) 是Leslie Lamport开发的一门形式化验证语言,用于程序的设计、建模、文档和验证等,特别是并发系统和分布式系统。TLA+的设计初衷是用简单的数学理论和公式精准地对系统进行描述。TLA+及其相关工具有助于消除程序中很难找到、纠错成本高的基本错误。

使用TLA+对程序进行形式化验证,首先要用TLA+对程序进行描述,这样的描述称为规范(Specification)。有了Specification以后就可以使用TLC模型检查器来运行它,运行的过程会遍历所有可能的行为,检查Specification中设定的属性,发现非预期的行为。

TLA+基于数学,使用的是数学思维,与任何编程语言都不相似。为了降低TLA+的门槛,Lamport又开发了PlusCal语言,PlusCal与编程语言类似,可以很方便的描述程序逻辑,并且借用TLA+提供的工具可以直接将PlusCal翻译成TLA+。大多数工程师会发现PlusCal是开始使用TLA+的最简单方法,但简单带来的代价就是PlusCal不具备TLA+的一些功能,有时不能像TLA+那样构造复杂的模型,因此PlusCal还不能取代TLA+。先使用PlusCal编程语言完成基本的逻辑,然后进一步基于生成的TLA+代码再修改,可以简化TLA+的开发。

三 TLA+应用

TLA+在学术界和工业界都有着广泛的应用。TLA+ Examples给出了一些使用TLA+验证过的分布式算法和并发算法。在分布式算法和并发算法的研究领域,提出一个新的算法或者改进一个现有的算法,TLA+验证基本是标配。很多分布式算法论文在非形式化的论证介绍之外, 会附带TLA+的Specification来证明自己的算法是经过形式化验证的。对TLA+比较熟悉的业内人士来说,直接看TLA+的Specification甚至比看大段的论文理解的更快,对于论文的语言描述没有看明白,或者觉得有歧义的时候,查看TLA+的Specification对照着理解,有时候是阅读论文的一把利器,甚至有时候一些算法细节只能在TLA+的Specification里看到。由于Specification是逻辑严密滴水不漏的,可以更好的作为实现的指导。

Lamport的TLA+主页上列出了一些TLA+在工业界的应用。以Amazon为例,Amazon AWS的一些系统的核心算法就使用了TLA+来做形式化验证,如表1列出了TLA+给AWS的一些系统找出的问题,其中涵盖了一些非常核心的组件,这些核心组件的问题一旦在线上暴露,造成的损失将是不可估量的。正是如此,现在分布式云服务的核心算法使用TLA+来对设计做验证已经成为行业标准了,所以作为云服务的从业者或者对此感兴趣的同学,熟悉TLA+绝对是不可或缺的加分项。

表1:TLA+给AWS的系统找出的问题

四 TLA+入门

在VS Code中安装TLA+插件就可以开始使用TLA+了。这里先以一个简单的示例入门TLA+。

考虑一个单比特位的时钟,由于只有一个比特位,只能取值0或者1,其行为只有如下两种情况:

0 -> 1 -> 0 -> 1 -> 0 -> ...
1 -> 0 -> 1 -> 0 -> 1 -> ...

我们如何用TLA+来描述这个时钟呢?为了更容易入门,先用更方便工程师入门的PlusCal来描述:

图1:单比特时钟的PlusCal描述

图1是单比特时钟的PlusCal描述,相信具有编程功底的同学都能轻易看懂。这段PlusCal代码可以直接使用TLA+提供的工具翻译成TLA+代码:

图2:单比特时钟的TLA+描述

有了上面的PlusCal的基础,理解这一段TLA+也不难,重点在于Spec的理解。Spec定义了系统的行为,如图3描述了单比特时钟的行为,Init将clock初始化为0或1,Tick让clock在0和1之间来回跳转,Stutter让clock保持不变。TLA+运行的过程其实就是在图上做遍历。

图3:单比特时钟的行为

要让这段TLA+跑起来,上述TLA+代码需保存至clock.tla文件,此外还需要编写一个如图4所示的clock.cfg文件,clock.cfg文件内容很简单,它注明要运行的Specification是哪个,要检查的Invariant是哪个。

图4:clock.cfg文件内容

有了这两个文件,就可以用TLC来运行了,运行结束后得到如图5所示的结果,图中展示了一些统计信息。

图5:运行结果

五 TLA+原理

为了理解TLA+的运行原理,弄清楚它是怎么遍历的,我们可以在运行的时候加上一些参数,让TLC输出状态图。比如我们运行图6所示的一段TLA+代码,图7是运行所需要的cfg文件。这个例子试图找出用面值为1、2和5的钱组合出19块钱的所有组合方式。

图6:money.tla

图7:money.cfg

运行结束后可以得到如图8所示的状态图,图中的顶点为状态,共20种状态,money=0为初始状态,money=19为终止状态,图中的边为动作,共4种动作:Add(1)、Add(2)、Add(5)和Terminating。

图8:状态图

TLA+的运行是完全串行的,运行的的过程即在状态图上做图的遍历,每遍历到一个状态,就检查一下当前状态是否满足事先设定的不变式,满足则继续遍历,不满足则立即报错。TLA+会尝试所有的遍历路径,不错过任何一种行为。我们知道图的遍历方式有深度优先和广度优先两种,TLA+默认广度优先遍历,也可配置成深度优先模式或者随机行为模式,深度优先模式需要给定一个最大深度。

现在我们知道了TLA+的原理实际上就是状态图的遍历并检查的过程,这样的过程看似简单,却能覆盖到算法所有的路径,不漏掉任何一种行为。实际我们经常使用TLA+检查算法的Safety和Liveness属性。

六 TLA+并发

到这里相信读者对TLA+的原理已经有了初步的了解,但细心的读者可能心中还有一个很大的疑问:TLA+运行过程是完全串行的,那么串行运行的TLA+如何模拟并发算法或者分布式算法呢?

对于串行算法来说,算法中的动作是Totally Ordered,本身就是一个串行的状态机,很容易构造状态图。但并发算法或者分布式算法中的动作是Partially Ordered,不是一个串行的状态机,如何构造出状态图呢?

如果并发算法或者分布式算法中的动作也能变成Totally Ordered,则也可以看作是一个串行的状态机,构造出状态图。

实际上Lamport大师一早就研究了这个问题,在他被引用的最多的论文《Time, Clocks and the Ordering of Events in a Distributed System》中给出了为分布式系统中的事件定序的方法。简单的说就是在保证具有Partially Ordered关系的事件的顺序的前提下,将剩下的无序的事件人为定一个顺序,可以将所有事件排一个序变为Totally Ordered,并且这种定序不会破坏因果关系。

事实上TLA+大放异彩的地方正是在并发算法和分布式算法领域,因为在这些领域算法的行为多种多样,容易疏漏,因此需要TLA+全面检查算法的所有路径,不漏掉任何一种行为。

七 总结

TLA+使用计算机强大的算力搜索算法所有可能的行为,以发现非预期的行为。随着计算机算力的提升,以及软件和硬件系统越来越复杂,TLA+将越来越受到重视,越来越成为工程师的必备技能。

最后如果读者对TLA+感兴趣,这里推荐一本TLA+的入门书籍《Practical TLA+》,比较适合入门,并且网上有免费的电子版可以直接下载。

原文链接
本文为阿里云原创内容,未经允许不得转载。

形式化验证工具TLA+:程序员视角的入门之道相关推荐

  1. java excel 插件开发工具_程序员常用的15 种开发者工具推荐

    程序员常用的15 种开发者工具推荐:Java 线上诊断工具 Arthas.IDE 插件 Cloud Toolkit.混沌实验注入工具 ChaosBlade.Java 代码规约扫描插件.应用实时监控工具 ...

  2. 编程浅谈-以一个初出茅庐的Java程序员视角

    编者是一个从事Java开发的普通软件攻城狮,迄今为止,粗粗算来不过刚刚进入编程的世界不过两年,但在这两年的光阴里,每当我抬头仰望星空(苦命加班)时脑海里总有这样一个疑问--"什么是编程&qu ...

  3. 王楠——海外华人程序员视角:解密移动游戏开发与Unity 4引擎特性

    海外华人程序员视角:解密移动游戏开发与Unity 4引擎特性 发表于2012-09-07 17:24| 12534次阅读| 来源CSDN整理| 0 条评论| 作者杨依帆 游戏开发Unity游戏引擎王楠 ...

  4. 程序员视角的计算机系统 2.1.7 布尔代数的介绍

    程序员视角的计算机系统 2.1.7  布尔代数的介绍 因为二进制的值是计算机如何编码,存储,维护信息的核心,围绕着0和1的值的研究,已经进化 出庞大的数学知识体系.这开始于乔治布尔的1850年左右的工 ...

  5. 程序员视角的计算机系统 第一章 计算机系统 之旅

    程序员视角的计算机系统 第一章 计算机系统 之旅 一个计算机系统由硬件和系统软件组成,硬件和软件一起工作来运行应用程序. 系统的特定的实现随时间的流逝而改变,但是它的本质性的概念不会改变. 所有的计算 ...

  6. 成都链安重磅出品 | 基于VS Code插件的智能合约自动形式化验证工具Beosin—VaaS『离线免费版』...

    11月4日,成都链安重磅推出『离线免费版』智能合约自动形式化验证工具Beosin-VaaS,该版本基于流行的开发工具VS Code插件,供广大开发者免费使用.获得方式如下,欢迎体验使用: https: ...

  7. java metronic_不懂前端的程序员不是好美工——UI框架metronic使用教程——程序员视角...

    本着不懂前端的程序员不是好美工的观点,所以作为一个仅懂一点前端的程序员,为了成为一个好美工,所以只能用些取巧的方法伪装一下. metronic一个基于bootstrap的响应式的后台管理平台的UI框架 ...

  8. 超级好用的开发工具,程序员实用工具整理

    其实本来打算写的是web开发工具合集,但写着写着觉得不太过瘾,所以索性把所有用得到的工具都列出来了. 如果能在一开始就把这些工具利用起来,相信可以大大提高工作效率,所以起码对新手来说是比较有益的.而且 ...

  9. Scyther形式化验证工具简单教程

    Scyther形式化验证工具 Scyther是一种自动化的安全协议验证工具.在协议的安全性验证方面有着广泛的应用. 下面介绍其安装方法以及使用教程. 安装方法 Scyther工具在Windows 10 ...

最新文章

  1. 我对bgwriter.c 与 guc 关系的初步理解
  2. 158. Leetcode 121. 买卖股票的最佳时机 (贪心算法-股票题目)
  3. #地形剖面图_高中地理——每日讲1题(地形剖面图、河流水的补给、河流丁坝)...
  4. 浅谈数据仓库建设中的数据建模方法
  5. 《Python Cookbook 3rd》笔记(1.9):查找两字典的相同点
  6. 构建实时数据仓库首选,云原生数据仓库技术解密
  7. 流行的JavaScript库 ——jQuery
  8. 熊乃学 计算机,信息工程学院 - 副本.pdf
  9. 聪明的kk nyoj 171
  10. 基于python3的百度街景地图爬虫
  11. 【已解决】取消电脑自动开机
  12. office办公软件题库1
  13. HTTP 错误 404.17 - Not Found 请求的内容似乎是脚本,因而将无法由静态文件处理程序来处理。
  14. 宝塔 nginx配置 wss
  15. 群晖 USB存储改内置存储空间 | 玩物下载 到U盘 | 套件安装到U盘
  16. OpenStack和Open Source MANO:NFV部署两大支柱
  17. linux安装ssl证书
  18. 如何能成为一个自由职业者?先做好这几方面
  19. html图片叠,很棒的CSS3图片堆叠效果
  20. c语言怎么用scanf输入字母,c语言输入字符串(c语言怎么用scanf输入字符串)

热门文章

  1. JAVA入门级教学之(静态内部类)
  2. python 排列组合_python 编写排列组合
  3. 四川大学计算机专业贵州分数线,四川大学2016年在贵州省高考各专业录取分数线...
  4. 优秀Java程序员的编程风格
  5. Java中String相关类型的区别
  6. php二维数组 xml,xml 怎样通过php解析到二维数组里面
  7. python写选择排序_如何快速掌握python选择排序算法?
  8. 数学难题html5小游戏答案,小学数学难题讲解及答案
  9. dnf如何快速拾取物品_DNF手游泰拉该如何获取,游戏蜂窝辅助托管快速获取泰拉...
  10. 简述python的特性_Python的特性概要