判定一个流程挖掘结果的质量并不容易,需要从不同的维度来描述,主要包括四个质量维度:拟合度(fitness)、简单度(simplicity)、精确度(precision)和泛化度(generalization),下面我们简单地介绍了这四个质量维度,方便读者更好地理解它们。

1.背景

拟合度(replay fitness):得到的模型应该允许事件日志中所反映的行为发生;

精确度(precision):得到的模型不应该允许与事件日志中所反映的行为完全无关的行为出现;

泛化度(generalization):得到的模型应该泛化事件日志中的行为例子;

简单度(simplicity):得到的模型越简单越好。

2 .四个质量维度介绍

2.1 简单度(simplicity)

简单度(simplicity):发现的模型不应过于复杂。在流程挖掘中,这通常通过量化模型的复杂性(节点数、弧数、可理解性等)来实现。简单度主要遵循了奥卡姆剃刀原则。

奥卡姆剃刀原则:公元 14 世纪,来自奥卡姆的威廉(William of Ockham)对当时无休无止的关于“共相”“本质”之类的争吵感到厌倦,于是著书立说,宣传只承认确实存在的东西,认为那些空洞无物的普遍性要领都是无用的累赘,应当被无情地“剃除”。他所主张的“思维经济原则”,概括起来就是“如无必要,勿增实体。”因为他叫威廉,来自奥卡姆,人们为了纪念他就把这句话称为“奥卡姆剃刀”。--来自《百度百科》

一句话通俗解释为:“如无必要,勿增实体”,即“简单有效原理”。

简单性只是对模型进行了一个大致评价,只是从模型的结构上来判断,未与事件日志的行为联系起来,下面三个质量评估标准将综合模型和日志行为进行分析。

2.2 拟合度(fitness)

拟合度(fitness),也被称为召回率(recall),它关注于量化事件日志中观察到的行为有多少符合流程模型。发现的模型应允许在事件日志中看到的行为(避免“不匹配(non-fitting)”行为)。

我们通过Veen图直观地理解拟合度,如图1所示,L表示为事件日志,M表示为建模的模型,L∩M表示两者重叠的部分。

图1

根据定义,拟合度表示模型允许的事件日志行为的程度,那么计算如下:

例如,对于下图中的两个情况,图2表示日志和模型的行为不一致,那么拟合度则为0,图3中的模型行为完全包含日志中的行为,那么拟合度则为1.

图2

图3

但由于模型中存在的循环结构,使得模型中的行为可能是无限的,无法直接通过定义计算。所以,在流程挖掘领域,传统的拟合度评估指标方法有基于足迹矩阵的,基于token重演的,基于对齐的等方法,我们将会在后续章节进行介绍。

但仅仅依靠拟合度是远远不够的,一个能包含日志中所有行为的流程模型,我们称之为花型模型,假如存在事件日志L=[<start,a,b,c,e,f,end>,<start,a,c,d,e,f,end>,<start, a,b,c,d,f,end>,<start,a,d,e,f,end>],则其对应的花型模型M1如下图。

花型模型M1

根据定义,该模型M1能够重演所有事件日志中的行为,所以模型M的拟合度为1,这一模型也是简单的,但是该模型仅仅包含了事件日志中的活动信息,除此之外再无其他。为此,我们有必要引入一个新的质量指标--精确度。

2.3 精确度(precision)

精确度是指量化流程模型允许多少事件日志中从未观察到的行为。发现的模型应该概括事件日志中看到的示例行为(避免“过度拟合(overfitting)”)。

图1

根据定义,精确度是拟合度的对立面,可以通过查看事件日志中包含的模型行为的百分比来计算,计算如下:

同样,模型的无限性使得在大多数情况下不能用上述定义计算。在流程挖掘领域,传统的拟合度评估指标方法有基于token重演的,基于ETC等,我们将会在后续章节进行介绍。

同样,只考虑精确度的也会导致偏差,比如对于上述日志L,有个single Model M2如下图所示:

Single Model M2

该模型允许的行为都在事件日志中出现了,因此精确度为1,但该模型的拟合度却十分低下。

以上三个质量的综合可以很好地解释大多数的流程模型,但是上述满足三者质量评估指标得到的模型并不是最好的,比如模型3为枚举模型,该模型一一列举了事件日志L中的所有行为,拟合度和精确度都为1,但此模型只适用于此日志,对于同一业务流程产生的其他日志可能就完全不适用了,换言之,该模型是过拟合的。

Enum Model  M3

为此,我们引入了泛化度。

2.4 泛化度(genertalization)

我们可以看到,花型模型(一切情况皆有可能)和枚举模型(仅日志中的情况是可能的)等极端模型,使得模型存在欠拟合和过拟合的情况,我们需要的是一方面模型应该泛化日志中的例子行为,另一方面,模型不能局限于日志中所见的例子行为(类似枚举模型),需要在过拟合和欠拟合行为之间取得平衡,过拟合问题是指该模型只能允许日志中的例子行为(类似枚举模型),欠拟合是指模型过度泛化了日志中的例子行为(类似花型模型)。

泛化度(generalization)涉及量化流程模型泛化到业务流程中可能发生但事件日志中从未观察到的行为的程度。

在流程挖掘领域,传统的泛化度评估指标方法有基于对齐的,Weighted Negative Event Generalization ,我们将会在后续章节进行介绍。

3.总结

四个质量维度为简单度,拟合度,精确度,泛化度

简单度只与模型有关,而拟合度则是侧重于模型中的行为覆盖事件日志中行为的程度,精确度则是侧重于不允许过多事件日志以外行为出现的程度,泛化度则很好地平衡了模型的欠拟合和过拟合的程度。

四个质量维度相互竞争,通过优化四个质量维度指标,使得流程模型能趋于理想化。

由于模型中存在的循环结构,使得模型中行为是无限的,从而无法直接从定义去计算拟合度,精确度,泛化度,那么围绕这几个质量维度有哪些可用的计算方法被提出呢?

下一讲将针对四个质量维度中的拟合度,我们介绍其相关的方法。

如需进行相关的了解或者交流,欢迎私信或者加入QQ群:

【流程挖掘的四个质量维度】简单度、拟合度、精确度和泛化度介绍相关推荐

  1. 《网络安全工程师笔记》 第十四章:渗透简单测试流程

    注:本笔记来自温晓飞老师的网络安全课程 第十四章:渗透简单测试流程 第一章:虚拟化架构与系统部署 第二章:IP地址详解 第三章:进制转换 第四章:DOS基本命令与批处理 第五章:用户与组管理 第六章: ...

  2. 希望流程挖掘成为撬动企服市场的突破口 | 专访凡得科技CEO海广跃、首席技术顾问刘聪

    2022年,全球流程挖掘市场规模预计将达70多亿人民币,而目前中国流程挖掘行业尚处于市场启蒙期,仅少数大型企业与机构对流程挖掘进行了初步或尝试性的投入.从目前来看,原生流程挖掘厂商会直接面向客户输出流 ...

  3. 一文看懂流程挖掘是如何工作的?

    随着数字化转型的日益深化,越来越多的工作需要通过IT系统来完成.这使得企业的绝大多数工作都被完整地记录下来,并以事件日志的形式存储在各个系统中,成为各大企业宝贵的数字资产之一. 每个事件日志都包含着丰 ...

  4. 科创人·望繁信创始人索强:中国版流程挖掘注定有完全不同的活法

    索强 望繁信创始人兼CEO 毕业于德国汉诺威大学硕士学位,是原UiPath亚太区流程挖掘负责人.ProcessGold的早期成员,全球第一批流程挖掘从业人,曾主导过四大洲十多个国家的多个流程挖掘项目开 ...

  5. 艺赛旗首席科学家、南京大学人工智能学院副院长黎铭教授出席iS-RPM流程挖掘产品发布会演讲分享

    <AI赋能的流程挖掘> 内容回顾 分享嘉宾:黎铭 2022年4月22日,艺赛旗联合RPA中国共同举办的<透视全业务 精进全流程-艺赛旗iS-RPM产品(流程挖掘)产品发布会>在 ...

  6. 从艺赛旗iS-RPM,看国产流程挖掘产品的发展与特性

    从艺赛旗iS-RPM,看国产流程挖掘产品的发展与特性 艺赛旗发布iS-RPM,国产流程挖掘产品有哪些特性与优势? 文/王吉伟 要问2022年业务流程领域哪个技术最火,绝对非流程挖掘莫属. 2019年, ...

  7. 流程挖掘之图算法——望繁信VS Celonis

    在详细说流程图算法之前,我先谈下学术界和商业界几种常见的流程图类型, 1)Petrinets(也叫Petri 网),2) Process Tree(简称PT 流程树),3)BPMN 2.0,4)DFG ...

  8. 数据仓库建模(四):维度表的设计

    数据仓库建模(四):维度表的设计 一.维度表的整体结构 1.1 维度表的结构设计 1.2 维度代理键 1.3 自然键.超久键和超自然键 1.4 下钻与上卷 1.5 维度退化 1.6 非规范化的扁平维度 ...

  9. 自己快速提升SCI论文质量的简单方法:分清研究类型,遵从指南修改

    有什么诀窍吗? 还真有.就是: 根据指南把论文检查一遍. 临床科研常见类型 临床科研有不同的研究类型,并建立有不同的研究规范/指南(guidelines),也就形成了论文的审核表(checklist) ...

最新文章

  1. SSH无需密码密钥登录
  2. 怎样解决xcode里开发cocos2dx改动lua脚本后不刷新的问题
  3. android pod 组件化_使用 Pod 实现私有模块化管理(组件化 Pods 实现方案)
  4. C++成员变量初始化顺序问题
  5. J2CL –迟到总比不到好
  6. CRC16算法之三:CRC16-CCITT-MODBUS算法的java实现
  7. 虚拟局域网(VLAN)的管理
  8. 国嵌视频光盘及源码网盘下载地址-续
  9. 笔记︱风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)
  10. 克隆硬盘后进不去系统_升级系统盘,迁移系统其实很简单
  11. Oracle数据库删除重复的记录
  12. Linux网络编程:状态机
  13. linux桌面壁纸目录,[多图]回顾每一款默认Ubuntu壁纸
  14. 03比对与 bam 文件格式
  15. 汽车销量查询小助手(小程序)开发心路历程
  16. TFN F7 光时域反射仪 给您不一样体验
  17. GPS芯片获取的卫星时间会出现快几秒的原因
  18. Android targetSdkVersion你真的了解吗?
  19. BIM和IoT数据源框架
  20. Linux中ls和ll的区别

热门文章

  1. 进阶 - Git的标签管理
  2. iOS—APP打包上线流程
  3. java 重写函数_JAVA函数的重载和重写
  4. const指针、数组指针、指针数组理解
  5. CCNP课堂练习一:详解交换机vlan的介绍及通过交换机从逻辑上划分区域配置
  6. Linux wifi wpa_sup,wifi详解(四)zz
  7. spring的依赖注入 -------基于注解方式
  8. 如何创建一个Hidl Service?
  9. 与matlab里面 imadjust 函数相同的python代码
  10. [数值计算-3]:误差的种类、误差传播、误差分析