#ICML#

今天分享的是ICML 2020的一篇论文《Self-Attentive Hawkes Process》

原文链接:http://proceedings.mlr.press/v119/zhang20q.html?ref=https://githubhelp.com

摘要

捕捉事件发生的动态对于预测下一个事件发生的类型和时间至关重要,解决该问题一种常用的方法是通过霍克斯过程。由于RNN在处理顺序数据,例如语言方面取得了成功,因此目前已经将RNN引入了霍克斯过程。而近几年发现Self-Attention比RNN处理语言的效果更好,所以本研究旨在通过设计一种Self-Attention的霍克斯过程(SAHP)探索自注意力在霍克斯过程中的有效性。

SAHP采用Self-Attention来总结历史事件的影响并计算下一事件的概率。当应用于事件序列时,传统Self-Attention的一个缺陷是其位置编码只考虑序列的顺序,而忽略了事件之间的时间间隔,为了克服这一缺陷,作者通过将时间间隔转换为正弦函数相移的方式,修改了编码。实验表明,SAHP的效果相比于其他模型有所提升,同时,SAHP比基于RNN的模型更易于解释,因为学习到的注意力权重揭示了一种事件类型对另一种类型发生所产生的贡献。

1.介绍

本文的研究目标是根据历史预测下一个事件的类型和发生时间。如下图显示了四种类型的事件和它们的相互影响。这些序列的一个典型的建模问题是预测哪种类型的事件以及事件何时发生。

a图显示的是社交媒体平台上的三个用户的不同类型的行动,填充的形状定义了行动类型,红色箭头表示一个行动对其他行动的影响。b图中单元格(i,j)(i, j)(i,j)的符号对应a图事件类型之间的影响。

2.贡献

① 据作者所知,文章这项工作是第一个将自注意力与霍克斯过程联系起来的。SAHP继承了捕捉复杂动态的改进能力和更高的可解释性。

② 为了考虑事件间的时间间隔,作者提出了一种新颖的时移位置编码,将时间间隔转换为正弦函数的相移。

③ 通过在具有不同序列长度和不同事件类型数量的数据集上的广泛实验,作者证明了SAHP的优越性。

3.算法框架


上图为一个事件流和一个事件类型的SAHP架构。整体流程为:先表示出来事件类型的embeddingembeddingembedding和位置编码,形成事件的向量。之后通过注意力机制中的多头注意力、残差连接和归一化、前馈全连接网络形成新的向量。最后经过非线性变换和动态衰减形成强度函数。

3.1 事件类型embeddingembeddingembedding

输入序列是由事件组成的。为了获得每个事件类型的嵌入,使用了一个线性嵌入层。

tpv=evWE(1)tp_v=e_vW_E\ (1)tpv=evWE(1)

公式1的含义是:类型vvvembeddingembeddingembedding=类型vvv的独热编码∗嵌入矩阵

3.2 时移的位置编码

上图显示了传统的和新的位置编码如何工作。假设一个事件(vi,ti)(v_i,t_i)(vi,ti)在一个序列的i=14i=14i=14位置。传统方法将i=14i=14i=14位置的正弦函数值计算为该事件的位置值,文章的编码修改了这一点,将原来的位置iii移到一个新的位置上:ik′=i+wktiωk{i^{'}_k}=i+\frac{w_kt_i}{\omega_k}ik=i+ωkwkti。其中kkk表示嵌入维度。 ωk\omega_kωk是第kkk个维度的角度频率,wkw_kwk是一个缩放参数,将时间戳tit_iti转换为第kkk维的相移。因此,一个序列中的位置被时间tit_iti转移了。

pe(vi,ti)k=sin(ωk×i+wk×ti)(2)pe^k_{(v_i,t_i)}=sin(\omega_k×i+w_k×t_i)\ (2)pe(vi,ti)k=sin(ωk×i+wk×ti)(2)

形成的位置编码如公式2所示。

3.3 历史隐藏向量

由于一个事件由其类型和时间戳组成,作者将位置编码添加到事件类型嵌入中,以获得事件的表示。

xi=tpv+pek(3)x_i=tp_v+pe^k\ (3)xi=tpv+pek(3)

公式3的含义是:事件iii的表示xxx=事件类型embeddingembeddingembedding+时移的位置编码

3.4 自注意力

获得隐藏向量后,再通过自注意力的方式,计算前一个事件对下一个事件的影响。在此处产生了一个新的向量hu,i+1h_{u,i+1}hu,i+1,总结了以前所有事件的影响。该模块中,在训练期间,需要将时间信息提供给模型,此处通过masking来防止模型获得未来的信息,即通过屏蔽输入序列中与未来事件相对应的值,保证了一个事件的强度仅根据其历史获得。该模块主要包含多头注意力、残差连接和归一化、前馈全连接网络三个部分。

3.5 强度函数

最后通过以下三种非线性变换,基于历史隐向量hu,i+1h_{u,i+1}hu,i+1计算强度函数的三个参数。

μu,i+1=gelu(hu,i+1Wμ),\mu_{u,i+1}=gelu(h_{u,i+1}W_\mu) ,μu,i+1=gelu(hu,i+1Wμ)
ηu,i+1=gelu(hu,i+1Wη),\eta_{u,i+1}=gelu(h_{u,i+1}W_\eta) ,ηu,i+1=gelu(hu,i+1Wη)
γu,i+1=softplus(hu,i+1Wγ).(4)\gamma_{u,i+1}=softplus(h_{u,i+1}W_\gamma) .\ (4)γu,i+1=softplus(hu,i+1Wγ).(4)

公式4主要用到了两个函数,其中,函数gelugelugelu代表非线性激活的高斯误差线性单元,函数softplussoftplussoftplus被用来约束强度函数为正值。

λu(t)=softplus(μu,i+1+(ηu,i+1−μu,i+1)exp(−γu,i+1(t−ti)))(5)\lambda_u(t)=softplus(\mu_{u,i+1}+(\eta_{u,i+1}-\mu_{u,i+1})exp(-\gamma_{u,i+1}(t-t_i)))\ (5)λu(t)=softplus(μu,i+1+(ηu,i+1μu,i+1)exp(γu,i+1(tti)))(5)

公式5是强度函数的定义,这样,t=tit=t_it=ti时会有一个起始强度,当ttttit_iti开始增加时,强度以指数形式衰减,并且可以同时捕捉到兴奋和抑制效应。此处的抑制效应指的是当过去的事件降低了未来事件发生的可能性时表现出来的效果。

4.实验

Baselines

  • Hawkes Processes (HP):这是最传统的霍克斯过程统计模型
  • Recurrent Marked Temporal Point Processes (RMTPP):使用RNN来学习过去事件的影响表示,时间间隔被编码为明确的输入【2016】
  • Continuous Time LSTM (CTLSTM):使用连续时间LSTM,不需要将事件间隔编码为LSTM的数字输入【2017】
  • Fully Neural Network (FullyNN):用前馈神经网络对累积强度函数进行建模【2019】
  • Log Normal Mixture (LogNormMix):通过对数正态混合模型对条件概率密度分布进行建模【2020】

评估指标

  • negative log-likelihood (NLL):负对数似然——比较对事件序列建模的能力(NLL 越低,模型对特定事件序列建模的能力就越强)
  • 均方根误差 (RMSE)
  • Computational efficiency(计算效率):运行时间
  • Model interpretability(模型可解释性):第 u 行第 v 列的单元格表示类型 u 分配给类型 v 的统计注意力。

实验结果

① 负对数似然(NLL)

②均方根误差(RMSE)

③ 计算效率

在计算效率的对比中,LogNormMix模型时间最短,SAHP模型处于第二的位置。

④ 模型可解释性

5.总结

在本文中,作者提出了一种自注意力的霍克斯过程,其中自注意力被调整以增强强度函数的表达能力。该方法增强了模型预测能力和模型可解释性。

Self-Attentive Hawkes Process相关推荐

  1. 因果推理之霍克斯过程 Hawkes process

    因果推理之霍克斯过程 Hawkes process | 梦家博客背景 在统计学和概率论中,点过程 (Point process) 或点场 (Point field) 是随机位于数学空间(如实线或欧氏空 ...

  2. Tutorial: The Hawkes Processes

    Tutorial: The Hawkes Processes 文章目录 Tutorial: The Hawkes Processes 前言 1.Background 2.Temporal Point ...

  3. AAAI2020录用论文汇总(三)

    本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家.    AAAI2020论文汇总(part 3) [401] Justific ...

  4. 【AAAI 2021】全部接受论文列表(五)

    来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2021-01-14 马上春节了,疫情又卷土而来,希望大家注意防护,爱护自己的身体 AAAI ...

  5. ACM SIGIR 2022 | 美团技术团队精选论文解读

    今年,美团技术团队有多篇论文被ACM SIGIR 2022收录,这些论文涵盖了观点标签生成.跨域情感分类.对话摘要领域迁移.跨域检索.点击率预估.对话主题分割等多个技术领域.本文精选了10篇论文做简要 ...

  6. 【时序】应用于时间序列的 Transformer 综述论文笔记

    论文名称:Transformers in Time Series: A Survey 论文下载:https://arxiv.org/abs/2202.07125 论文源码:https://github ...

  7. 直播实录 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

    本文为 12 月 20 日,约翰霍普金斯大学 CLSP 实验室博士生--梅洪源博士在第 20 期 PhD Talk 中的直播分享实录. 本期 PhD Talk,来自约翰霍普金斯大学 CLSP 实验室的 ...

  8. 随机过程及其稳态stability

    1. 为什么要研究随机过程? 人类认识世界的历史,就是一认识和描绘各种运动的历史,从宏观的天体运动到分子的运动,到人心理的运动-我们通称为变化,就是一个东西随时间的改变. 人们最成功的描绘运动的模型是 ...

  9. 2020年7月4日 随机过程大作业

    现在我知道了神经元模型主要是两种: 一个是Hodgkin–Huxley model ,特点是逼真,但计算量较大 另外一个是leaky integrate-and-fire model ,特点是计算量小 ...

最新文章

  1. 8.0 C++远征:对象数组
  2. Select下拉列表框(添加、删除option)
  3. 工厂模式 — 在项目中的用法
  4. devc中文注释显示问号_Python零基础入门-(如何让人读懂你的代码)文档注释
  5. ZOJ 3817Chinese Knot(The 2014 ACM-ICPC Asia Mudanjiang Regional First Round)
  6. OpenCV blur和boxFilter (方框型滤波器)
  7. DOM判断节点类型分分钟搞定
  8. ERP软件的相关运营问题
  9. 身份证号校验、身份证照片解析(百度API)
  10. 原来找展会会刊(参展商名录)这么简单
  11. 不同tric 改进的理由
  12. 在Centos7上安装vpnc客户端
  13. WRKY转录因子通过促进GhMKK2介导的类黄酮生物合成调节棉花对尖孢镰刀菌的抗性
  14. 橡皮鸭程序调试法[转] 相当有趣^_^
  15. 简约开源导航书签管理系统PHP源码
  16. 5.2.2、方法重写与隐藏
  17. 大数据项目之电商数仓、数据仓库概念、项目需求及架构设计
  18. 在Simulink中利用simmechanics对三自由度的串联机械臂进行仿真
  19. 无线智能通信配电台区智能化应用
  20. 2022年ICP许可证申办流程一览

热门文章

  1. Caffe2 - Detectron 代码环境构建尝试
  2. Java视频教程全集
  3. 什么是协调能力?如何提高协调能力?
  4. 加入飞鸽传书,提高交际能力!
  5. 类脑传感器:动态视觉相机(Dynamic Vision Sensor)和动态音频传感器(Dynamic Audio Sensor)
  6. 那个曾经黑掉iPhone和PS3的少年,要把你的车破解成无人车
  7. 图扑推出可视化智慧仓储管理系统,能否解决购物狂欢节爆仓危机?
  8. 【cocosStdio系列】之UI控件下
  9. 黑莓开发人员必读资料 - BlackBerry - 开发指南- 手册和指南
  10. 苹果手机自带左划关闭功能使用方法