动态360°沉浸式视频中的人眼注视点预测

本文出自论文 Gaze Prediction in Dynamic 360° Immersive Videos，基于时空显著性和历史注视点路径线索，提出了一个深度学习框架来进行未来帧的注视点预测。

基于历史浏览路径和VR视频内容，我们将预测观看者在下一段时间内所观看的位置。在图像内容中，那些显著性的目标更容易吸引观看者的注意力，并且显著性与目标的外观和动作信息有关。本文提出在不同的空间尺度上计算显著性映射：以当前注视点为中心的子图像块，与视野域（FoV）对应的子图像，以及全景图像。接着我们将整个显著性映射和相关的图像输入到一个CNN来提取特征，与此同时，我们也使用一个LSTM结构来编码整个历史浏览路径，接着将CNN特征和LSTM特征结合在一起，对当前时间点和未来时间点之间的注视点位移进行预测。

文章目录

一、简介
二、相关工作
三、数据集
四、方法
五、实验
六、结论

一、简介

在传统视频的注视点预测中，用户被动地观看视频，而在360°沉浸式视频中，用户可以主动的旋转头部和身体，来决定所看的内容位置。在动态场景中，对于每一帧，一个参与者所看的位置点取决于它的起始点和运动方向的决定，因此对于显著性检测来说很难标注ground-truth。
在动态360°视频中的注视点预测有利于VR视频数据传输中的压缩过程，一旦我们预测到未来视频帧中的每个参与者的观看区域，我们可以通过为专门观看者制定交互方法，从而来进一步提高人机交互体验。在VR游戏领域，对于不同玩家来有效设计不同难度水平的游戏也是非常重要的。
我们利用一个LSTM模块在固定的视野域下去估计观看者的行为，在以当前注视点为中心的区域内，在当前视野域里的视频内容，和整个360°视频场景下，我们考虑了视频内容在不同空间尺度下的显著性程度。然后我们将图像和它们在不同尺度下的显著性映射输入到一个CNN，接着我们将这个CNN特征和LSTM特征结合在一起，来预测从当前场景到下一个场景中的注视点位移。

二、相关工作

Saliency Detection: 一些工作尝试使用低级别的外观特征和动作线索来作为输入，或者扩展深度学习方法到更加复杂的场景中，例如立体图片或者视频。
Gaze Prediction on Egocentric Videos: 在这种设置下的注视点预测通常基于摄像头设备的转动速度，移动方向和手的位置。

三、数据集

注视点和显著性区域的关系：基于在每一帧中的最高或最低显著性值，我们将这些像素点划分成10bins。基于与帧相关联的注视点所在的bins，我们可以获得所有视频的注视点落在不同bins的频率直方图。我们可以看到注视点通常与显著性点所一致。另外注视点和动作线索也有着一致性。
相邻帧注视点的角度分布：通常两个连续的相邻注视点之间的位移是很小的，换句话说，下一个帧的注视点落在当前注视点的领域内。

四、方法

未来帧注视点影响因素：一方面，注视点很大部分和来自图像内容大的空间显著性有所关系，时间显著性可以从相邻帧之间的光流中推断出来；另一方面，用户的历史注视路径对于预测其未来注视点也很关键，因为不同用户在观看一个场景时有着不同的习惯。注视点预测和其历史注视点路径之间的关系也激励了我们去连续预测每个未来帧的注视点。
我们将注视预测作为一个学习非线性映射函数F的任务，将历史注视路径和所关联的图像内容相映射。我们将注视点追踪的目标定义如下： F ∗ = arg ⁡ min ⁡ F ∑ t = o b s o b s + T − 1 ∣ ∣ l t + 1 − ( l t + F ( V t : t + 1 , L 1 : t ) ) ∣ ∣ 2 F^*=\mathop{\arg\min}_{F}\sum_{t=obs}^{obs+T-1}||l_{t+1}-(l_t+F(V_{t:t+1},L_{1:t}))||^2 F∗=argminF∑t=obsobs+T−1∣∣lt+1−(lt+F(Vt:t+1,L1:t))∣∣2.

其中 o b s obs obs是所观察帧的数量，这里我们仅考虑了当预测下一帧的注视点时，将当前帧和下一帧以及历史注视路径作为输入。两个相邻帧描述了动作信息，下一帧提供了显著性特征的内容。然后我们使用一个深度神经网络来对 F F F进行建模。该网络由一个轨迹编码模块，一个显著性编码模块和一个位移预测模块所组成。
轨迹编码模块：其被用来编码用户的历史注视路径，历史帧的注视路径提供了未来帧注视点预测信息。我们使用一个LSTM网络来沿着时间维度对注视点样式进行编码，对于每一个视频切片，我们按顺序将与历史帧所关联的注视点输入到一个stacked LSTM，然后在t+1帧的输出表示为： f t + 1 p = h ( l 1 p , l 2 p , . . . , l t p ) f_{t+1}^p=h(l_1^p,l_2^p,...,l_t^p) ft+1p=h(l1p,l2p,...,ltp)。
显著性编码模块：显著性提供了未来帧注视预测的重要线索，我们提出了一个多尺度方案来计算显著性，分别为local saliency，FOV saliency 和 Global saliency。
位移预测模块：将显著性编码模块和轨迹编码模块的输出作为输入，使用两个全连接层来预估两个相邻帧注视点之间的位移，表示为： δ l t + 1 p = r ( [ f t + 1 p ; g t + 1 p ] ) \delta l_{t+1}^p=r([f_{t+1}^p;g_{t+1}^p]) δlt+1p=r([ft+1p;gt+1p]). 其中 r ( . ) r(.) r(.)表示两个连接层。一旦获得位移，我们可以计算 t + 1 t+1 t+1的注视点： l t + 1 p = l t p + δ l t + 1 p l_{t+1}^p=l_t^p+{\delta}l_{t+1}^p lt+1p=ltp+δlt+1p, 通过最小化训练集中所有人和视频切边的损失函数，来训练此模型。

五、实验

实验设置：相邻帧之间的时间为0.2s，使用前五个帧的历史注视路径来预测下五个帧的注视点，即前1s预测下1s的注视点。我们使用预测注视点和真实值之间的观察角度来衡量注视点预测的性能，用所有用户和视频的平均交叉角度误差（MIAE）来衡量整体性能，表示为： M I A E = 1 T P ∑ i , p d i MIAE=\frac{1}{TP}\sum_{i,p}d_i MIAE=TP1∑i,pdi, 这里 P P P为用户观看此视频的总量， d i d_i di为误差。
实验对比：我们分别验证了多个模块结合的必需性，时间显著度的必需性，显著性编码器中有无RGB图像和显著性映射的必需性，以及多尺度输入的必需性。
坐标回归和位移回归：基于位移和基于注视点预测坐标的MAE分别为20.96和30.72，位移回归策略的良好性能展示了残差分析的有效性。

六、结论

我们的工作重在理解用户如何体验一个动态360°的沉浸式视频，展示了时空显著性，历史注视路径来作为注视预测的重要性。然后我们提出了一个基于深度学习框架的注视预测模型，通过实验证明了其有效性。对于未来工作，有着两个重要的因素需要进行考虑，一个是长时间的动作线索有利于提高性能，另一个是声音信息，这是一个很好的发展方向。

动态360°沉浸式视频中的人眼注视点预测相关推荐

与金山云的樊博士聊了聊AV1算法优化以及如何提升沉浸式视频的沉浸感
讲师介绍樊鸿飞,金山云高级研发总监,北京大学计算机科学与技术专业博士,负责视频云的VR.视频编码.人工智能等技术线研发,近年来主要从事沉浸式视频.视频编码.图像处理.计算机视觉方向上的研究与技术落地 ...
沉浸式视频技术应用与挑战
正文字数:4766 阅读时长:7分钟随着5G时代的到来,低延时.超高清视频将成为未来几年内视频发展的主流趋势之一,沉浸式视频或将迎来其爆发期.金山云 CDN及视频云产品中心高级技术总监蔡媛在线上 ...
“云”溪笔谈 | 走完过渡期“沉浸式视频云”时代来临
先科普一个"冷知识":2018年8月,在线视频领域用户使用时长首次超越社交领域,成为全网第一大领域. 全球CDN的使用情况同样佐证了这一点:2017年开始,视频云流量市场始终保持7 ...
Ae 效果快速参考：沉浸式视频
沉浸式视频 Immersive Video 本组效果主要用来无缝编辑 VR/360 视频.需要在首选项中开启 GPU 加速. VR 球面到平面 VR Sphere to Plane 可将单像或立体素材 ...
Pr：VR 沉浸式视频
什么是VR视频 Adobe Premiere Pro称全景视频和VR视频为VR沉浸式视频(Immersive Video). 以下说明来自于百度百科(稍有修改) https://baike.baidu ...
AE效果：沉浸式视频
沉浸式视频效果的 GPU 要求确保将视频渲染首选项设置为 GPU.AE菜单:文件/项目设置/视频渲染和效果/使用/Mercury GPU 加速 VR 球面到平面使用本效果可将单像或立体素材转换为平 ...
如何实现沉浸式视频体验？
沉浸式视频体验上周产品小哥哥丢过来一个需求,名曰:沉浸式视频体验,大致内容是一个页面里有几十个视频,用户点击其中一个视频时,该视频自动滑动到屏幕可视区域的顶部开始播放,并暂停其他视频,该视频滑出屏幕 ...
金山云瞄准沉浸式视频云，是远见还是豪赌?
金山云瞄准沉浸式视频云,是远见还是豪赌? 云计算的未来会走向哪里? 这个问题的答案,可能要从每一个独立个体的发展中去寻找. 从国内云计算市场上这几个主要玩家来看:阿里云正在通过云钉一体.云端一体,为新 ...
【线上分享】沉浸式视频传输
随着5G时代的到来,超高清.低延迟视频必将成为未来几年内的视频发展趋势之一,而沉浸式视频业务也将迎来其爆发期. 1月21日 19:30,我们邀请到了金山云 CDN及视频云产品中心高级技术总监蔡媛 ...