【论文】Believe It or Not, We Know What You Are Looking at! 阅读笔记
【论文】Believe It or Not, We Know What You Are Looking at! 阅读笔记
- 1、Gaze Following
- 2、总的网络图
- 3、Gaze direction pathway
- 4、Heatmap pathway
- 5、模型训练
- 6、多尺度注视场和原始图像融合方法
- 7、实验结果
- 8、特征金字塔网络(FPN)
1、Gaze Following
注视跟踪是在场景中跟踪其他人的注视并推断他们看的是哪里。这对于理解人与人之间以及人与物之间的交互行为至关重要。例如,我们可以根据人在人与人互动中的注视点来推断他们的意图。新的零售场景中,我们可以根据消费者与这些产品的眼神交流来推断他们对这些产品的兴趣,并推断出哪种信息(食物的成分,价格,过期数据等)最吸引消费者的注意力。
尽管注视跟踪至关重要,但由于以下原因,它具有极大的挑战性:第一,实际推断注视点需要场景的深度信息,头部姿势和眼球运动,但很难推断单张图像的深度。此外,由于遮挡,头部的姿势和眼球的运动也不容易估计(如图c)。第二,由不同的第三视角观察者通过单个视角图像估计的注视点存在歧义(如图d)。第三,注视涉及场景中目标人与其他物体之间的几何关系理解以及场景内容的理解,这是一项艰巨的任务。
2、总的网络图
整个网络分为两个阶段(two-stage),注视方向路径(Gaze direction pathway)和热图路径(Heatmap pathway)。
3、Gaze direction pathway
注视方向路径:将头像部分和头像在图像中的位置信息作为输入,通过注释方向路径进行注视方向预测,然后根据注视方向得到多尺度注释方向场。
注视方向路径使用的网络:ResNet-50。具体过程:
1、头像部分图像(Head image,254 X 254)输入到ResNet-50网络中提取出头像图像特征(head feature),通过一个FC层得到512维的特征;H(hx,hy)是原图像标准化为1 X 1时的坐标,通过3层的FC层编码为256维的头部位置特征(head position feature;将 head feature 和 head position feature 连接成 768 维的特征,经过一个FC层得到预测的注视方向,
2、一旦得到预测的注视方向,则注视点很有可能在沿着注视方向上。论文将目标人员的视场(the field of view ,FOV)简化为一个以头部位置为顶点的圆锥体。如下图右图所示:
其中d’是预测的注视方向,H为头部位置。在不考虑场景内容的情况下,给定点图像中任意一点P(px,py)是注视点的概率与θ角成反比,θ越小,则可能性越大,否则就越小。利用余弦函数描述θ到概率的映射(0=<θ<=90o)
则,给顶点P是注视点的可能性为:
Sim(P)=max(<G,d^>∣G∣∣d^∣,0)=max(θ,0)Sim(P)=max(\frac{<G,\hat{d}> }{\left | G \right |\left |\hat{d} \right |},0)=max(θ,0)Sim(P)=max(∣G∣∣d^∣<G,d^>,0)=max(θ,0)
其中,G=((px−hx,py−hy))G=((p_{x}-h_{x},p_{y}-h_{y}))G=((px−hx,py−hy)),当 θ>90o 时,Sim(P)=0Sim(P)=0Sim(P)=0
3、如果预测的凝视方向是准确的,则希望沿着注视方向的概率分布是尖锐的,否则,希望概率是平稳变化的。在实践中,利用具有不同锐利度的多尺度注视方向场进行热图预测。具体来说,使用以下方法来控制注视方向场的锐利度:
γγγ控制FOV圆锥的孔径,本文中,选取γ=5,3,1γ=5,3,1γ=5,3,1,γγγ越大,孔径越小。
4、Heatmap pathway
- 热图路径:将多尺度注视方向场和原始图像融合,作为 Heatmap pathway 的输入,得出热图,对应于热图最大值的点被认为是最终的凝视点。在本文中使用特征金字塔网络(FPN)用于热图路径。热图路径的最后一层是Sigmoid激活函数,可确保每个像素的可能性落入[0,1]。
- Ground Truth:真实注视点的热图是通过将高斯核居中在注视点形成的:
(gx, gy)为真实注视点,H(i, j)为真实注视点的热图,(i, j) 为图像上任意一点,δ\deltaδ为方差,本文设为3。
5、模型训练
- 输入
输入 | SIZE |
---|---|
头部图像(Head image) | 224 X 224 |
头部位置(Head position) | (hx, hy) 原始图像标准化为 1X1 时的坐标 |
原始图像(origin image) | 224 X 224 |
- 输出
输出 | SIZE |
---|---|
注视方向 | (dx^,dy^)(\hat{d_{x}},\hat{d_{y}})(dx^,dy^)头部位置到注视点的归一化向量 |
视觉注意 | 56X56 的热图 |
- Gaze direction loss:
ddd是真实注视方向,d^\hat{d}d^ 是预测的注视方向。
- BCE loss(二元交叉熵损失函数):
其中,N=56 X 56
- 总Loss:
λ\lambdaλ 是权衡lhl_{h}lh和ldl_{d}ld的权重。在实验中将 λ\lambdaλ 设置为0.5。
6、多尺度注视场和原始图像融合方法
在第二阶段,需要将凝视方向场和图像内容信息结合在一起。但是,如何选择融合的位置(早期,中期,晚期融合)和融合方式(乘法或串联)?
1、中间融合(mul):将注视方向字段和图像内容特征图(7×7)融合在一起,并在中间层进行相乘。
2、中间融合(连续):将凝视方向字段和图像内容特征图(7×7)与中间层串联在一起。
3、早期融合(mul):将凝视方向场和图像内容特征图(28×28)与热图路径中编码器的早期层相乘。
4、后期融合(mul):将注视方向场和图像内容特征图(28×28)与热图路径中解码器的最后一层相乘。
5、图像融合(mul):将原始图像直接与注视方向字段相乘。
6、Ours(concat):将原始图像直接与注视方向字段相乘。
结果显示,早期融合通常比中后期融合获得更高的性能,这意味着早期抑制无用场景内容对于注视跟随很重要。此外,发现通常将凝视方向场与图像或特征连接起来,比乘法效果要好一些。
7、实验结果
图(b)中显示了一些故障。示例的前三列显示的预测可以是多峰的。最后三列,可以看到预测的热图是不准确的。论文指出这可能是因为较小的头部或头部遮挡引起的,这使得注视方向和注视点预测非常困难。
8、特征金字塔网络(FPN)
在卷积神经网络中,越深层的feature map,提取的特征越抽象,语义信息越强,分类能力越强。但语义信息越强的同时,feature map 的分辨率越小,很多微小的物体位置信息会丢失,不利于检测微小物体。而低层的 feature map 与之相反,其语义信息弱,但是分辨率高。有三种方法可以解决这个矛盾
(a)图像金字塔,即将图像做成不同的scale,然后不同scale的图像生成对应的不同scale的特征。这种方法的缺点在于增加了时间成本。有些算法会在测试时候采用图像金字塔。
(b)像SPP net,Fast RCNN,Faster RCNN是采用这种方式,即仅采用网络最后一层的特征。
(c)像SSD(Single Shot Detector)采用这种多尺度特征融合的方式,没有上采样过程,即从网络不同层抽取不同尺度的特征做预测,这种方式不会增加额外的计算量。
(d)FPN采用这种方式,顶层特征通过上采样和低层特征做融合,而且每层都是独立预测的。
如图为ResNet-FPN网络图,其主要分为Bottom-up pathway, Top-down pathway and lateral connections。
Bottom-up pathway就是用Resnet下采样的过程。
Top-down pathway and lateral connections过程:C5层先经过1 x 1卷积,改变特征图的通道数(设置d=256,与Faster R-CNN中RPN层的维数相同便于分类与回归)。M5通过上采样,使其尺寸与C4一致,再加上(concat)C4经过1 x 1卷积后的特征图,得到M4。这个过程再做两次,分别得到M3,M2。M层特征图再经过3 x 3卷积(减轻最近邻近插值带来的混叠影响,得到最终的P2,P3,P4,P5层特征。
【论文】Believe It or Not, We Know What You Are Looking at! 阅读笔记相关推荐
- 论文解读《Relevance-CAM: Your Model Already Knows Where to Look》–阅读笔记
本文属于原创,转载请注明出处 *本论文解读的初衷: 1.由于某些原因,最近有关注到神经网络可解释性与可视化方向的发展. 2.本人习惯阅读优秀的博文后直接点赞收藏,而这篇却没有搜到相关解读,不知道是不是 ...
- 压缩图像增强论文Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images阅读笔记
论文来源:ECCV 2020 论文链接:[2006.16581] Early Exit or Not: Resource-Efficient Blind Quality Enhancement for ...
- 低光图像增强论文:Self-supervised Image Enhancement Network: Training with Low Light Images Only阅读笔记
论文地址:https://arxiv.org/abs/2002.11300 项目地址:https://github.com/hitzhangyu/Self-supervised-Image-Enhan ...
- 论文《Learning both Weights and Connections for Efficient Neural Network》阅读笔记
因为对深度压缩中的剪枝不太理解遂读了原文作者更早的这篇详细讲网络剪枝的文章点击打开链接 剪枝的过程为: 1.首先剪枝的前提是对已完成训练的网络 2.进行剪枝 要点:根据一个阈值去裁剪参数 a.阈值 ...
- 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...
- 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
- word2vec原理_word2vec论文阅读笔记
word2vec算是NLP中的经典算法,之前在课程中简单的学过,但面试时经不起深问.痛定思痛,参考Jack(@没搜出来)的总结,笔者重点阅读了Mikolov的原始论文[1]和Xin Rong的详细推导 ...
- DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...
- Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
- FCGF论文阅读笔记
FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...
最新文章
- C++ break语句,continue语句,goto语句
- VUE的本地应用-V- html
- NHibernate部分错误
- python程序设计下载_Python程序设计
- No module named 'pandads'
- BZOJ 4221 [JOI2012春季合宿]Kangaroo (DP)
- linux qt libs,linux下qt使用第三方库的那些事
- 机器学习快速截图工具matlab版本——文件夹批量处理(原创)
- pytorch教程龙曲良31-35
- 启动TOMCAT报错 java.util.zip.ZipException: invalid LOC header (bad signature)
- extundelete 简单使用
- 嵌入式linux驱动开发答辩问题,嵌入式Linux驱动工程师/BSP开发工程师面试笔试题集锦...
- 保存命令行输出信息到log的方法(ubunut下和arm-linux下有效)
- 在 mac 系统下播放.csf 视频的方法
- mysql原生态查询java_java使用原生MySQL实现数据的增删改查
- 监控摄像头服务器中断是什么原因,监控系统常见问题故障及处理方法
- 两个mysql 数据库表结构_MYSQL对比两个数据库表结构
- 结构体的定义以及使用
- 从零编写基于MATLAB的GNSS_SDR程序(GNSS软件接收机)——学习记录(2)
- mysql占用服务器CPU100%的解决办法