Abstract

远程光电容积脉搏波描记法（rPPG）信号的采集在多种应用中具有重要意义。最近，基于深度学习的方法，如3D卷积网络（3dcnn）已经优于传统的手工制作方法。然而，尽管它们具有强大的建模能力，但众所周知，大型3DCNN模型具有较高的计算成本，可能不适合实时应用。在本文中，我们提出了一个对3DCNN架构的研究，找到了心率测量精度和推断时间之间的最佳折衷方案。通过在regular Pearson相关函数中加入信噪比分量signal-to-noise-ratio，引入一种新的基于时间和频率的损失函数来提高精度，通过减小输入大小来提高推理速度。此外，将输入的颜色空间从RGB更改为YUV也提高了心率测量的精度。使用VIPL-HR数据库，我们保持了HR MAE为3.99 bpm，与SOTA的3.87 bpm相当，而GPU和CPU推理过程提高了约88%，GPU从51.77 ms提高到2.32 ms，CPU从241.57 ms提高到28.65ms。我们的网络叫做Real-Time（RTrPPG）。

Introdution

心率（HR）和脉搏率变异性（PRV）是两个可以分析心脏行为的生理参数。心率监测可采用invasive和non-invasive的方法进行，分为接触方法和非接触方法。两种常用的用于测量HR和PRV的非侵入性技术是心电图（ECG）和光电容积脉搏波描记法（PPG）。心电图测量由心脏活动引起的电场。另一方面，PPG测量组织中光吸收的变化，由于心血管系统的脉动性和血容量的变化。PPG和心电图进行基于接触的心率测量，它们可能会导致卫生问题、不适，甚至在脆弱的皮肤上无法实现。由于这些可能的缺陷，在之前的研究中，Verkruysse等人证明了PPG信号可以从标准摄像机中远程测量，使用环境光作为照明源。这种技术，被称为远程光电脉搏波描记法，提供了以一种完全远程的方式测量与PPG相同的参数的优势。事实上，rPPG是一种非接触式的PPG模式，使用相机作为感受器，使用环境光作为光源。因此，血容量的变化是根据细微的皮肤颜色的变化来估计的，当光线被皮肤反射时，相机就会捕捉到这些变化。
PPG和rPPG信号允许测量一些生物医学参数，如心率、脉搏率变异性、血管闭塞、外周血管舒缩活动、脉搏传输时间的血压和呼吸频率。因此，也有多种应用，包括血压预测、mixed reality、汽车司机生理测量、活体皮肤分割、面部抗欺骗、新生儿生命体征控制。与Verkruysse等人一样，早期的方法使用绿色通道来估计rPPG信号。然后，提出了基于光组织相互作用模型来确定投影向量的方法，如PbV、POS和Chrom，以及其他基于盲源分离技术的方法，如PCA、ICA、EVM、PVM、WVM。最近，深度学习模型已经开始用于对视频序列的生理测量。这些方法的主要优点是，它们可以实现良好的结果，而不需要设计者分析问题in-depth。基于手工制作的pipeline需要检测帧中的ROI，结合颜色通道，过滤它们并且估计如呼吸率和心率之类的生理参数。另外，在基于深度学习的度量中，不再需要一个基于pipeline的框架。因此，基于深度学习的方法不太容易在pipeline中发生错误传播。然而，最近的工作主要集中在心率测量性能上，而不是理解。
消融研究是有帮助的，因为它们提供了对不同架构和正则化组件对机器学习和深度学习性能[25,36]的相对贡献的见解。例如，在一份研究中，作者提出了一系列的实验来评估帧率的重要性。时域和频域的评估表明，由于时空核所覆盖的时间长度的增加，降低帧率可能会导致更好的网络性能。在一段研究中，在二维神经网络（2DCNNs）中研究了空间背景的重要性。结果表明，不同的分辨率会导致网络性能的微小波动。然而，这一结论在三维卷积网络中是否有效尚不清楚。一些作者建议使用红、绿、蓝（RGB）以外的通道。我们可以找到rPPG方法，其中作者使用颜色通道，如Lab，Luv，或YCbCr。有趣的是，在基于深度学习的rPPG测量中，YUV颜色空间显示出了良好的结果。
2DCNNs在测量rPPG信号时具有重要意义。它们已被用于测量rPPG、HR、BR和PRV。然而，有必要执行一个考虑到时间上下文的额外的过程，从而增加计算时间，使其更难以端到端方式实现。因此，基于2DCNN的rPPG测量方法可能不适用于实时环境。请注意，实时功能通常指的是模型的运行速度比网络摄像头快30帧/秒（33.3 ms）。
另外，三维卷积神经网络（3DCNN）也可以同时分析视频的空间和时间特征。因此，对于端到端应用程序，使用3DCNN可能比使用2DCNN更方便。例如，最具标志性的3DCNN之一可能是PhysNet，因为它已经在其他研究中被广泛引用。作者使用2DCNN+LSTM和3DCNN对时空网络进行了性能比较。3DCNN优于2DCNN和递归网络的组合。利用这种方法，可以直接从视频中获取rPPG信号。下图描述了基于二维和3Dcnn的通用rPPG框架之间的差异。

近年来，基于3个dcnn的方法测量rPPG信号和HR已经取得了很好的结果。在这篇文章中，我们建立在先前提出的架构的基础上，同时专注于为real-time applications优化推理速度。通过消融实验，可以系统地接近优化推理时间，其中评估各种网络组件，如输入图像的大小和颜色空间，以及损失函数。据我们所知，这是第一次在rPPG任务中在3DCNN上进行消融研究，以优化网络响应时间、信号质量和心率测量精度。

本文的主要贡献包括进行消融实验、损失函数和颜色空间：

提出一种新的3DCNN RTrPPG。它能从实时视频中获得的rPPG信号。GPU上的推理时间约为2.32 ms，CPU上为28.65 ms。
一种新的 temporal-frequency-based loss function损失函数，允许3DCNN学习rPPG信号采集任务的基本特征。我们的损失优于baseline的temporal-based loss函数。

Related Work

如前所述，2D和3Dcnn已被用于rPPG测量和HR采集，例如在某篇研究中，提出了HR-CNN网络。这个2DCNN带有Extractor和HR Estimator 模块。首先，获取一个视频来检测和resize人脸的大小，然后，裁剪后的视频通过Extractor来获取其rPPG component。最后，rPPG是HR估计器的输入，它的HR是输出。然而，该模型不包括时间推理。
其他基于2DCNN的框架在使用2DCNN之前，对输入图像提出了一个额外的过程来考虑时间上下文，比如DeepPhys和EVM-CNN的情况。DeepPhys是一个由Motion module和Appearance module组成的双分支模型。由于2DCNN缺乏处理时间线索的能力，作者提出将两个连续帧的差异进行归一化，作为Motion module的输入。Appearance Module则是作为一个注意力模块。同时使用这两个分支机构，使得PPG信号和BR信号的获取容易很多。在EVM-CNN中，作者在将视频作为输入，并在输入视频的每一帧上detect subject的脸。对人脸区域进行空间分解和时间滤波处理，生成特征图像。该特征图像是EVM-CNN网络的输入，然后网络输出HR值。
为了在考虑时间上下文的同时使用2DCNN，也可以在框架的末端使用一个递归神经网络recurrent neural network。例如，某个工作使用了一个由两部分组成的网络。第一部分使用2D convolutional layers进行空间分析，第二部分包含一系列堆叠的long-short-term-memory（LSTM）层。所得到的LSTM块允许进行时间分析。因此该框架可以从视频中获取HR。
最后，也可以将一个时空图像与2DCNN和RNN结合起来，如RhythmNet，模型可以通过3个main parts测量视频中的HR。第一部分检测面部landmarks来找到面部，并将其分成25个感兴趣的区域（ROI）。然后，计算每个ROI中每个颜色通道的平均值。最后，从每个ROI中生成一个序列。对所有视频帧重复相同的过程，从而得到一个spatio-temporal map。第二部分是2DCNN，第三部分是RNN。
有趣的是，3DCNN也被用于获取rPPG信号和HR。在某项研究中，提出了一种利用三维卷积法测量脉冲率的先导模型。CNN可以从输入的视频帧中提取空间和时间特征。并且作者展示了在合成视频上训练网络的潜力。
在某项研究中，作者使用了两个3DCNN。第一个CNN是一个时空视频增强网络（STVEN），第二个被称为rPPGNet。STVEN负责提高输入视频的分辨率，这对于高度压缩的视频特别有用。rPPGNet由一个基于皮肤的注意模块（帮助自适应地选择皮肤区域），一个学习更好地表示rPPG信号特征的partition constraint模块，和一个时空CNN组成。输入是在每一帧的resized face，输出是一个rPPG信号，可以用于测量HR和PRV。
目前Gideon和Stent提出了一种方法，可以从一个人的面部视频中获得了他的心脏活动。他们使用基于3DCNN的PhysNet架构的修改版本来学习输入视频的时空特征。有趣的是，这是第一个允许以自监督的方式获取rPPG信号的方法。此外，他们还提出了一个显著性采样器来获得一个可解释的输出，以确保系统的正确行为。

Methodology

在这项工作中，我们使用一个基于3DCNN的encoder-decoder神经网络作为baseline。我们进行了消融实验，以提高推理速度同时保持准确性。我们调整了图像的大小和颜色空间，并引入了一种新的temporal-frequency-based loss function损失函数。

Spatio-temporal network

模型的输入是一些连3维颜色空间的图像序列([i1，i2，…，iT])，我们只使用和面部皮肤相关的信息，我们使用神经网络来extract每一帧里subject的face。然后使用图像resize步骤来将每张图片的大小设置为b*b的正方形。

我们采用3DCNN-Encoder-Decoder（3DED）作为baseline来找到和rPPG。
网络被分成了2个部分，一个部分

Time-frequency based loss function

Ablation Study

在本节中，我们提出了几个实验，以获得real-time、signal quality和heart rate measurement precision之间的最佳折衷。

Metrics

TMC是ECG/PPG信号质量评估系数。该度量是通过检测信号峰值和全长信号拍间隔的中位数来实现的。

提取脉冲，分别以它们各自的峰值为中心，窗口宽度等于拍对拍间隔的中值。
用template所有脉冲的平均值。
TMC系数为所有脉冲的平均相关系数比 template。TMC = 0表示信号的脉冲形状不均匀，而TMC = 1表示信号的完全均匀。

选择的merics有MAE，TMC，SNR以及r（pearson相关系数），MAE越小越好，剩下的越大越好。

Implementaion details

激活函数：Encoder用的ReLU；decoder用的ELU
优化器：Adam
学习率：NP为0.0001；NPSNR为0.00044
batch_size：8
epoch：15

生词	意思
acquisition	n.获得
pulse rate variability（PRV）	脉率变异性（不规律性）
heart rate variability（HRV）	心跳变异性（不规律性）
pulsatile	adj.脉动的
cardiovascular	adj.心血管的
ambient	adj.周围的，包围着的
vascular	adj.血管的
occlusion	n.阻塞
vascular occlusion	血管阻塞
peripheral	adj.次要的，周围的
vasomotor	adj.血管收缩的
iconic	adj.出名的
pilot	adj.先导的
saliency	n.显著，卓越
interpolation	插值法
feed-forward	前馈
coefficient	n.系数
decibel	n.分贝
median	n.中位数
infrared	adj.红外的
anomaly	n.异常，不规则
morphology	n.形态学
exponential	adj.指数的；n.指数
protocol	n.协议
Fourier transform	傅里叶变换

RTrPPG: An Ultra Light 3DCNN for Real-Time Remote Photoplethysmography相关推荐

Ultra Light Waterproof Jacket 2014 Warm down Coats Cheap
Regardless, thе arroyo covering is beautiful and will endure a continued time. Most of thе time, Ult ...
Mifare Ultra Light 非接触式IC卡发卡总结
概述: 1. 容量512bit,分为16个page,每个page占4byte 2. 每个page可以通过编程的方式锁定为只读功能 3. 384位(从page4往后)用户读写区域 4. 唯一7字 ...
Mifare Ultra Light 非接触式IC卡
概述: 1. 容量512bit,分为16个page,每个page占4byte 2. 每个page可以通过编程的方式锁定为只读功能 3. 384位(从page4往后)用户读写区域 4. 唯一7字 ...
Ultra Light Support
If you have any questions, please leave a message or send me an email. Email:vigorzhang@163.com Than ...
Regular、Normal、Medium、Light 对应的font-weight值
开发中设计师所出的设计图描述字重的地方往往是这样的: 如上2图描述字重的地方用的是Regular,知道这对应的font-weight值是多少吗? 字体粗细:'font-weight'属性名称: fo ...
html 字体思源_css设置文字思源雅黑，分为medium, regular, light
html引入思源黑体通过Link标签在网页头部引用Google Web Font: 字体:Noto Sans SC 大小:100, 300, 400, 500, 700, 900 在需要使用思源黑体 ...
ICRA2021 SLAM方向论文汇总
ICRA 2021会议也已经开完了, 所以对原来总结SLAM方向相关的文章进行了重新整理和补全,由于总结比较广泛,大约有200多篇,本文对论文进行了分类,并给出了下载地址和开源代码地址,希望对一起做S ...
mac微软雅黑字体_【字体字重】常见设计稿字体对应字重
总结如下: Font-weight就是字形的重量,就是粗不粗.在和程序员对接设计的过程中,发现前端大佬很多该加粗的地方都没有加粗,由此顺藤摸瓜,发现前端大佬们在看标注时,都不知道Pingfang的me ...
ICRA 2021自动驾驶相关论文汇总 | 科研党看过来，全文干货
本文来源:知乎作者:wanghy,编辑:智车科技 / 导读 / ICRA(International Conference on Robotics and Automation)是IEEE机器人与自动 ...

RTrPPG: An Ultra Light 3DCNN for Real-Time Remote Photoplethysmography

目录