超2000万图片，全球最大人眼图像数据集开源了

本文转自机器之心。

作者：杜伟

涵盖 2D 和 3D 特征点、语义分割、3D 眼球注释以及注视向量和眼动类型等因素，德国图宾根大学的研究者创建了全球最大的人眼图像公开数据集——TEyeD。

在当今世界，基于图像的眼动追踪（eye tracking）变得越来越重要，这是因为人眼运动有可能变革我们与周围计算机系统交互的方式。此外，眼动的方式可以识别甚至在某种程度上预测我们的行动和意图，所以眼动分析可以赋能新的应用，特别是与 VR 或 AR 等现代显示技术结合时。例如，人眼注视（gaze）信号连同人机交互的可能性，使得残疾人能够借助专门为其疾症设计的特殊设备来与环境进行交互。在手术显微镜的应用场景中，外科医生必须进行多种控制行为，这时视觉信号可以用于自动对焦。人眼注视行为还可用于诊断精神分裂症、自闭症、阿尔茨海默症、青光眼等多种疾病。在 VR 或 AR 游戏中，人眼注视信号可用于减少渲染资源的计算。

除了人眼注视信息以外，对人眼的观察还可以带来更多信息源。例如人眼闭合的频率可用于衡量人的疲劳程度，这是汽车驾驶和航空飞行场景中的一种有效安全特征。另一个重要的信息源是瞳孔大小，它可以作为估计指定任务中人们认知负荷的基础，然后调整内容（如基于媒介的学习）以更好地适应人的精神状态。最后，借助虹膜特征以及个人的人眼注视行为，人眼相关的信息可以在生物识别过程中得到应用。

近日，来自德国图宾根大学的研究者创建了世界上最大的、统一人眼图像公开数据集 TEyeD，这些图像均通过头戴式设备拍摄获取。具体而言，TEyeD 的创建过程中使用了七种不同的头戴式眼动追踪器，其中两个还结合了 VR 或 AR 设备。TEyeD 中的图像在不同的任务场景中获得，包括乘车、模拟飞行、户外体育运动以及日常室内活动。

此外，数据集中的人眼图像包括 2D 和 3D 特征点、语义分割、3D 眼球注释以及注视向量（gaze vector, GV）和眼动类型。对瞳孔、虹膜和眼睑均提供了特征点和语义分割，视频长度从几分钟到几小时不等。TEyeD 数据集拥有 2000 多万张精心注释的人眼图像，为推动现代 VR 和 AR 应用中计算机视觉、眼动追踪和注视估计领域的研究提供了独特且一致的资源和良好的基础。

论文地址：https://arxiv.org/pdf/2102.02115.pdf

数据与代码地址：http://link.52cv.net/XPh

与现有数据集的对比

下表 1 列出了包含人眼特写图像的现有数据集。每个数据集处理特定的问题，例如 Casia 和 Ubiris 数据集借助虹膜识别个人。在 NNVEC 中，对光学向量和眼球位置的直接估计可以补偿头戴式眼动追踪器的位移。

TEyeD 通过使用 7 种分辨率不同的眼动追踪器结合并扩展了以前发布的数据集，合并了现有数据集提供的所有可用注释，并通过 3D 分割和特征点扩展了这些数据集。更具体地说，TEyeD 集成的数据集包括 NNGaze、LPW、GIW、ElSe、ExCuSe 和 PNET。此外，来自研究 [69] 的完整数据也得到了精心注释。

TEyeD 一共包含 2000 多万张图像，是全球最大、利用头戴式眼动追踪器拍摄的图像数据集。

数据集详情

下图 1 展示了 TEyeD 数据集中的示例图像。具体而言，第 1 和第 5 列包含输入图像；第 2 和第 6 列的人眼图像展示了巩膜、虹膜和瞳孔的叠加分割（overlaid segmentation）；第 3 和第 7 列展示了输入图像的特征点，其中红色表示眼睑、绿色表示虹膜、白色表示瞳孔；第 4 和第 8 列展示了计算出的眼球以及眼球中心和注视向量。

下图 2 展示了瞳孔（左）、虹膜（中）和眼睑（右）特征点的对数分布：

下图 3 展示了瞳孔、虹膜和巩膜的区域分布箱形图（左），以及注视向量的对数分布（右）：

下图 4 展示了眼球位置 (x,y) 的分布，以及映射到固定分辨率 192×144 的眼球半径（以像素为单位）箱形图：

注释过程

对于 TEyeD 数据集中的特征点注释和语义分割，研究者同时使用了半监督方法和多注释 maturation (MAM) 算法。与原始算法不同，他们没有用 SVM，而是将卷积神经网络（CNN）与 HOG 特征相结合。此外，研究者还将迭代次数限制在了 5 次，并使用两个竞争模型。其中一个模型包含 ResNet50，并使用 [36] 中的验证损失函数进行特征点回归训练；对于另一个模型，他们将语义分割与 U-Net 和残差块一起训练。

最初，研究者对 2 万张具有特征点的图像进行了注释，并将它们转化成语义分割。然后，他们训练 CNN 并利用 MAM 算法不断进行改进。在 5 次迭代后，ResNet50 特征点转化成了语义分割并与 U-Net 结果进行对比。

具体而言，研究者基于 [30] 中的方法对 3D 眼球和光学向量进行了注释。但是，他们没有使用椭圆形瞳孔，而是使用了椭圆形虹膜，这是因为后者仅受角膜曲率（corneal refraction）的部分影响。

通过结合 2D 特征点、分割和 3D 眼球模型，研究者对 3D 特征点和分割进行了几何计算。由于瞳孔总是位于虹膜的中心，他们考虑了两种不同的 3D 分割和 3D 特征点。

眼动注释则分为了注视（眼球静止不动）、扫视（两次注视之间的快速眼动）、平滑跟随（缓慢眼动）和眨眼。

基准评估

在实验中，研究者将数据分成训练集和验证集。为了避免训练和验证集中出现相同的实验对象，他们将整个记录分配给训练集和验证集的其中一个。

对于评估环境，研究者将基于 C ++ 的 CuDNN 框架用于神经网络模型。测试环境硬件包括一个 4 核心、16GB DDR4 内存的 Intel i5-4570 CPU 和一个 4 GB 内存的 NVIDIA 1050ti。

下表 3 显示了特征点回归的结果。结果表明，如预期一样，较大模型在回归任务上更加有效。

下表 4 得出了同样的结论，其中显示了眼球参数估计的结果：

如上表 3 和 4 所示，与现有规模较小的数据集相比，我们可以看到 TEyeD 数据集具有明显优势。这些结果还表明，如预期的那样，对现实世界场景中拍摄的图像进行跨眼球追踪（cross-eye-tracker）泛化是一项具有挑战性的任务，但通过结合使用 TEyeD 与更复杂的架构可以处理这项任务。因此，无论何时使用一种新的眼动追踪设备都可以轻松解决跨眼球追踪泛化任务，并且无需创建和注释新数据。

下图 5 显示了语义分割的结果：

下表 6 显示了眼动识别的结果。可以看到，注视向量在眼动分类中更加有效，因为它对眼动追踪器的位移做出了补偿。

END

备注：姿态

姿态估计交流群

人体姿态估计、手势识别等更多新鲜资讯，若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

超2000万图片，全球最大人眼图像数据集开源了相关推荐

密恐警告：超2000万张，全球最大的人眼图像数据集开源了
涵盖 2D 和 3D 特征点.语义分割.3D 眼球注释以及注视向量和眼动类型等因素,德国图宾根大学的研究者创建了全球最大的人眼图像公开数据集--TEyeD. 机器之心报道,作者:杜伟在当今世界,基于 ...
互联网日报 | 京东PLUS会员数超2000万；滴滴实时公交业务覆盖超80城；小米数科品牌升级天星数科...
今日看点 ✦ 小米数科品牌升级为天星数科,战略聚焦产业数字金融 ✦ 京东PLUS会员数超2000万,预计今年双11为会员省160亿元 ✦ 滴滴实时公交业务覆盖超80城市,用户可轻松"掐点&q ...
双十一发货超2000万件，极智嘉(Geek+)柔性方案从容应对购物狂欢节
双十一狂欢节过后,各大企业.品牌捷报频传,相关行业也迎来一年一度业务高峰.我国智慧物流领域TOP级企业.全球AMR引领者极智嘉(Geek+)于11月12日正式宣布,旗下极智嘉RaaS智能仓在数十万平的 ...
B站COO李旎：超2000万人在B站看纪录片
5月29日,哔哩哔哩副董事长兼COO李旎在2019网络视听大会上对外披露,过去一年B站活跃的纪录片观众超2000万人. 根据B站的统计,今年5月,B站纪录片的日均流量同比增长264%,日均覆盖人数同比 ...
借贷领域需求强烈，Trister‘s Lend上线TVL超2000万美元值得关注！
摘要:瓜分60万USDT等值空投奖励倒计时! 如果你还在思考区块链应用落地,你已经被区块链抛弃了! 9月7日,DeFi TVL(总锁仓量)价值突破1800亿美元,创历史新高.DeFi去中心化金融,区块 ...
P30年订单或超2000万正与苹果抢流水线
[TechWeb]外媒Digitimes从产业链得到的消息称,华为P30系列的首批订单已经准备差不多,预计全球首批备货将会超过600万台,而全年规划的订单量在2000万台左右. 该产业链强调,本次P3 ...
贾跃亭被指拿恒大的投资款告投资人总费用超2000万
雷帝网乐天 10月27日报道就在Faraday Future(FF)发声明,指责恒大支付600万法律费用是败诉直接证据之际,接近恒大的人士也做出说法,称贾跃亭提起本次仲裁的总费用超过2000万,全 ...
微信公众号自媒体账户超2000万
微信5月发布<2019-2020微信就业影响力报告>,数据显示微信公众号总数突破2000多万,公号竞争越来越激烈! 手里有公众号的自媒体人和站长都知道现在运营公众号其实是一个很耗费精力的过 ...
业内最大规模多标签图像数据集开源 | GitHub资源
允中发自凹非寺量子位报道 | 公众号 QbitAI 开源地址来了. 上个月,腾讯AI实验室宣布开源多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络Re ...

超2000万图片，全球最大人眼图像数据集开源了

超2000万图片，全球最大人眼图像数据集开源了相关推荐

最新文章

热门文章