2020-08-12 17:56:26

目前的主流智能手机大多配有多个摄像头,每个都有不同分工,有的是黑白摄像头,负责提供更准确的对比度信息,有的则负责捕捉人物或场景深度,测量物体和手机之间的距离。

近日,谷歌 AI 研究团队发明了一种测量距离的新方法:通过机器学习模型捕捉和追踪用户的眼球(虹膜),就可以判断其与手机的距离。整个过程只用到普通的 RGB 摄像头,无需深度传感器或专用摄像头。

如果这项技术未来获得实装,那么手机上的摄像头数量终于有望减少了。

这项研究名为 MediaPipe Iris,属于谷歌 MediaPipe 机器学习开源项目的一部分。该项目旨在为研究人员和开发者提供免费、成熟的跨平台机器学习解决方案,其中还包括脸部识别、面部五官追踪、手势捕捉和物体识别等常见的计算机视觉任务。

眼球或虹膜追踪并非新技术,三星最早在 8 年前的 Galaxy S3 上就实装了眼球追踪技术。然而受到硬件性能、光照条件和潜在遮挡物的限制,这项技术的易用性较差,近几年已经被指纹和面部识别所取代。

不过,在某些应用场景下,虹膜追踪仍然有不可替代的地位,比如操控 VR 和 AR 设备很依赖虹膜追踪,手机相机的人像模式也需要追踪虹膜来确定眼睛和人脸的位置。通常来说,这些设备需要专用的传感器来获取这些数据,限制了设备的使用场景和潜力。

谷歌 AI 团队发表的最新研究成果,只需要一个普通的 RGB 摄像头就能实时追踪虹膜、瞳孔和眼睛轮廓的位置,并且支持手机端、电脑和网页上运行。该算法不会记录用户的生物特征,也不会追踪眼球的视线。

研究的第一步,是训练一套可以准确追踪眼睛轮廓的模型。得益于研究团队之前的研究成果——用机器学习算法捕捉面部五官轮廓(也是 MediaPipe 项目的一部分)——这项步骤得以简化许多。他们直接从五官轮廓中分离出眼睛区域,然后再将任务分为两部分:找出眼睛轮廓和虹膜定位。

图|分离出来的人眼轮廓图(来源:谷歌 AI)

他们还设计了一套多任务模型,只用一个统一的编码器,但每一个任务有一个单独的组件。这样就可以让训练数据只针对某一个任务。

为了训练模型,研究人员手动标注了 5 万张图片,囊括了世界上不同肤色和眼球颜色的图片,还包括各种光照条件和头部姿势。

模型的工作原理基于一条普适事实:尽管人的身材有瘦有胖,肤色和眼球颜色各异,但绝大多数人的虹膜水平直径约为 11.7±0.5 毫米。确定这一点之后,构建模型就更简单了,几乎就是初中物理的水平。

利用小孔成像原理,摄像头得以收集外界的光线,然后投影在传感器的像素上。因此我们可以通过内置 API 或者 EXIF 元数据调取成像时的焦距,获得传感器到相机孔的距离。由于虹膜直径是一个几乎固定的值,我们只需要计算出像素在传感器上的长度,就可以用比例推算出虹膜到相机的距离,即物体到相机的距离。

图|估算人眼到摄像头距离的原理示意图(来源:谷歌 AI)

为了量化该方法的准确性,团队收集了 200 多个志愿者用 iPhone 11 拍摄的面部视频和深度图像。志愿者戴不戴眼镜都可以,但不能有任何眼疾。统计发现,iPhone 11 传感器测量 2 米以内深度的误差不到 2%。

作为对比,MediaPipe Iris 模型的平均估算误差约为 4.3%,标准差为 2.4%,约为 iPhone 11 误差的两倍。如果用户戴眼镜(不算隐形眼镜),估算误差会略微提高到 4.8%,因为镜片会让光线发生折射,更容易影响距离的计算。

尽管有 4%-5% 的误差,新模型的表现也算是可以接受的,毕竟还没有用到任何专用硬件辅助,在使用成本上占据了不小的优势,同时证明了在硬件性能有限的前提下,仍然可以通过单个摄像头获得深度/距离参数。

值得一提的是,依托于 MediaPipe 跨平台机器学习框架,这套虹膜测距模型可以直接在设备上本地运行,无需将数据发回到云服务器上运算,进一步提升了应用潜力。

下一步,谷歌 AI 团队计划继续提升 Iris 模型追踪虹膜的稳定性,降低错误率,并且尝试在手机的辅助功能中部署该技术,开放给更多开发者,探索更多的应用场景,比如能随着头部移动而自动变化网页浏览的字体大小。

谷歌AI新技术:通过追踪虹膜,普通摄像头也能测距相关推荐

  1. 从Pixel 3a到Android Q,一份谷歌AI能力的“成绩单” | Google I/O全程回顾

    作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 当地时间 5 月 7 日上午(北京时间 5 月 8 日凌晨一点),一年一度的 Google I/O 开发者大会如期而至.今年也是 ...

  2. 一文看尽谷歌AI全年重大研究突破,Jeff Dean执笔,全程干货

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文约一万字,建议阅读10+分钟. 学术和应用两开花,开源和新技术同步推进. 刚刚,Jeff Dean代表Google A ...

  3. 谷歌AI用“深度”学习来虚化背景,单摄手机可用,Jeff Dean表示优秀

    虚栗子 发自 凹非寺  量子位 出品 | 公众号 QbitAI 真 · 深度学习↓↓↓ Jeff Dean说的. 因为,谷歌又给Pixel的相机注入了机器学习的灵魂:在背景虚化的任务上,学习了一下深度 ...

  4. 谷歌AI的七个“不正经”玩法,个个能玩一整天

    郭一璞 问耕 发自 凹非寺  量子位 报道 | 公众号 QbitAI 谁说AI只能搞一些一本正经的工作? 谷歌最近就放出了几只比较搞笑的AI,可以完成一些不走寻常路的工作,比如:帮你实现靠脸吃饭,让你 ...

  5. 谷歌AI魔镜:看你手舞足蹈,就召唤出8万幅照片学你跳 | TensorFlow.js

    圆栗子 发自 凹非寺  量子位 出品 | 公众号 QbitAI △ 鬼畜来自起小点 前两天,大家还在手机上胡写乱画. 而现在,如果你看到某个同事,对着电脑展现ta婀娜的舞姿.  △ 失败的&quo ...

  6. 谷歌AI相机Clips今发售,“贴身摄影师”抓拍每一刻欢乐

    Root 编译整理 量子位 出品 | 公众号 QbitAI 不管是一家人出游玩耍,还是朋友聚会轰趴,总错过很多来不及掏手机而转瞬即逝的欢乐. 今天终于开售的谷歌AI相机Clips,就像你私人摄影师,用 ...

  7. 一周AI看点 | 谷歌AI工程师说五年内实现人机对话,能实现吗;NASA开发AI竞赛无人机要挑战人类职业玩家,无需外部定位技术

    本期一周AI看点包括行业热点.投融资.业界观点.技术前沿以及应用等方面. 01 行业 NASA开发AI竞赛无人机,欲挑战人类职业玩家 近日,NASA喷气推进实验室(Jet Propulsion Lab ...

  8. 万字长文!Jeff Dean亲笔盘点谷歌AI 2019:纵横16大方向,汇集重要开源算法(附链接)...

    本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 本文约12000字,建议阅读20+分钟 本文是Jeff Dean代表Google AI,盘点过去一年AI大趋势. 又一年 ...

  9. Jeff Dean亲笔盘点谷歌AI 2019:日均2篇论文,纵横16大方向,一文汇集重要开源算法...

    点击上方"深度学习技术前沿",选择星标或置顶,每天给你送干货! 阅读大概需要16分钟 跟随小博主,每天进步一丢丢 又一年,Jeff Dean代表Google AI,总结过去一年AI ...

最新文章

  1. 测试过程之过分关注功能性测试
  2. 计算机三维作品说明,计算机三维技术
  3. bootstrap的弹窗剧中_jquery – 如何让BootPrap(Plugin)的ClockPicker出现在Bootstrap Modal弹出窗体中?...
  4. G - Mike and gcd problem
  5. 数字电路数据选择器及其应用实验报告_科普|说说大数据是什么,及其特点与应用...
  6. 亿方云CEO程远:转型第一式:链接企业人与数据
  7. NHibernate初学者指南(6):映射模型到数据库之方式二
  8. python 字典、列表、字符串 之间的相互转换
  9. 学会Web前端,高薪工作任你挑!
  10. leecode之aoti
  11. Hacker News 12 月招聘趋势:React 已连续霸榜 19 个月
  12. 如何解决pip下载慢的问题
  13. 机器学习 —— 联合概率分布
  14. 基于WinForm开发的Ribbon界面案例的扩展
  15. c语言中要让音乐暂停还用什么指令,【Android】Broadcast控制音乐暂停继续等
  16. 线性规划与单纯形法(线性规划、单纯形法、单纯形表、人工变量法)
  17. 线上科技展厅vr全景展厅设计 广交会布展
  18. 将PSD文件导出图层
  19. Java--第1天--日期(一)
  20. 软件设计师笔记之信息安全知识

热门文章

  1. mysql导出数据到s3_mysql导出数据库几种方法
  2. Linux学习(六)---实用指令(只看这篇就能完成基础的学习)
  3. 衡量机器学习模型的三大指标:准确率、精度和召回率
  4. python执行提示包找不到的问题
  5. EM算法 大白话讲解 没看懂 保存
  6. 用Java Instrumentation 在类加载时添加记录
  7. 黄铁军:沉迷于寻求通用智能理论,将是阻碍 AI 发展的最大障碍 | Yann LeCun 自传《科学之路》序...
  8. 观点速递:大模型落地产业,存在什么问题?
  9. 你为什么“啃不动”你手中的技术书?
  10. Java程序员必备秘籍 Scala与Clojure函数式编程语言