深度解析AI人脸识别技术发展到什么程度了？它的能力极限是什么样子？你会不会因为天网而感到害怕？

1. 人脸识别技术现状

在日常生活中，每一个自然人基本都经历过过人脸识别，主要分如下两大类：

1.1. 生活中

坐火车，进站需要刷脸和刷身份证

APP的实名认证，打开手机刷脸

支付宝用手机扫描自己“花呗”支付

在商店，面对商家的支付平板设备，扫脸支付（如华联）

去售楼处买房子，被房间角落的摄像头识别出身份

进出办公大楼，需要人脸闸机核验，自动开门

1.2. 其它等不可言说的

部分城市的交通卡口，增加了闯红灯人脸识别（如济南，会大屏幕播报闯红灯的人脸和身份证号）

遍布城市、乡村各个角落的部分摄像头，接入天网（强大的情报系统）

媒体内容合规性审查（如出现境外敏感人物）

(瞭望塔媒体内容合规性审查系统)

看上去，人脸识别技术，已经成功的渗透到了我们的工作、生活以及社会稳定治理方面了。

2. 从技术角度对上述场景做归类

这个章节，会带有一些技术专业术语，笔者尽可能说的通俗化，该章节比较重要，不建议跳过阅读。

2.1. 识别类型归类

从识别类型上，分为1:1对比和 1:N对比。

1:1对比，解释起来比较简单。意思是，首先设备知道想要识别的对象是谁，设备只需要鉴别出现在镜头里的人脸，是否是设备想要的对象即可。典型场景是：进火车站，同时刷脸又刷身份证。如张三将身份证放到设备上，设备首先知道，预期出现在镜头里的人，应该是张三。设备只需要将身份证上的张三头像，和镜头里出现的人脸，做1:1比较即可。（同理，APP实名认证、支付宝用手机扫描自己“花呗”支付，均属于1:1对比）

1:N对比，意思是镜头里的一个人脸，和数据库里N个人脸做比对识别。典型场景：在商店，面对商家的支付平板设备，扫脸支付（如华联）；去售楼处买房子，被房间角落的摄像头识别出身份；进出办公大楼，需要人脸闸机核验，自动开门。

显而易见的，1:N的技术难度要更高一些。为什么？从一个人里挑出来目标人物，和从一堆人里挑出目标人物，当然是后者难度更大。

表格统计如下：

1:1和1:N的区别，就在于人脸的大小。1:1可以认为，人脸库是1，1:N可以认为，人脸库是N。如进出办公楼人脸闸机场景，加入该办公楼办公人员是100，那么人脸底库数量就是100，也就是N=100.

2.2. 识别技术归类

从识别技术上，分为瞳孔间距测量法、深度学习128/256/512点法。

基本所有的人脸识别技术，会采用上述两种方法做交叉验证。

2.3. 距离限制归类

短距离，也就是1m以内。

远距离，普通的4mm焦距摄像头（也就是市面上最常见的），有效距离不超过8m，且识别准确率大大低于短距离。

显而易见，远距离识别的难度，大大高于短距离识别。

2.4. 其它-活体检测

我们在手机app做人员身份认证的时候，通常会要求 “张张嘴、摇摇头”，是检测被测人脸是否是活体状态。据说，著名的“北大吴谢宇杀母案件”，就是在吴谢宇同学使用其母亲静态的尸体，做app现金交易活体验证的时候，被AI算法发现异常的。

2.5. 其它-佩戴配饰

佩戴口罩：能够增加识别难度，一般不影响识别精确度。特殊场景，影响较大

佩戴墨镜：不可以。眼睛是重要特征，佩戴墨镜之后，人脸识别的意义较小

佩戴耳环、鼻环等：不影响人脸识别

3. 困难点拆解分析

通过上述描述，可以得出结论：1:1场景、短距离（1m以内），是最容易的，几乎可以认为是100%准确率（业界基本可以做到99.9999999%，即使用1亿次，会有1次出错，基本可忽略）。这也是人脸识别技术，最可靠的落地方案。生活中，绝大部分的使用场景，均是该类型。

任何非1:1、短距离场景的人脸识别技术应用，都有极大的准确率风险，需要人工二次核验。

我们拆开分解一下（一共就俩变量，一个是人脸库大小，一个是距离。高中学过的“控制变量法”，大家回忆一下）：

3.1. 从1:1到1:N（距离限制在1m以内）

也就是人脸库的人脸数量从1，逐渐变大。那么人脸识别的准确率，是逐步下降的，对应的曲线如下：

（注1：上图中的N，我把它意为，底库人脸量增加到某一个值，算法的准确率开始显著下降。笔者认为，这个N，也是衡量各个人脸识别技术服务商的技术能力重要指标。有的厂商，可以将N做到5亿，有的厂商，只能做到10万。）

（注2：所以，恳请各位业主老总们，千万不要听你们的供应商瞎吹牛，什么准确率99.99%，其实一定要看使用场景的）

也就是随着底库人脸数量的逐渐变大，人脸识别的准确率，也会逐渐变低。我们把上述1:N、1米以内的场景，按照难度大小，排列一下，如下：

下面解释下，各个得分的评分依据：

进出办公大楼，需要人脸闸机核验，自动开门。难度分，1分，为什么？因为这个底库人脸量，说破大天，也就10万，而且是1m的距离（即便是中国铁路这种员工最多的，100万人，也不是问题）。这对人脸识别场景，是小case。=====>所以，这个难度分是1分，你要问我，进入火车站的人&证比对（1:1）技术，得几分？不好意思，0分。

在商店，面对商家的支付平板设备，扫脸支付。难度分90分，为什么？（首先大家要注意，该过程是不通过个人手机的，仅仅是用商家的设备，扫描自己的脸）,首先，我们看下，为什么扣了10分？扣了10分主要在于，并不是每个人每次支付，都能100%不借助二次确认，如扫脸后，偶尔会二次确认手机尾号等。所以，====>扣10分。其次，我们看下，为什么得了足足90分，因为，底库的人脸量，确实太大了。以支付宝平板支付为例，我们一次支付，支付宝后台，会比对8亿人脸库。这个数量，已经要求人脸识别技术质变的飞越。有的同学会问，会不会和城市有关，如支付宝后台，仅比对常驻地的底库，也就可以把8亿底库缩减为1000万。为此，笔者特地出差去外地，实地验证过，答案是，底库就是8亿。

哦！赞美它！支付宝平板人脸支付！太方便了！

不过，笔者要吐槽一下微信平板支付，真的是一言难尽。。。。

（小道消息：支付宝的平板支付，采用的xxx公司的人脸识别技术，它的达摩院，干不了这活；

而微信的平板支付，采用的是自研技术，啧啧啧，再加把力，你一定可以的！）

3.2. 从1米到8米（1:N场景）

我们将定量控制在1:N场景，但是将识别距离拉远。废话不多说，开头咱们先来一个难度评分：

显而易见，远距离1:N场景，难度普遍较高。

下面解释各个项的评分依据：

去售楼处买房子和城市的交通卡口难度分分别是50分和60分，首先拍摄场景比较单一，其次所涉及到的人脸底库通常不会太大（通常在500万以内，而售楼处场景，人脸底库则更小）。为什么交通卡口场景比售楼处场景更难一些呢？因为售楼处通常是室内，光线的影响相对要小一些。

天网场景，难度分直接突破上限。为什么？因为目前尚不具备（未来也不会具备）真正意义上的天网人脸识别。首先是场景多样化，直接影响AI算法的准确率，其次是距离，其次是所涉及的人脸底库是海量的。当前的人脸识别技术，只能完成一定约束条件下的天网人脸识别，无法达到普通人认知的那么可怕。需要辅以大量的人工二次核验工作。

在媒体内容合规性审查领域，需要对更多场景的人员做识别，包含会议、室外、酒店、娱乐场所、古装等我们人类可认知的所有场景。其次，该领域的审查，是要求务必严格的，哪怕人员出现在图像中一个非常小的像素区域，也要求被识别，这在技术领域，是非常困难突破的。

上述文字，已经初步的对不同条件下的人脸识别技术做了分析，我相信即便如此，还有很多同学，无法非常感同身受的理解相关细节，欢迎留言提问。

4. 写在最后

在人脸识别技术的应用当中，其实还有一些其它的相关名词概念，比如活体检测、toF相机等，这些对最终的识别效果没有本质的影响，所以本文并未讨论。

最后，也是最重要的一点：

其实AI算法没有想象中的那么强大，人脸识别技术的上限，就是人的肉眼的分辨能力。而大多数场景，该技术没有办法达到上限。

所以，如何判断当你暴露在一张照片或者摄像头之下，会不是被人脸识别算法识别出来呢？要么遮挡住你的眼睛&戴上口罩&低头，要么保证自己人脸出现在画面中的像素足够少（长宽低于20个像素）。总而言之一句话，当目标的亲妈，看着图片中的脸，都认不出是自己儿子，那么人脸识别算法，也一定识别不出来。