关心AI的人们都关注了此号☝☝☝

于是,没有iPhone X,我也可以在我仅2000元的安卓机上玩转黑科技了。

记者:鸽子

在我威威天朝,表情包早已泛滥在各类社交应用程序中,如今,咱可以玩点新的包了。

就这个啦!在苹果iPhoneX的带领下,一种新的娱乐方式来了...

它生动而霸道地诠释了什么才是真正的表!情!包!

我的表情我做主,吼吼...

这就是iPhone X在基于Face ID的新功能下,推出的Animoji。

当你对着摄像头抬眉头、皱眉毛、动下巴、睁眼睛、闭眼睛、张嘴唇、咧嘴笑时,手机就会捕捉你的表情,并将其赋予可爱的卡通形象,实时生成一个属于自己的表情包。

如果说今天我们的重点是聊苹果,那也太low了,发布会过去了这么久,太对不起媒体的实效性。

今天,我们想说的是,有一家神秘的中国公司,早在2年前,就在手机上推出了同样的功能,并且越做越深。而更为神奇的是,在完全没有深度摄像头,甚至没有双目摄像头的情况下,它做到了同样的效果。这引起了AI科技大本营的注意。

这家低调的公司名叫appMagics——迈吉客科技。

早在2016年,该公司就完成了千万级人民币的A轮融资,投资方为极客帮及紫辉创投。在2016年9月获得蓝港互动战略投资后,它又在2017年6月完成了由华盖资本领投,博将紫辉跟投的数千万人民币A+轮融资。

在看过苹果发布会关于表情包的展示后,AI科技大本营记者也第一时间联系并试用了appMagics的产品。

总体的感觉是:体验很流畅,表情的贴合度较高,模拟很真实也很细腻。不过,当人突然将距离拉远,且快速剧烈摇摆时,表情识别偶尔会出现捕捉掉线的情况。

class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.962962962962963" data-w="848" data-src="http://v.qq.com/iframe/player.html?vid=x0551bx5zra&width=670&height=376.875&auto=0" style="display: block; width: 670px !important; height: 376.875px !important;" width="670" height="376.875" data-vh="376.875" data-vw="670" src="http://v.qq.com/iframe/player.html?vid=x0551bx5zra&width=670&height=376.875&auto=0"/>

这之后,AI科技大本营记者对appMagics CTO金宇林进行了独家专访,问题略微犀利,回复拒绝套路。希望搞清楚,创业两年多的appMagics,与苹果最新的黑科技,到底有何可圈可点之处。采访内容在不披露被采公司核心技术机密的情况下,尽量保持原样,部分言辞稍作不改变原意的修改。

AI科技大本营:简单了解一下您的技术背景。

金宇林:最早我是在北京航空航天大学读计算机图形学硕士,之后去了斯坦福继续读计算几何学,这算是计算机图形学的一个分支。毕业了一直留在美国微软总部,算是微软研究院3D打印项目的创始人之一,也申请过挺多专利。算起来,我做计算机图形学,已经15年了。

AI科技大本营:我们直击重点,表情识别这个玩法,背后的技术原理是什么?

金宇林:我尽量说得通俗一点。

原理大致分为三个步骤,第一步是人脸关键点识别与跟踪,第二步是表情分析和映射,第三步是三维模型的控制。

具体来讲,人脸关键点识别和实时跟踪,就是根据脸部标注的关键点,比如,哪里是眉毛、哪里是眼睛、哪里是嘴等,让摄像头清楚看懂人的面部。

表情分析则是说,根据识别和跟踪到的面部关键信息比如眉毛、眼睛、嘴等进行的运动,预测用户是闭眼还是说话,开心还是悲伤。

而三维模型的控制则是用面部关键信息,来驱动构建好的虚拟形象,去学习和模拟用户的表情。

总的来说,前两部分属于计算机视觉的研究范围,第三部分属于计算机图形学的研究领域。

AI科技大本营:到底appMagics所做的表情识别与苹果刚发布的iPhoneX,差别在哪?

金宇林:刚刚我提到了表情动画的原理分为三个步骤,我们跟苹果的差别主要是在前两步上,也就是第一步人脸关键点识别与跟踪,和第二步表情分析和映射。

简单来说,苹果是在3D系统(RGBD摄像头)的基础上做,而我们是在2D系统(RGB摄像头)上,所依赖的软硬件系统不同。(小编注:为了便于理解,以下RGB摄像头统称2D系统,RGBD摄像头统称3D系统

那2D与3D系统在效果上有什么差别呢?

对于眼睛、眉毛、鼻子、嘴巴这些人脸中分界比较明显,特征比较明显的地方来说,只要训练的面部数据足够多,2D跟3D系统在捕捉上几乎没有差别。

但对于面部特征不太明显的额头、脸颊等,2D系统的捕捉就不如3D系统精准了。2D不太容易识别出这些部位的点,但3D由于多了一个纵深信息(z轴),它是可以识别到额头、脸颊这些点的。

拿苹果所采用的深度摄像系统来说,这是一个3D结构光传感系统。也就是说,这个系统除了有日常2D系统(普通前置RGB摄像头)捕捉的平面视觉信息外,还有纵深的视觉信息,也就是Z轴。

这个Z轴纵深的数据信息主要来自Dot Projector(点阵投影仪),通过它将结构红外光投射到人脸上,再用红外摄像头接收这些投射在人脸上的形变,计算面部每个点的深度数据。

这样,每个点不仅有了平面的坐标,而且有了Z轴深度坐标,对每个图像信息点的定位更为精准。

至于第三步,我们跟苹果没有差别。在三维模型控制和最终呈现效果上,我们从一开始的定位就是三维混合现实。

AI科技大本营:那我是不是可以说,苹果iPhoneX无论在精准度上,还是性能上,都更占优势?

金宇林:就客观条件来说,由于iPhoneX在RGBD摄像头的硬件基础下,识别的关键点更多,所以确实能精准捕捉到更多细节。

另外,由于苹果可以完全支配自己的软硬件系统,因此iPhoneX在性能上,一定更稳定。别说是表情,在很多方面,苹果手机由于软硬件一体化,性能也是大大优于其他手机的。这是客观硬件配置所决定的,没办法。

不过要说到苹果的优势,其实并不完全是这样。这里有两点需要说明一下。

第一,对于表情的捕捉,并非越精准就一定越好。因为人的感官并非完全是写实的。

怎么理解?我举个例子。当你闭上双眼的时候,其实并不是同时闭上的,可你自己以为是同时闭的,所以,当你看到表情捕捉到一只眼总是闭得慢一些时,会产生不适感。

再比如,当你闭一只眼时,另一只眼其实会眯上一点,但人并不自知。所以,当你看到表情捕捉呈现出最真实的效果时,反而不舒服,因为这跟你的潜意识不符。

所以,当我们把表情捕捉用于泛娱乐场景时,它更重要的目标是让虚拟形象能够传达人类的情感。所以,我们会用算法做一些处理,让你在真实和虚拟中达到一种视觉平衡。这种情况,确实并非越写实越好。

做VR和AR的人,可能对这一点的理解更深。

第二,在某些必须达到的真实度上,即使硬件并不具备,我们用算法也是能弥补的,而且效果绝不差。

我们两年来,一直埋头所做的一件事情就是,通过不断优化的算法,让表情模拟在普通手机上也能玩起来,而且传达人类的情感。

啥意思?

简单来说就是,原本普通RGB摄像头不容易捕捉的部分,我们靠算法来弥补。

比如,当我咧嘴的时候,我们会通过算法,来预测和模拟脸部肌肉的隆起;在皱眉的时候,也通过算法,来模仿额头的变化。我们在2D摄像头系统之上模拟了三维数据,在客观硬件基础不具备的情况下,也能将表情动画玩起来,而且看不出来太大的差别。

也就是说,通过算法,尽量降低玩表情动画的硬件要求和硬件成本。目前我们在iphone6上就能玩起来,安卓机也能玩。

AI科技大本营:这算技术上的核心竞争力吗?

金宇林:可以这么说。

其实,要说表情识别,好莱坞很多年前就在电影特效中用上了。

比如阿凡达和魔兽世界里面的表情就是用三维重构来实现的。具体的原理是,通过在演员的脸上贴图,形成一定的点阵(与苹果点阵投影仪的原理一致),脸部的特征就出来了。这样,当你的面部表情变化时,脸上的点随之而动,摄像头将其精准捕捉,就可以放在三维模型上用了。

但好莱坞的硬件多贵啊,普通人想玩这个怎么办呢?所以我们就基于普通手机的RGB摄像头,重新设计算法,在没有深度信息的情况下用算法来弥补,把这些功能实现了。

把影视CG技术消费化,把影视动漫玩的东西搬到每个人的口袋里,iPhonen能用,安卓手机能用,普通PC能用,Mac也能用,跨平台,这算是核心竞争力。

说白了,是把工业级能力和技术转化为民用级,让人想玩就玩,不用考虑太多硬件的配置。

AI科技大本营:如果说多年积累的核心竞争力在于,在2D系统(RGB摄像头)用算法来做3D系统(RGBD摄像头)才能做的事。那当3D摄像头普及,还有优势吗?

金宇林:就像我刚刚提到的,在表情识别上, 我们的核心算法分为三部分,获取现实中的关键信息确实基于普适的2D摄像头系统,不过我们从一开始就采用的3D数据模拟和控制,如果有一天所有手机都能直接获取三维数据,那么这一步我们的算法是不用做任何更换的,直接复用,所以这部分积累的优势仍然在。

但正如你所说,如果3D摄像头普及,整个行业的软件算法门槛将被大大拉低,我们基于2D系统所做的算法积累和优化确实就没有特别多的优势了。

不过你要知道,RGBD摄像头的普及并非易事,苹果不也是在iphone X上才采用,iphone8上都没有,因为目前RGBD无论在硬件微型化的成本和耗电方面壁垒都太高了。

这样说吧,从现在到未来很长一段时间,市场上绝大多数手机仍是2D摄像头的苹果和安卓机,那么我们基于2D系统所积累的三维算法壁垒,仍长期存在。

AI科技大本营:所以,基于目前的优势,主要拼抢的是中低端2D摄像头市场?

金宇林:从技术上来说,两个方向吧。

一个方向主打深度和精细度,高端手机市场,基于现有技术积累不断开发新算法的能力,包括直接可兼容用在3D系统中的算法;

一个方向主打广度,继续针对2D系统,扩大该技术在中低端手机上的适用性。目前我们算法的定位可以适用iphone5以上的苹果机型,以及主流安卓机型。这块会一点点往下做,匹配更多中低端安卓机型,覆盖更多用户。

这两方面都很重要。

抛开技术,从整个公司的战略来说吧,创始人Leody(小编注:appMagics 创始人CEO 伏英娜)一直强调,我们自身定位是跨界跨界跨界,不是天天埋头就搞计算机视觉、图形学、人工智能这些技术,技术的背后要有感觉,有感情,有感性的元素才行啊。

appMagics所设计的卡通表情形象

AI科技大本营:既然这样,为何非要自己开发背后整套技术,为何不直接调用第三方人脸识别科技公司的技术,专注于打造娱乐产品就好,岂不更省事?

金宇林:其实一开始,是考虑采用第三方技术的,不过试过所有的第三方技术,发现没有办法直接用。

为什么呢?

你看,目前CV(计算机视觉)领域,最大的市场是安防和金融。

对于安防和金融来说,计算机视觉主要的作用是,在很短的时间内判断是不是本人。而我们的要求是,计算机所识别到的表情是否精细,虚拟表情所模拟的效果是否准确。

这是两个完全不同的目标。那么其训练的出来的数据和算法,只能服务于一个目标,没有办法兼容。

再一个,目前的人脸识别大多是二维算法,但二维算法没有深度信息,用在表情模拟和控制上是远远不够的,因为很多特征不明显的关键点捕捉不到。这块就必须用三维算法来补齐。

所以,我们只能自己来做,从头到尾设计算法,做数据训练。

AI科技大本营:随着想要实现的不同目标越来越多,未来CV领域貌似越来越细化了。

金宇林:必须细化。

AI科技大本营:估算一下,表情动画这块有多大的市场规模?

金宇林:不说别的,就单说手机。如果现在所有的手机用户,管他是苹果还是安卓,管他高中低端,都想玩这种表情包,而现有手机的硬件条件也都带得起来,你觉得这是一个多大的市场。这块你可以具体跟Leody聊聊。

AI科技大本营:苹果这次iPhone X发布会,对公司倒是个很不错的PR机会。就最近而言,有什么特别大的直观的影响吗?

金宇林:特别大!这几天,因为苹果iPhone X推表情动画这个事,突然多了一堆找上来的合作伙伴和投资人,什么安卓厂商,APP,做输入法的公司,全挤过来了。

Leody还没回北京已经约不过来了。

一个行业最好的状态是什么呢,就是你做一个东西,一开始只有你在做,慢慢的,很多人发现,“咦,这个东西很有用啊”,于是都来学你做,因为表情动画很可能在未来两年成为App和手机标配,这就证明,你之前预测对了,你押对宝了。(笑)

附:

appMagics创始人兼CEO

伏英娜 Leody Fu是位女极客+连续创业者。2004年离开索尼爱立信创办MoGenisis,并于2007年成功被Symbian(诺基亚)并购。2010年加盟微软,先后担任大中华区及美国总部高管,带领团队进行微软新技术的传播和推广。2014年创办appMagics,专注于计算机视觉混合现实相关技术与文娱领域的跨界创新。

AI科技大本营

招实习生啦

嘿,小伙伴们,AI科技大本营招实习生啦!

这次我们有以下几个方向:

微信运营、科技音视频运营和技术编辑各一名,兼职编译若干名

有意向的小伙伴,请在AI科技大本营微信公众号回复“实习生”,查看详细工作要求和职位描述,以及简历投递渠道。或直接添加微信greta1314询问详情。


更多学习福利

关注AI科技大本营,进入公众号,回复对应关键词查看分类专题;回复“入群”,加入AI科技大本营学习群。

回复“深度学习”,一文囊括30篇深度学习精华文章。

回复“机器学习”,一文推荐30篇机器学习优质文章。

回复“访谈”,查看吴喜之、周志华、杨强、蚂蚁金服漆远、今日头条李磊的独家访谈实录。

回复“资源”,一文梳理机器学习,深度学习,神经网络等各方面的资源。

回复“视频”,5分钟的视频带你轻松入门人工智能。

回复“程序员”,带你了解别人家的程序员如何学好AI。

回复“数据”,帮你弄清楚人工智能与数据科学之前的关系。

回复“课程”,跟我一起免费学习:谷歌大脑深度学习&Fast.ai最实战深度学习&David Silver深度强化学习。

独家 | 我们扒出了这家中国创业公司,竟比苹果iPhone X早两年推出黑科技,还不用借助深度摄像头相关推荐

  1. 独家 | 我们扒出了这家中国创业公司,竟比苹果iPhone X早两年推出黑科技,还不用借助深度摄像头...

    于是,没有iPhone X,我也可以在我仅2000元的安卓机上玩转黑科技了. 记者:鸽子 在我威威天朝,表情包早已泛滥在各类社交应用程序中,如今,咱可以玩点新的包了. 就这个啦!在苹果iPhoneX的 ...

  2. 最新【独家沙龙内容整理】机器女友?—百度微软讯飞等顶级专家谈人机对话黑科技及未来 ——by中科院孢子创客空间

    最新[独家沙龙内容整理]机器女友?-百度微软讯飞等顶级专家谈人机对话黑科技及未来 --by中科院孢子创客空间 1.写在前面 非常非常感谢[公众号:机器学习研究会 ]举办的这次沙龙.赞赞赞.以下内容皆来 ...

  3. 独家!扒出腾讯新高管余总的真面目!

    若治 发自 凹非寺 量子位 出品 | 公众号 QbitAI 大意外! 今早腾讯突然宣布一项全新的高管任命. 主流财经网站也发出快讯. 这篇任命的阅读量迅速突破10万+,引发了外界大量的关注.腾讯此次高 ...

  4. amd插帧技术如何开启_让游戏帧数暴涨,RX 590解锁蓝宝独家黑科技

    此前,A卡厂商蓝宝石在发布非公5700系列显卡之时,为我们带来了一项非常牛逼的黑科技,这项黑科技叫做"TriXX Boost",它是通过TriXX软件来自定义画面分辨率,同时采用A ...

  5. Pad居然可以写代码了?研究完我惊了,居然是中国创业公司的产品

    边策 发自 凹非寺 量子位 报道 | 公众号 QbitAI 有点意外. 这都2102年了,Pad才开始告别"买后爱奇艺"的处境. 就在今年的苹果WWDC上,最突出的就是iPad终于 ...

  6. 奥运会上刷新亚洲记录的211高校副教授苏炳添论文被扒出,网友:膜拜大神!...

    8月1日,在东京奥运会上,苏炳添跑出中国体育历史的新篇章! >>>> 中国速度惊艳世界! 在男子100米半决赛中,他以个人最好成绩9秒83,创造新的亚洲纪录.决赛中,他以9秒9 ...

  7. 乘S10热销的东风,三星四机齐出再攻中国手机市场

    近日三星在中国一口气发布了四款中端手机,分别是galaxy A80.A70.A60和A40S,主攻国内的中端手机市场,对于当下中国手机热衷的全面屏设计均有涉及,似乎是要用机海战术再战中国市场,而此前发 ...

  8. [转帖] 中国SaaS死或生之二: ERP两大邪术,尽出歪门邪路 ---- 挺好玩的

    中国SaaS死或生之二: ERP两大邪术,尽出歪门邪路   http://www.cniteyes.com/archives/33753 文章摘要:在数字化浪潮中,油腻ERP大叔的那些"歪门 ...

  9. 微软学者奖学金2020名单出炉!中国高校八人上榜,清华表现最为亮眼

    微软学者奖学金2020官方名单出炉! 中国高校有八人上榜,其中清华大学表现最为亮眼,有4人入选. 2020 年度的"微软学者"项目吸引了来自全亚洲 36 所顶尖大学及研究机构的 1 ...

最新文章

  1. doT.js 模板引擎的使用
  2. 批量下载的实现及java.lang.IllegalStateException异常
  3. 观察者模式及Java实现例子
  4. Android 分享控件
  5. 计算机网络的拓扑结构主要有新型,计算机网络中主要拓扑结构有 ______。
  6. NPOI 菜鸟实践行之根据指定的模板生成Excel 2003格式的文件 (一)
  7. geek_愚蠢的怪胎技巧:在Windows 7中启用秘密的“ How-To Geek”模式
  8. vert.x_选择Vert.x的3个理由
  9. 高性能MySQL(2)——Schema与数据类型的优化
  10. 软件测试 学习之路 MYSQL安装
  11. 一、Rabbitmq安装与配置信息
  12. avue-crud 使用_创建和使用CRUD存储过程
  13. redis 删除key的命令_面试官问:Redis变慢了,你会怎么排查?
  14. 登录瑞友天翼时提示“建立SSl 加密隧道失败,请检查网络连接是否正常或者服务器的协议端口是否正常”,如何处理?...
  15. 樊登讲亲密关系_《亲密关系》
  16. 瞬时问题与波粒二象性
  17. 经典作品推荐CLANNAD(含下载、汉化、周边和攻略,真正全语音)
  18. 【bestbanking】银行业数字化转型结硕果
  19. python BeautifulSoup的使用
  20. Python 图片去除背景

热门文章

  1. linux socket完成端口,“完成端口”模型(IOCP)
  2. php中文件操作函数,php中常用文件操作函数介绍
  3. 支持向量机学习笔记1
  4. ReentrantLock实现原理分析
  5. 计算机网络面试知识总结1
  6. Sublime遇见中文乱码问题?
  7. 【12.16】VC++调用Word OLE进行自动化生成报表
  8. Mason 简单笔记
  9. 调整命令行的列数和行数 mode con: cols=100 lines=10000
  10. POJ-1185 炮兵阵地 动态规划+状态压缩