iPhoneX已经在人工智能领域迈出了一大步。

发布会之后,网友纷纷表示新一代苹果毫无新意,然而Ai锐见可不这么认为!

像素级图像分割、精准的人体关键点检测,新iPhoneX集人工智能前沿技术于一身,难怪售价这么高!

2018年9月13日凌晨三点钟,国内果粉们顶着困意看完了发生在一万公里外的苹果秋季发布会。发布会上,苹果拿出了三款搭载A12仿生(Bionic)芯片的全新苹果手机和新一代苹果智能手表(具体产品可以点击Ai锐见13日凌晨发文:能救命的Apple Watch和双卡双待的iPhone来了,你准备好了吗?)。

新发布产品种最高端的iPhoneXs Max顶配在国内售价破万元,堪称史上最豪华阵容。保留了刘海屏、没有吸人眼球的外观设计,单单升级处理器和内存, 为什么这次iPhone售价如此之高,抱着疑问,Ai锐见从头到尾仔细研究了两个小时发布会全过程之后,才理解了苹果煞费苦心。

像素级图像分割、精准的人体关键点检测,新iPhoneX集人工智能前沿技术于一身,难怪售价这么高!

当介绍到iPhoneXr的摄像功能时,席勒这样说:

他表示,原生摄像做了个聚焦功能,然后效果是这样的:

一张神似出自单反相机的人像,但实际是算法处理出来的,原先很多手机都有这个功能。就这张图可以说,人物边缘选择非常精准,效果惊艳。看似和国产高端机拍出来的效果没啥区别,实际上这里面大有学问:

敲黑板!Mark重点:景深摄像

来看一张普通双摄智能手机(20MP+16MP)拍摄“大光圈”效果后得到的景深可调图像:

乍一看整体效果非常棒,几千元的双摄手机派出了单反的效果,但是我们注意到了细节:

如果后期处理算法没能检测出物体的边缘准确位置,那么加入景深效果就会如上图所示。

也就是说,为了达到单反大光圈的景深摄影,单单使用大光圈、高像素、双摄的手机,达不到摄影爱好者的要求。


一张由12MP、f/1.8光圈手机单摄像头完成的图像,如果我们仔细观察这张照片的细节,会感叹新一代iPhone的处理能力

景深摄影,是手机ai摄像的一道坎,卡在了算法和算力(运算能力)。

苹果官网也对深度图进行了一句话的简单介绍:

那么,这项手机摄像技术的核心技术在哪里?

敲黑板!Mark重点:像素级语义分割

不得不提高iPhoneXr另一项特技:一键换背景

iPhoneXr的一键换背景功能,可以让用户完成人像背景百变。

为什么说这两项功能很强大?首先看两者有共同的算法原理:像素级语义分割。

什么是语义分割?正如下图:

(a)原图,(b)语义分割
(c)实例分割,保留实体,去除背景
(d)全景分割,分割全部,同类物体也区分

语义分割,一项用于计算机视觉最前沿的算法,目前广泛用于基于摄像头传感的自动驾驶系统:摄像头采回来的影像通过语义分割,让汽车分辨前方的车辆、行人、路牌等。分割嘛,区分不同物体。人的脑袋中也自带这种算法,只不过我们平时不会注意到它的存在。

像素级的语义分割,顾名思义,就是将场景分割效果细致到像素点。这种算法在自动驾驶汽车上要求达到1ms级的响应速度,很难做到手机这样的分割效果,但在手机上几秒钟之内图像分割就可以有很好的用户体验了。

发表于2017年的ACM Multimedia会议上一家中国研究团队的工作成果,通过像素级语义分割,实现家具图片背景的一秒更换,未来可以给购物者多方位的产品视觉参考。

一键换背景

甚至还可以结合面部检测实现“一键换美装”

然而目前这些功能还应用在PC端或者是借助云计算的力量来实现。

基于A12的新一代iPhoneX,是革命性的:因为,以上复杂算法都可以在一台手机上完成。


注意后三个处理步骤:面部检测、面部标界、分割

iPhoneXr的“一键换背景”、景深摄像,真正达到了:

“原先只能通过搭建摄影棚或花时间PS出来的照片,现在只要几秒种。”

大部分摄影师实现的高质量图像效果,只要借助iPhoneXr在一秒之内完成!

然而,iPhoneX还有一重大举措:开放出基于人工智能的应用开发平台。

另一项炫酷的第三方应用程序HomeCourt,在iPhoneX系列上实现了下面这个功能:

人体骨骼关键点检测(Pose Estimation)

人体骨骼关键点检测的目的是让机器“看到”人的行为,在视频监控领域,该项技术被用于检测画面中人的特殊行为;机器人配备了这项能力则可以对用户“察言观色”,是智能人机交互一大进步。苹果的搭载A12处理器为新一代具备人机交互的智能手机提供了一个应用程序平台。

基于A12开发的应用代表之一:HomeCourt


iPhoneXs发布会视频中,黑色上衣男子起跳投篮,HomeCourt绘制出了该男子的体态点线图。旁边负责辅助训练的白衣男子并未被检测分析,说明这个应用程序可以自定义跟踪被检测对象。

行为检测是一项非常具有挑战的任务,堪称在人工智能一块“难啃的骨头”。实际生活应用行为检测功能不那么容易,视觉信息提取设备需要兼顾场景中复杂的光线、动态的人物、突变的姿态,实时检测的算力瓶颈也限制了这项功能的移动端化。实验表明,为了让机器区分人的多态行为,至少需要绘制13个关键点,这些关键点分布在人体关节、腕部、头部等。

2015年Leonid Pishchulin等人发表《DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation》,这篇文章基于CNN(卷积神经网络)提出了有别于先前检测策略,可以分辨场景中距离相近的多个人的肢体行为。这篇文章影响广泛,具有相当大的启发性,为近几年的姿态检测研究奠定了一个方向,即将深度神经网络与行为检测相结合。

基于CNN训练出来的模型,准确率领先传统算法一大截

(图片来自CSDN,题目《人体骨骼关键点检测综述》,作者 SIGAI_CSDN)

在苹果的这款应用程序中,我们也可以看到这项技术的优势体现:准确的检测目标的行为和姿态。

当然,这项技术得以在移动设备上实现,与A12适用于神经网络运算能力密切相关。

行为检测算法的研究在深度神经网络的应用下突飞猛进。公共安全领域的行为检测技术已经帮助监控系统识别行动可疑的人物,或是发现需要紧急帮助的人,例如老人摔倒、心脏病突发者,甚至是走失的儿童。

百度云计算提供在线人体关键点检测平台

各大云平台也在布局人体行为检测的服务,例如百度、阿里云、旷视科技(Face++)。

同样的,苹果这次升级的AR平台也将在AppStore大有市场。

甚至可以与好友在AR游戏中合作


渲染相当棒的大型3D游戏画面,画质堪比家用游戏主机

有没有发现以上图片中出现的功能之间的共同点?

那就是 : 高负荷图形计算压力。

也就是说,为了实现绝大部分功能的实时化处理,苹果为此搭载的A12处理器才是产品发布的核心。

A12才是最大卖点


这些软件处理的背后,你会发现一个关键词汇:神经网络。如果要加上一个修饰词,则是深度神经网络。

因为当下手机图像相关的功能非常依赖基于深度神经网络的后期处理,所谓ai芯片即内部架构是为了适用于运算神经网络数据而设计的特殊的运算核心,这就是为什么华为这样的大厂会将目标定为开发新一代手机Ai芯片。单一的为CPU搭配个GPU已经不能满足优质的照片处理需求。

实际上去年华为和苹果已经打响了手机ai芯片的战争,苹果推出A11搭载在去年最新的iPhoneX上,同时将自己最新的处理器命名为A11 Bionic,主要就是因为其内置了人工智能“神经引擎”。华为紧随其后,高调推出麒麟970,制式10nm,性能为上一代960的两倍,官方称这款国产芯在CPU、GPU基础上还搭载了一个强大嵌入式神经网络处理器NPU。

去年麒麟970发布会

然而,这么快的CPU,和用户有什么关系?这个问题留给华为在未来发挥。

实际上,拿13日苹果发布会相比麒麟980的问世,我发现了两个有趣的现象:

一、华为7nm一出,周边合作厂商的股价上涨

二、苹果7nm一出,苹果公司股价微跌(北京9月13日)

三、苹果发布第二天(北京9月14日),股价回涨

实际上,无论7nm还是14nm,手机真正能带给用户的:是体验;速度,只是体验的一部分。

从图像处理到内嵌人工智能模型的应用程序,苹果最新iPhone系列产品都在尝试容纳最前沿的算法技术,不仅是FaceID,iPhoneX系列常用原生功能都开始需要借助A12强大的神经网络计算功能。在发布之后App开发商也会进一步借助A12的特性,设计出原先我们想象不到的应用程序。

苹果目的时通过A12打造新开发者生态圈,原先只能通过云计算实现的运算量现在放到了新iPhoneX上做,实现了实时的智能检测,可以说实现了很多原先不可能的app功能。未来能够做到出类拔萃的app开发商也会围绕着这些运算进行。我们可以看到苹果秉承这三条战略:

1,超前于的其他厂商的技术视野;

2,带给用户融合最前沿技术的原生应用,“体验”即一切;

3,硬件不花哨,新一代应用开发平台是关键。

徒有一个强大的“计算器”,没有优质、互相推进的应用程序接口,麒麟系列980、970计算速度再快也没有用。苹果做的就是用户-app开发商之间的生态系统,因为在这个平台上,三者都有利可图。

用户通过前沿的app内置功能创作、体验;开发商在appstore上收取费用;苹果在背后提供硬件、系统支持。目前在华为推出新一代基于7nm智能手机生态圈之前,除了快,用户不会有任何值得惊叹的体验。

所以苹果秉承一贯作风,卖的不是硬件,而是算法。

软件,才是苹果的高价值区。

也许,盯着苹果硬件配置价格表,不会让人有任何购买冲动。苹果的战略是让人亲身体会产品带给人的感受。所以正像库克在发布会的一开始表示,苹果自己是retail(零售)界的改革者,而不是手机界改革者。每年苹果实体店拥有500milion的流量,由此可见一斑。

就在库克结束了今年秋季产品发布会之后几分钟,华为董事成员余承东发微博:

为在未来将会推出对标苹果什么样技术平台,我们拭目以待,仅仅通过增大内存容量、CPU快一些已经不能满足当今智能手机市场了,也许这个市场还在教育阶段,并不是所有需求都集中在Ai技术上。

也许苹果iPhoneX是一个不可逆创新。什么叫不可逆创新,即大家之前不觉得它有用,但用过之后都觉得它很有必要。所以,期待新一代iPhoneX在Ai智能手机市场上的发挥。

本文章图片来源于网络,版权归原作者所有。

-End-

深度长文:新iPhoneX凭什么卖这么贵?相关推荐

  1. 深度长文:表面繁荣之下,人工智能的发展已陷入困境

    深度长文:表面繁荣之下,人工智能的发展已陷入困境 http://blog.sina.com.cn/s/blog_cfa68e330102zbyx.html 来源:<连线>杂志 现在,深度学 ...

  2. 【深度长文】细思极恐的YouTube可跳过广告

    [预警]:Youtube的可跳过广告尽管极其精妙(看完你就知道了),但其实并没有到细思极恐的程度:同时本文也并非深度长文,长是比较长,深不深度就另说了!作为一个广告PM,这种标题党行为都是为了优化点击 ...

  3. 深度长文:地球真的进入“人类世”时期了吗?

    者按:进入21世纪以来,"人类世"一词常被用来非正式地描述地球当前所处的地质年代.顾名思义,"人类世",指的就是人类影响地质记录的时期.虽然这一概念已经提出多年 ...

  4. 【深度长文】循序渐进解读Oracle AWR性能分析报告

    [深度长文]循序渐进解读Oracle AWR性能分析报告 原创 2016-10-19 韩锋 DBAplus社群 http://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEw ...

  5. [深度长文]项目经理到底有多惨?安心睡觉都别想!

    据说,标题加上[深度长文]四个字,会将点击率提升一个等级,而文章到底是否深度其实并不重要!--尼古拉斯*王不留 文 / 王不留(微信公众号:程序员生存指南) 我们做行业软件的项目,按时间敏感程度可以分 ...

  6. 谷歌发布深度学习新算法,适用于真实机器人的技能学习

    https://www.toutiao.com/a6649215346496504327/ 2019-01-22 15:11:28 通过这种名叫SAC(柔性致动/评价)的强化学习算法,机器人能很快地完 ...

  7. 深度学习新算法,完成字里行间的情绪识别

    深度学习新算法,完成字里行间的情绪识别 发表于2013-10-12 11:41| 40891次阅读| 来源Wired| 68 条评论| 作者Daniela Hernandez 深度学习人工智能机器学习 ...

  8. 一文看懂深度学习新王者「AutoML」:是什么、怎么用、未来如何发展?

    原作:George Seif 夏乙 安妮 编译整理 量子位 出品 | 公众号 QbitAI AutoML和神经架构搜索(NAS),是深度学习领域的新一代王者. 这些方法能快糙猛地搞定机器学习任务,简单 ...

  9. ES5-ES6-ES7_字符串与JOSN格式的数据相互转换以及深度克隆新对象

    这篇文章主要来讲HTML5中的新方法:parse()把字符串转换成josn格式的数据和stringify()把josn格式的数据转换成字符串 eval()方法的回顾 eval()方法可以将任何字符串解 ...

最新文章

  1. Linux学习之路4——文件IO打开、创建、读写操作
  2. Android 高级进阶之overdraw分析及解决
  3. Python编程基础:第十九节 索引Index Operator
  4. 和谐 平等_平等还是认同?
  5. php msi安装教程,如何判断msi安装包程序是否安装及安装路径
  6. 科技最前沿!Adobe提出自动生成高质量合成图像新方法
  7. nQueen问题java实现
  8. eplan连接定义点不显示_显示无线桥接成功,但是连接副路由器的设备依然上不去网的问题...
  9. Linux学习笔记之权限与命令之间的关系(重要)及文件与目录知识总结
  10. 设计模式---抽象工厂模式(C++实现)
  11. 9.template -- basic concepts
  12. java流程语句_java流程控制语句总结
  13. 安卓pdf阅读器_PDF阅读用哪款软件好?推荐这7款,简单又好用!
  14. vasp计算脚本放在服务器的位置,vasp计算所需服务器配置
  15. Java进阶之路,Java程序员职业发展规划
  16. 职场干货 | 如何让你的自我介绍,快速打动面试官
  17. day21_Lambda表达式、函数式接口
  18. [图形学] 基于图像的照明:镜面反射
  19. 理解镜像、容器和存储驱动
  20. F-散度(F-divergence)

热门文章

  1. 多智能体深度强化学习(MADRL)在大规模交通信号灯控制中的应用
  2. 前端字体压缩(免费简单易上手)
  3. 菱声网络音响接口对接(播放音频文件)
  4. 7-1 宿舍谁最高?
  5. 基于ARM板s3c2440---wifi网卡
  6. sql 查询排名 排名可并列
  7. px,in,mm,pt,dp,dip,sp 之间的换算公式以及区别 屏幕密度
  8. 由爆火的“羊了个羊”浅谈小游戏开发
  9. 知识付费 知识变现的商业逻辑与实操指南
  10. [javaws]jnlp介绍及使用