AI算法又整新活，去海边跳一支舞！

大家好，我是K同学啊！

昨天逛某知名网站的时候，发现了一个有趣的算法，分享给大家

一张任意背景的图片，实现任意切换背景，感受一下：

放个视频，感受更强烈：

MODNet算法展示！

MODNet

MODNet是一个仅需RGB图片输入的实时人像抠图模型。

模型学习分为三个部分：语义估计（Semantic Estimation）、细节预测（Detail Prediction）和语义细节融合（Semantic-Detail Fusion）。

语义估计（Semantic Estimation）：与现有的多模型方法类似，MODNet的第一步是在输入图像中定位人。不同之处在于，这里只能通过编码器来提取高级语义。MODNet的低分辨率分支，它有两个主要优势。首先，语义估计变得更加有效，因为它不再由包含解码器的单独模型来完成。其次，高级表示(I)有助于后续分支和联合优化。我们可以应用任意的CNN骨干toS。为了促进实时交互，我们采用了MobileNetV2[35]架构，这是一种为移动设备开发的独立模型。

细节预测（Detail Prediction）：使用了高分辨率分支 D 处理前景肖像周围的过渡区域，它采用 I、S(I) 和来自 Sas 输入的低级特征。重用低级特征的目的是减少D的计算开销。此外，作者在以下三个方面进行就进一步简化：

D包含比S更少的卷积层；
为D中的卷积层选择了一个小的通道数；
我们不保持整个D的原始输入分辨率。在实践中，D由12个卷积层组成，其最大通道数为64。特征图分辨率在第一层下采样到1/4，在后两层恢复。此设置对细节预测的影响可以忽略不计。

都想要的

论文地址：https://github.com/ZHKKKe/MODNet
项目地址：https://arxiv.org/pdf/2011.11961.pdf

如果你懒得去看论文也不想敲代码，请看下面，作者早已洞悉大家的急迫上手的心情，代码直接给我们准备好了，只需点一个「运行」按钮即可。

图像：https://colab.research.google.com/drive/1GANpbKT06aEFiW-Ssx0DQnnEADcXwQG6?usp=sharing
视频：https://colab.research.google.com/drive/1Pt3KDSc2q7WxFvekCnCLD8P0gBEbxm6J?usp=sharing

把发丝都能给扣出来，就很厉害了

最后再送大家一本，帮助大家拿到 BAT 等一线大厂 offer 的数据结构刷题笔记，是谷歌和阿里的大佬写的，对于算法薄弱或者需要提高的同学都十分受用（提取码：9go2 ）：

谷歌和阿里大佬的Leetcode刷题笔记

以及我整理的7K+本开源电子书，总有一本可以帮到你