视觉生产技术

这是2020.8.24开始的视觉AI训练营第一天的打卡内容，这篇学习笔记是对视频内容的复制。通过今天的学习，我重新认识了AI在图像领域（或者说视觉领域）的应用。之前的我只是学习深度学习，包括图像识别等。现在我了解了如何将AI应用到生成图像中去。

一、定义和分类

定义：通过一个/一系列视觉过程，产出新的视觉表达

产出：人或机器能够感知的图像视频，而不是标签或特征
要求：新的，和输入不一样
用AI实现传统上设计师通过PS, MAYA等的工作
分类：
生成：从0到1
拓展：从1到N
摘要：从N到1，浓缩出主要信息
升维：从An到An+1，例如2D→3D
增强/变换：从A到B
插入/合成：A+B=C
擦除：A-B=C

二、通用基础框架

请求：输入参数、素材、草案、成品（能不能做一个差不多的？）、案例
分发：生产类型
1. 通用生成：参数+素材
2. 素材合成：参数+素材
3. 照图生图：参数+素材+成品
4. 视频摘要：参数+素材+成品
5. 编辑变换：参数+素材/案例
6. 视觉拓展：参数+素材/案例
服务：视觉生产引擎（核心）
1. 生成引擎：模型+知识
2. 搜索引擎：素材+案例，生成困难，搜索匹配到一个差不多的，做一些改动
响应：输出图像/视频/3D

三、五个关键维度

满足视觉、美学表现（可看）：要生成狗，不能生成一个四不像
合乎语义、内容逻辑（合理）：要生成一幅蒙娜丽莎，脸不能是阿凡达的脸
结果的丰富性（多样）：推荐页不能生成得差不多
提供用户预期的抓手（可控）：用户可以在每次生成中添加条件，而不是受随机噪声的影响，不能满足诉求
带来用户、商业价值（可用）：学术界→工业界，可持续

四、精细理解——分割抠图

难点：数据严重不足，标注成本高。例如要发丝精扣，扣半透明的婚纱，扣透明的玻璃杯。标一个图是什么和标一个图中的特定细节所需时间和成本是不同的。
解题思路：
- Semantic Segmentation：语义分割，只要知道图片里的是人
Instance Segmentation：实例分割，还要知道这些人是谁

Image Matting：透明度、边缘精细度怎么样
- 复杂问题拆解：粗mask估计+精准matting
- 丰富数据样本：设计图像mask统一模型
模型框架

五、视觉生成——框架流程

六、视频生成——框架流程

七、视觉生成——视频封面

八、视觉编辑——视频植入

植入位检测与定位：

九、视觉编辑——视频内容擦除

去文字（台词、标语等），去LOGO（台标、广告等）

十、视觉编辑——画幅变化

十一、视觉编辑——图像尺寸变化

十二、视觉增强——视频增强

十三、视觉增强——人脸修复增强

十四、视觉增强——视频超分和插帧

老视频高清化，在网络条件不好的时候减少卡顿

十五、视觉增强——HDR色彩扩展

十六、视觉增强——风格迁移

一开始的GAN也可以做类似的事，但是整张图片一起变风格，而我们可能希望人的五官清晰一点，不要变成油画的风格。

十七、视觉迁移——颜色拓展

十八、视觉制造——核心逻辑

十九、视觉制造——包装几何生成

阿里云高校计划，陪伴两千多所高校在校生云上实践、云上成长。在这里你可以领用免费的cpu资源，还可以参加免费训练营，实践提高：https://developer.aliyun.com/adc/student/

达摩院视觉ai图像识别项目相关推荐

达摩院视觉AI训练营-搭建身份证识别系统-学习笔记
搭建身份证识别系统目录一.成为开发者二.能力调试三.能力开通四.创建AccessKey 五.启动开发参考案例总结一.成为开发者请您使用阿里云账号登录阿里云视觉智能开放平台.如还未持有阿 ...
达摩院视觉AI训练营-视觉AI技术应用探索-学习笔记
视觉生产技术目录一.视觉生产定义定义: 分类: 通用基础框架五个关键维度二.精细理解-寻微入里分割抠图-难点: 分割抠图-解题思路: 分割抠图-模型框架: 分割抠图-人像抠图拓展: 分割抠图 ...
阿里云趣味视觉AI训练营－达摩院视觉AI介绍
平台概述使命:让天下没有难用的视觉AI 目标:聚合阿里内外视觉能力,打造以公共云API能力为内核的视觉开放平台,提供统一的产品体验.丰富案例和工具套件,让开发者和业务伙伴省心.安心的继承使用,构建A ...
达摩院视觉AI课-身份证识别
功能描述身份证识别可以识别二代身份证关键字段内容,关键字段包括:姓名.性别.民族.身份证号.出生日期.地址信息.有效起始时间.签发机关,同时可输出身份证区域位置和人脸位置信息. 应用场景远程注册: ...
阿里达摩院做 AI 这两年
整理 | Jane 出品 | AI科技大本营(ID:rgznai100) 2017 年 10 月的杭州云栖大会上,阿里巴巴正式宣布成立达摩院,未来三年将投入将超过 1000 亿人民币用于基础科学和颠覆 ...
Python动物图像分割API简单调用实例演示，阿里达摩院视觉智能开放平台使用步骤
阿里云视觉智能开放平台 - 动物分割效果图演示平台入口创建获取密钥本地图片转 URL 与密钥测试代码调用演示语义分割知识拓展阿里云达摩院智能视觉开放平台效果图演示调用本地图片处理后可 ...
达摩院开放AI能力宝塔，万般法器助力新时代智能应用
简介: 新时代下,AI正在以惊人的速度渗透到社会各界当中,这一次造就改变的将会是达摩院的ai技术. 21世纪电子支付打开了新纪元的第一扇门,人们的生活开始随着电子支付的普及发生骤变.支付宝完成了用手机 ...
趋势前沿 | 达摩院语音 AI 最新技术大全
作者:陈谦.邓憧.付强.高志付.胡凯.罗浩能.纳跃跃.田彪.王雯.鄢志杰.张仕良.张庆林.郑斯奇(以姓氏首字母排序) 过去十年,语音 AI 从实验室走向应用,语音搜索.交互早已融入日常.本文将带你一览 ...
“抗击”新型肺炎！阿里达摩院研发AI算法，半小时完成疑似病例基因分析
利用技术辅助抗击疫情,阿里巴巴.百度等科技巨头各显身手. 此前,AI科技大本营采访报道了阿里达摩院<数十名工程师作战5天,阿里达摩院连夜研发智能疫情机器人>一文,后者为了解决客服人力不足的 ...

达摩院视觉ai图像识别项目