视觉生产技术

这是2020.8.24开始的视觉AI训练营第一天的打卡内容,这篇学习笔记是对视频内容的复制。通过今天的学习,我重新认识了AI在图像领域(或者说视觉领域)的应用。之前的我只是学习深度学习,包括图像识别等。现在我了解了如何将AI应用到生成图像中去。

一、定义和分类

定义:通过一个/一系列视觉过程,产出新的视觉表达

  • 产出:人或机器能够感知的图像视频,而不是标签或特征
  • 要求:新的,和输入不一样
  • 用AI实现传统上设计师通过PS, MAYA等的工作
    分类:
  • 生成:从0到1
  • 拓展:从1到N
  • 摘要:从N到1,浓缩出主要信息
  • 升维:从An到An+1,例如2D→3D
  • 增强/变换:从A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C

二、通用基础框架

  1. 请求:输入参数、素材、草案、成品(能不能做一个差不多的?)、案例
  2. 分发:生产类型

    1. 通用生成:参数+素材
    2. 素材合成:参数+素材
    3. 照图生图:参数+素材+成品
    4. 视频摘要:参数+素材+成品
    5. 编辑变换:参数+素材/案例
    6. 视觉拓展:参数+素材/案例
  3. 服务:视觉生产引擎(核心)

    1. 生成引擎:模型+知识
    2. 搜索引擎:素材+案例,生成困难,搜索匹配到一个差不多的,做一些改动
  4. 响应:输出图像/视频/3D

三、五个关键维度

  1. 满足视觉、美学表现(可看):要生成狗,不能生成一个四不像
  2. 合乎语义、内容逻辑(合理):要生成一幅蒙娜丽莎,脸不能是阿凡达的脸
  3. 结果的丰富性(多样):推荐页不能生成得差不多
  4. 提供用户预期的抓手(可控):用户可以在每次生成中添加条件,而不是受随机噪声的影响,不能满足诉求
  5. 带来用户、商业价值(可用):学术界→工业界,可持续

四、精细理解——分割抠图

  1. 难点:数据严重不足,标注成本高。例如要发丝精扣,扣半透明的婚纱,扣透明的玻璃杯。标一个图是什么和标一个图中的特定细节所需时间和成本是不同的。
  2. 解题思路:

    • Semantic Segmentation:语义分割,只要知道图片里的是人

    Instance Segmentation:实例分割,还要知道这些人是谁

    Image Matting:透明度、边缘精细度怎么样

    • 复杂问题拆解:粗mask估计+精准matting
    • 丰富数据样本:设计图像mask统一模型
  3. 模型框架

五、视觉生成——框架流程

六、视频生成——框架流程

七、视觉生成——视频封面

八、视觉编辑——视频植入

植入位检测与定位:

九、视觉编辑——视频内容擦除

去文字(台词、标语等),去LOGO(台标、广告等)

十、视觉编辑——画幅变化

十一、视觉编辑——图像尺寸变化

十二、视觉增强——视频增强

十三、视觉增强——人脸修复增强

十四、视觉增强——视频超分和插帧

老视频高清化,在网络条件不好的时候减少卡顿

十五、视觉增强——HDR色彩扩展

十六、视觉增强——风格迁移

一开始的GAN也可以做类似的事,但是整张图片一起变风格,而我们可能希望人的五官清晰一点,不要变成油画的风格。

十七、视觉迁移——颜色拓展

十八、视觉制造——核心逻辑

十九、视觉制造——包装几何生成

阿里云高校计划,陪伴两千多所高校在校生云上实践、云上成长。在这里你可以领用免费的cpu资源,还可以参加免费训练营,实践提高:https://developer.aliyun.com/adc/student/

达摩院视觉ai图像识别项目相关推荐

  1. 达摩院视觉AI训练营-搭建身份证识别系统-学习笔记

    搭建身份证识别系统目录 一.成为开发者 二.能力调试 三.能力开通 四.创建AccessKey 五.启动开发 参考案例 总结 一.成为开发者 请您使用阿里云账号登录阿里云视觉智能开放平台.如还未持有阿 ...

  2. 达摩院视觉AI训练营-视觉AI技术应用探索-学习笔记

    视觉生产技术目录 一.视觉生产定义 定义: 分类: 通用基础框架 五个关键维度 二.精细理解-寻微入里 分割抠图-难点: 分割抠图-解题思路: 分割抠图-模型框架: 分割抠图-人像抠图拓展: 分割抠图 ...

  3. 阿里云趣味视觉AI训练营-达摩院视觉AI介绍

    平台概述 使命:让天下没有难用的视觉AI 目标:聚合阿里内外视觉能力,打造以公共云API能力为内核的视觉开放平台,提供统一的产品体验.丰富案例和工具套件,让开发者和业务伙伴省心.安心的继承使用,构建A ...

  4. 达摩院视觉AI课-身份证识别

    功能描述 身份证识别可以识别二代身份证关键字段内容,关键字段包括:姓名.性别.民族.身份证号.出生日期.地址信息.有效起始时间.签发机关,同时可输出身份证区域位置和人脸位置信息. 应用场景 远程注册: ...

  5. 阿里达摩院做 AI 这两年

    整理 | Jane 出品 | AI科技大本营(ID:rgznai100) 2017 年 10 月的杭州云栖大会上,阿里巴巴正式宣布成立达摩院,未来三年将投入将超过 1000 亿人民币用于基础科学和颠覆 ...

  6. Python动物图像分割API简单调用实例演示,阿里达摩院视觉智能开放平台使用步骤

    阿里云视觉智能开放平台 - 动物分割 效果图演示 平台入口 创建获取密钥 本地图片转 URL 与密钥测试 代码调用演示 语义分割知识拓展 阿里云达摩院智能视觉开放平台 效果图演示 调用本地图片处理后可 ...

  7. 达摩院开放AI能力宝塔,万般法器助力新时代智能应用

    简介: 新时代下,AI正在以惊人的速度渗透到社会各界当中,这一次造就改变的将会是达摩院的ai技术. 21世纪电子支付打开了新纪元的第一扇门,人们的生活开始随着电子支付的普及发生骤变.支付宝完成了用手机 ...

  8. 趋势前沿 | 达摩院语音 AI 最新技术大全

    作者:陈谦.邓憧.付强.高志付.胡凯.罗浩能.纳跃跃.田彪.王雯.鄢志杰.张仕良.张庆林.郑斯奇(以姓氏首字母排序) 过去十年,语音 AI 从实验室走向应用,语音搜索.交互早已融入日常.本文将带你一览 ...

  9. “抗击”新型肺炎!阿里达摩院研发AI算法,半小时完成疑似病例基因分析

    利用技术辅助抗击疫情,阿里巴巴.百度等科技巨头各显身手. 此前,AI科技大本营采访报道了阿里达摩院<数十名工程师作战5天,阿里达摩院连夜研发智能疫情机器人>一文,后者为了解决客服人力不足的 ...

最新文章

  1. 【Ubuntu】虚拟机VirtualBox安装win7完整步骤
  2. DC-RC加固修补型砂浆
  3. Android 开发笔记 Google地图定位与路线显示
  4. 常用WebService一览表
  5. Bengio团队因果学习论文反思:为何机器学习仍在因果关系中挣扎?
  6. java学习(七)java中抽象类及 接口
  7. 数据库系统实训——实验二——单表查询
  8. python 用户的画像可视化呈现技术_一人一车一面:解读汽车大数据用户画像背后的AI技术...
  9. 面试官问:mysql中时间日期类型和字符串类型的选择
  10. mysql字符集修改保存_mysql更改已有数据表的字符集,保留原有数据内容
  11. [转]win7-64位系统添加access的ODBC数据源 看不到其它数据源的问题
  12. 新开博了,欢迎大家来做客!
  13. UDP Socket编程
  14. 天行健,君子自强不息
  15. python把两个图片合成一张图
  16. 华为使用计算机投屏要打开什么,华为手机怎么投屏到电脑?这些小屏变大屏的操作你会吗...
  17. 团队协作的重要性: 如何提升团队成员之间的协作能力
  18. leetcode2248. 多个数组求交集【290场周赛】(java)
  19. 【python】之pymysql模块,操作mysql数据库!
  20. 《Linux指令从入门到精通》——4.2 Linux下的简单文字模式文本编辑器

热门文章

  1. 谷歌公开自动驾驶新专利:通过眼睛注视向量,精确判断注意力
  2. PyQt5_股票技术图形查看工具
  3. 【YBT高效进阶】1基础算法/1逆推算法/2奇怪汉诺塔
  4. 算法分析与设计(优化问题近似不可近似算法杂项)
  5. c语言切蛋糕问题算法,从“切蛋糕问题”谈到欧拉#
  6. Android系统权限和root权限的获取以及应用权限列表
  7. 最速下降法(适用于求二阶极小值)
  8. 1.1程序设计(C语言基础)
  9. tinyalsa(tinymix/tinycap/tinyplay/tinypcminfo)使用介绍
  10. 很多时候在考虑设计而不是考虑编码的时候, 接口才真正清晰,明朗的把它的原理展现给你。