Class 1[导论-视觉AI技术应用探索]

  • 视觉生产技术
    • 一、定义和分类
      • 1、定义
      • 2、分类
      • 3、通用基础框架
      • 4、五个关键维度
    • 二、精细理解——分割抠图
      • 1、难点
      • 2、解题思路
      • 3、效果展示
    • 三、视觉生成——从无到有
      • 1、鹿班
      • 2、AlibabaWood
    • 四、视觉编辑——移花接木
      • 1、视频植入
      • 2、视频内容擦除
      • 3、画幅变化
      • 4、图像尺寸变化
    • 五、视觉增强——修旧如新
      • 1、视频增强
      • 2、实例
    • 六、视觉制造——由虚入实
    • 七、视觉开放平台

【阿里云】高校学生“在家实践”计划网址: https://developer.aliyun.com/adc/student/

视觉生产技术

一、定义和分类

1、定义

  • 一类是视觉理解,比如检测、识别、分割等;
  • 另外一类是视觉生产,也可以理解为怎么去产生视觉,指通过一个/一系列视觉过程,产出新的视觉表达。

2、分类

视觉生产主要包括生成、拓展、摘要、升维,另外还有增强/ 变换、插入/ 合成、擦除等。

  • 生成:从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1
  • 增强/变换:从A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C

3、通用基础框架

可能在细节上有细微不同,但是一般来讲其逻辑是类似的,包括请求(Request)、分发(Dispatch)、服务(Service)和响应(Response)四大部分。

4、五个关键维度

  • 可看:满足视觉/美学表现
  • 合理:合乎语义/内容逻辑
  • 多样:保证结果的丰富性
  • 可控:提供用户预期的抓手
  • 可用:带来用户/商业价值

二、精细理解——分割抠图

  • 识别:知道是什么,比如人的识别、物的识别;
  • 检测:识别+知道在哪,比如缺陷检测、多目标检测;
  • 分割:识别+检测+知道每一个像素是什么。
    • 视觉分割是生产的必要前置步骤。

1、难点

复杂背景、遮挡、要求高精度(如发丝精抠)、边缘反色、透明材质、多尺度/目标

2、解题思路

  • 复杂问题拆解:粗mask估计+精准matting
  • 丰富数据样本:设计图像mask统一模型

3、效果展示




三、视觉生成——从无到有

1、鹿班

鹿班是针对平面图像设计生成的产品,其视觉生成大概过程包括理需求、定草图、选状态、调细节、生成图、评好坏6个步骤。

  • 照图生图:参考原图,将风格、布局等信息学习并迁移到目标数据上;
  • 个性化设计:多元化设计风格,结合商品品类、投放场景、目标客群的差异进行定制化设计。

2、AlibabaWood

当下最流行的媒体莫过于短视频,而AlibabaWood专注于短视频的生成,同时还有剧本生成、智能文案生成、自动剪辑、智能音乐推荐等实用功能。它的框架流程总体包括素材准备、基础特效、智能特效和智能编排四大步骤。

  • 视频摘要
  • 视频封面

四、视觉编辑——移花接木

1、视频植入

视频植入就是在视频中加入一些本来没有的内容,当前其应用最广泛的就是广告。
视频植入是一项非常复杂的技术,需要考虑到方方面面,比如广告位检测、广告位跟踪等等,有时会遇到遮挡、移出屏幕等复杂情况跟踪,而且在视频植入之后还要考虑广告是否能够跟视频细节匹配、光影渲染等问题。

2、视频内容擦除

实用技术有字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除等,其核心挑战与亮点是分割,只有更精确的分割才能够精确的擦除。

3、画幅变化

在不同设备上播放视频时可能会出现尺寸不匹配的情况,这时候就要进行画幅变化,变化之后为了有完整的视觉效果,需要进行内容补全。

4、图像尺寸变化

事先准备好的图片在不同尺寸不同场合可以自动变化,适应各种情况。

五、视觉增强——修旧如新

1、视频增强

对视频效果的增强,包括包括单点核心技术和复合应用技术。

  • 单点核心技术:人脸增强、去噪声、通用场景超分、LDR升HDR、倍频、去划痕
  • 复合应用技术、人脸修复、标清转高清、LDR-HDR互转、4K重生、(磁带)老片修复、端上实时增强

2、实例

  • 人脸修复增强:人脸是最重要的目标对象,可以用视觉增强技术对人脸进行修复增强,突出主要信息。
  • 渲染图超分:把低分辨率图像放大到与高清原图一样的清晰度。
  • 视频超分:除了对图像进行超分外,还可以对视频进行超分,使得视频更加清晰,增加显示效果。
  • 视频插帧:众所周知,帧率越高观感越流畅。对视频进行插帧可以有效的减少视频的卡顿感。
  • HDR 色彩扩展:除了帧率之外,色彩也是一个很重要的元素,也是视频高清的一个必要条件,运用视觉增强技术可以很好进行HDR 色彩扩展,增强视频显示效果。
  • 风格迁移与颜色拓展:视觉增强还可以用来进行风格迁移,比如某些相机软件,可以将一些名画的风格迁移到用户所拍摄的照片上,实现照片的风格多样化。另外,视觉增强还可以进行颜色的拓展,同时产生不同色彩搭配的效果,满足不同的需求和色彩的多样性。

六、视觉制造——由虚入实

我们可以利用视觉制造技术来解决实际生产过程中面临的效率低、协同差、定制难等问题。

七、视觉开放平台

上面所提到的技术都可以在阿里巴巴的视觉智能开放平台https://vision.aliyun.com/上找到。划重点:目前还是免费使用


达摩院特别版-视觉AI训练营Day1——学习笔记相关推荐

  1. 阿里云【达摩院特别版·趣味视觉AI训练营】笔记2

    阿里云[趣味视觉AI训练营]笔记2 一.笔记说明 二.正文 2.1 人体分割实验 2.2 图像人脸融合实验 三.转载说明 一.笔记说明 本博客专栏<阿里云[达摩院特别版·趣味视觉AI训练营]&g ...

  2. 阿里云【达摩院特别版·趣味视觉AI训练营】笔记4

    阿里云[趣味视觉AI训练营]笔记4 一.笔记说明 二.正文 2.1 调用前准备 2.1.1 激活AccessKey 2.1.2 开通服务 2.1.3 安装SDK 2.1.4 准备OSS图像链接 2.2 ...

  3. 阿里云【达摩院特别版·趣味视觉AI训练营】笔记1

    阿里云[趣味视觉AI训练营]笔记1 一.笔记说明 二.正文 2.1 视觉智能开放平台简介 2.2 视觉智能开放平台初体验 三.转载说明 一.笔记说明 本博客专栏<阿里云[达摩院特别版·趣味视觉A ...

  4. 【阿里云高校计划】阿里云视觉AI训练营 DAY1 AI视觉生产技术简述

    目录 写在前面 定义和分类 定义 分类 通用基础框架 五个关键维度 分割抠图 分割抠图 难点 解题思路 模型框架 部分扩展 视觉生成 以平面设计图像生成平台--<鹿班>为例 框架流程 鹿班 ...

  5. 达摩院特别版·趣味视觉AI训练营--Class5-10分钟开发一款“一键二次元化“AI小程序

    1.创建人像卡通化应用 登录云开发平台.通过以下链接 https://workbench.aliyun.com/application 登录 阿里云-云开发平台 ,使用您自己的阿里云账号登录.如果还没 ...

  6. 达摩院视觉AI训练营-搭建身份证识别系统-学习笔记

    搭建身份证识别系统目录 一.成为开发者 二.能力调试 三.能力开通 四.创建AccessKey 五.启动开发 参考案例 总结 一.成为开发者 请您使用阿里云账号登录阿里云视觉智能开放平台.如还未持有阿 ...

  7. 达摩院视觉AI训练营-视觉AI技术应用探索-学习笔记

    视觉生产技术目录 一.视觉生产定义 定义: 分类: 通用基础框架 五个关键维度 二.精细理解-寻微入里 分割抠图-难点: 分割抠图-解题思路: 分割抠图-模型框架: 分割抠图-人像抠图拓展: 分割抠图 ...

  8. 达摩院趣味视觉AI训练营class4

    达摩院趣味视觉AI训练营class4 图像识别 操作示范 整体框架结构介绍 图像识别 操作示范 1.开通场景识别和表情识别服务. 2.像class3一样下载好官方demo,添加依赖,修改accessI ...

  9. 极客日报:达摩院实现全球最大AI预训练模型;苹果3nm芯片或将2023年问世;微软官宣加入JCP计划

    一分钟速览新闻点! 达摩院实现全球最大AI预训练模型 清华北大等18所高校设立集成电路博士授权点 购物平台推出"协助退订营销短信"功能 抖音内测"听视频模式": ...

最新文章

  1. C# 2进制、8进制、10进制、16进制...各种进制间的轻松转换
  2. vue-cli 官方模板webpack-simple的npm run dev 与npm run bulid的一些问题
  3. unity导出fbx模型_ARTBOOK艺书专栏:Fbx导出杂谈
  4. 十进制中正整数N中1的个数
  5. 2017ACM/ICPC广西邀请赛-重现赛 1007.Duizi and Shunzi
  6. linux系统制作macos启动,MacOS下制作启动盘
  7. 智稳双全--AnalyticDB如何助力菜鸟运配双十一
  8. 邮件发送类_10 分钟实现 Spring Boot 发生邮件功能
  9. signature=8405d26e250ad07c44560263cb1d4fc0,Systems for analyzing microtissue arrays
  10. jq之callback
  11. 还没休年假的小伙伴注意了...事关你的合法权益
  12. HttpClient3.x之Get请求和Post请求示例
  13. android 消息循环滚动条,Android 电池电量进度条,上下滚动图片的进度条(battery)...
  14. 如何利用极致业务基础平台做一个通用企业ERP之十一销售出库单设计
  15. 【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏...
  16. 在马来西亚如何回国?
  17. 写技术博客的一些心得体会
  18. 傲游研发中心在京成立
  19. CAS单点登录(SSO)介绍及部署
  20. 还有哪些不错的正规Java培训机构

热门文章

  1. ObjectARX 2020 Wizards文件内容
  2. word2013 发布csdn博客
  3. 关于分布式存储,这是你应该知道的
  4. ASP 3.0高级编程(四)
  5. 与自己赛跑 迎5G而上 ,九州云做边缘计算实力玩家
  6. Java读取mapinfo格式_超齐全的MapInfo数据格式详细介绍
  7. Leetcode日常刷码(5)解决最大利润问题(Java)
  8. EBS 销售订单行单条一次或多次发运确认API(wsh_new_delivery_actions.confirm_delivery)详解
  9. JEECG 3.6.6 新春版本发布,企业级JAVA快速开发平台
  10. 3D 定制 女仆2/ CM 3D2 制作精美动画必备软件下载