达摩院视觉ai图像识别项目
视觉生产技术
这是2020.8.24开始的视觉AI训练营第一天的打卡内容,这篇学习笔记是对视频内容的复制。通过今天的学习,我重新认识了AI在图像领域(或者说视觉领域)的应用。之前的我只是学习深度学习,包括图像识别等。现在我了解了如何将AI应用到生成图像中去。
一、定义和分类
定义:通过一个/一系列视觉过程,产出新的视觉表达
- 产出:人或机器能够感知的图像视频,而不是标签或特征
- 要求:新的,和输入不一样
- 用AI实现传统上设计师通过PS, MAYA等的工作
分类: - 生成:从0到1
- 拓展:从1到N
- 摘要:从N到1,浓缩出主要信息
- 升维:从An到An+1,例如2D→3D
- 增强/变换:从A到B
- 插入/合成:A+B=C
- 擦除:A-B=C
二、通用基础框架
- 请求:输入参数、素材、草案、成品(能不能做一个差不多的?)、案例
分发:生产类型
- 通用生成:参数+素材
- 素材合成:参数+素材
- 照图生图:参数+素材+成品
- 视频摘要:参数+素材+成品
- 编辑变换:参数+素材/案例
- 视觉拓展:参数+素材/案例
服务:视觉生产引擎(核心)
- 生成引擎:模型+知识
- 搜索引擎:素材+案例,生成困难,搜索匹配到一个差不多的,做一些改动
- 响应:输出图像/视频/3D
三、五个关键维度
- 满足视觉、美学表现(可看):要生成狗,不能生成一个四不像
- 合乎语义、内容逻辑(合理):要生成一幅蒙娜丽莎,脸不能是阿凡达的脸
- 结果的丰富性(多样):推荐页不能生成得差不多
- 提供用户预期的抓手(可控):用户可以在每次生成中添加条件,而不是受随机噪声的影响,不能满足诉求
- 带来用户、商业价值(可用):学术界→工业界,可持续
四、精细理解——分割抠图
- 难点:数据严重不足,标注成本高。例如要发丝精扣,扣半透明的婚纱,扣透明的玻璃杯。标一个图是什么和标一个图中的特定细节所需时间和成本是不同的。
解题思路:
- Semantic Segmentation:语义分割,只要知道图片里的是人
Instance Segmentation:实例分割,还要知道这些人是谁
Image Matting:透明度、边缘精细度怎么样
- 复杂问题拆解:粗mask估计+精准matting
- 丰富数据样本:设计图像mask统一模型
- 模型框架
五、视觉生成——框架流程
六、视频生成——框架流程
七、视觉生成——视频封面
八、视觉编辑——视频植入
植入位检测与定位:
九、视觉编辑——视频内容擦除
去文字(台词、标语等),去LOGO(台标、广告等)
十、视觉编辑——画幅变化
十一、视觉编辑——图像尺寸变化
十二、视觉增强——视频增强
十三、视觉增强——人脸修复增强
十四、视觉增强——视频超分和插帧
老视频高清化,在网络条件不好的时候减少卡顿
十五、视觉增强——HDR色彩扩展
十六、视觉增强——风格迁移
一开始的GAN也可以做类似的事,但是整张图片一起变风格,而我们可能希望人的五官清晰一点,不要变成油画的风格。
十七、视觉迁移——颜色拓展
十八、视觉制造——核心逻辑
十九、视觉制造——包装几何生成
阿里云高校计划,陪伴两千多所高校在校生云上实践、云上成长。在这里你可以领用免费的cpu资源,还可以参加免费训练营,实践提高:https://developer.aliyun.com/adc/student/
达摩院视觉ai图像识别项目相关推荐
- 达摩院视觉AI训练营-搭建身份证识别系统-学习笔记
搭建身份证识别系统目录 一.成为开发者 二.能力调试 三.能力开通 四.创建AccessKey 五.启动开发 参考案例 总结 一.成为开发者 请您使用阿里云账号登录阿里云视觉智能开放平台.如还未持有阿 ...
- 达摩院视觉AI训练营-视觉AI技术应用探索-学习笔记
视觉生产技术目录 一.视觉生产定义 定义: 分类: 通用基础框架 五个关键维度 二.精细理解-寻微入里 分割抠图-难点: 分割抠图-解题思路: 分割抠图-模型框架: 分割抠图-人像抠图拓展: 分割抠图 ...
- 阿里云趣味视觉AI训练营-达摩院视觉AI介绍
平台概述 使命:让天下没有难用的视觉AI 目标:聚合阿里内外视觉能力,打造以公共云API能力为内核的视觉开放平台,提供统一的产品体验.丰富案例和工具套件,让开发者和业务伙伴省心.安心的继承使用,构建A ...
- 达摩院视觉AI课-身份证识别
功能描述 身份证识别可以识别二代身份证关键字段内容,关键字段包括:姓名.性别.民族.身份证号.出生日期.地址信息.有效起始时间.签发机关,同时可输出身份证区域位置和人脸位置信息. 应用场景 远程注册: ...
- 阿里达摩院做 AI 这两年
整理 | Jane 出品 | AI科技大本营(ID:rgznai100) 2017 年 10 月的杭州云栖大会上,阿里巴巴正式宣布成立达摩院,未来三年将投入将超过 1000 亿人民币用于基础科学和颠覆 ...
- Python动物图像分割API简单调用实例演示,阿里达摩院视觉智能开放平台使用步骤
阿里云视觉智能开放平台 - 动物分割 效果图演示 平台入口 创建获取密钥 本地图片转 URL 与密钥测试 代码调用演示 语义分割知识拓展 阿里云达摩院智能视觉开放平台 效果图演示 调用本地图片处理后可 ...
- 达摩院开放AI能力宝塔,万般法器助力新时代智能应用
简介: 新时代下,AI正在以惊人的速度渗透到社会各界当中,这一次造就改变的将会是达摩院的ai技术. 21世纪电子支付打开了新纪元的第一扇门,人们的生活开始随着电子支付的普及发生骤变.支付宝完成了用手机 ...
- 趋势前沿 | 达摩院语音 AI 最新技术大全
作者:陈谦.邓憧.付强.高志付.胡凯.罗浩能.纳跃跃.田彪.王雯.鄢志杰.张仕良.张庆林.郑斯奇(以姓氏首字母排序) 过去十年,语音 AI 从实验室走向应用,语音搜索.交互早已融入日常.本文将带你一览 ...
- “抗击”新型肺炎!阿里达摩院研发AI算法,半小时完成疑似病例基因分析
利用技术辅助抗击疫情,阿里巴巴.百度等科技巨头各显身手. 此前,AI科技大本营采访报道了阿里达摩院<数十名工程师作战5天,阿里达摩院连夜研发智能疫情机器人>一文,后者为了解决客服人力不足的 ...
最新文章
- 【Ubuntu】虚拟机VirtualBox安装win7完整步骤
- DC-RC加固修补型砂浆
- Android 开发笔记 Google地图定位与路线显示
- 常用WebService一览表
- Bengio团队因果学习论文反思:为何机器学习仍在因果关系中挣扎?
- java学习(七)java中抽象类及 接口
- 数据库系统实训——实验二——单表查询
- python 用户的画像可视化呈现技术_一人一车一面:解读汽车大数据用户画像背后的AI技术...
- 面试官问:mysql中时间日期类型和字符串类型的选择
- mysql字符集修改保存_mysql更改已有数据表的字符集,保留原有数据内容
- [转]win7-64位系统添加access的ODBC数据源 看不到其它数据源的问题
- 新开博了,欢迎大家来做客!
- UDP Socket编程
- 天行健,君子自强不息
- python把两个图片合成一张图
- 华为使用计算机投屏要打开什么,华为手机怎么投屏到电脑?这些小屏变大屏的操作你会吗...
- 团队协作的重要性: 如何提升团队成员之间的协作能力
- leetcode2248. 多个数组求交集【290场周赛】(java)
- 【python】之pymysql模块,操作mysql数据库!
- 《Linux指令从入门到精通》——4.2 Linux下的简单文字模式文本编辑器
热门文章
- 谷歌公开自动驾驶新专利:通过眼睛注视向量,精确判断注意力
- PyQt5_股票技术图形查看工具
- 【YBT高效进阶】1基础算法/1逆推算法/2奇怪汉诺塔
- 算法分析与设计(优化问题近似不可近似算法杂项)
- c语言切蛋糕问题算法,从“切蛋糕问题”谈到欧拉#
- Android系统权限和root权限的获取以及应用权限列表
- 最速下降法(适用于求二阶极小值)
- 1.1程序设计(C语言基础)
- tinyalsa(tinymix/tinycap/tinyplay/tinypcminfo)使用介绍
- 很多时候在考虑设计而不是考虑编码的时候, 接口才真正清晰,明朗的把它的原理展现给你。