目录:回顾2022年计算机视觉

  • 一、前言
  • 二、计算机视觉趋势
    • 2.1 Transformer统治计算机视觉
    • 2.2 以数据为中心的计算机视觉获得牵引力
    • 2.3 AI 生成的艺术作品
    • 2.4 多模态人工智能成熟
  • 三、计算机视觉的新应用
    • 3.1 运动领域
    • 3.2 环境保护
    • 3.3 自动驾驶
    • 3.4 健康与医药
  • 四、总结

一、前言

过去 12 个月见证了计算机视觉的快速发展,从支持基础设施到跨行业的新应用,再到研究中的算法突破,再到 AI 生成艺术的爆炸式增长。本篇文章带大家一起回顾一下这些令人兴奋的发展。本文将通过五个部分来回顾计算机视觉领域在2022年的发展。

二、计算机视觉趋势

2.1 Transformer统治计算机视觉

Transformer 模型在 2017 年在Attention is All You Need论文中被提出,之后广泛用于深度学习领域,为各种 NLP 任务设定了标准,并开创了大型语言模型 (LLM) 的时代。Vision Transformer (ViT) 于 2020 年底推出,标志着这些基于自我注意的模型在计算机视觉环境中的首次应用。

今年,研究将 Transformer 模型推向了计算机视觉的前沿,在各种任务上实现了最先进的性能。例如:DETR、SegFormer、Swin Transformer和ViT。

这个GitHub总结了相当于的基于Transformer的网络。感兴趣的小伙伴可以关注一下。

https://github.com/Yangzhangcst/Transformer-in-Computer-Vision

2.2 以数据为中心的计算机视觉获得牵引力

随着计算机视觉的成熟,越来越多的机器学习开发工作专注于整理、清理和扩充数据。数据质量正在成为性能的瓶颈,行业正朝着数据模型协同设计的方向发展。以数据为中心的机器学习会越来越受欢迎。

这一努力的掌舵者是新一波的初创公司——合成数据生成公司(gretel、Datagen、Tonic)和评估、可观察性和实验跟踪工具(Voxel51、Weights & Biases 、CleanLab)——加入现有的标签和注释服务(Labelbox、Label Studio、CVAT、Scale、V7 ) 的努力。

2.3 AI 生成的艺术作品

在生成对抗网络 (GAN) 的改进和传播模型的快速发展和迭代之间,AI生成的艺术正在经历只能被描述为复兴的过程。借助Stable Diffusion、Nightcafe、Midjourney和 OpenAI的DALL-E2等工具,现在可以根据用户输入的文本提示生成令人难以置信的细微图像。Artbreeder允许用户将多个图像“培育”成新作品,Meta的Make-A-Video从文本生成视频,而RunwayML在创建动画和编辑视频方面改变了游戏规则。其中许多工具还支持修复和outpainting,可用于编辑和扩展图像范围。

随着所有这些工具彻底改变 AI 艺术能力,争议几乎是不可避免的,而且已经有很多。9 月,一张AI 生成的图像赢得了一场美术比赛,引发了关于什么才算是艺术,以及所有权、归属和版权如何适用于这类新内容的激烈讨论。估计这个讨论会越来约激烈。

2.4 多模态人工智能成熟

除了 AI 生成的艺术作品,2022 年还见证了多种模式交叉领域的大量研究和应用。处理多种类型数据(包括语言、音频和视觉)的模型和管道正变得越来越流行。这些学科之间的界限从未如此模糊,异花授粉也从未如此富有成果。

这种上下文冲突的核心是对比学习,它改进了将多种类型的数据嵌入同一空间的方法,开创性的例子是 Open AI 的对比语言-图像预训练 ( CLIP ) 模型。
这样做的一个结果是能够根据文本或其他图像的输入对图像集进行语义搜索。这刺激了矢量搜索引擎的繁荣,Qdrant、Pinecone、Weaviate、Milvus和其他引擎引领潮流。同样,模态之间的系统连接正在加强视觉问答和零镜头和少镜头图像分类。

三、计算机视觉的新应用

计算机视觉现在在从体育和娱乐到建筑、安全、农业等各个领域都发挥着重要作用,在这些行业中的每一个行业中,都有太多的公司采用计算机视觉来计算。本节重点介绍计算机视觉正在深入嵌入的一些行业中的一些关键发展。

国际足联在 2022 年卡塔尔世界杯上使用的半自动越位检测功能的图示:

3.1 运动领域

当国际足联在卡塔尔世界杯上使用半自动系统检测越位时,计算机视觉就出现在了最大的舞台上。他们还使用计算机视觉来防止体育场发生踩踏事件。

其他值得注意的发展包括Sportsbox AI 筹集了由 EP Golf Ventures 牵头的 550 万美元 A 系列,将运动跟踪引入高尔夫(和其他运动),以及新公司Jabbr 为格斗运动定制计算机视觉,从 DeepStrike 开始,这是一种自动计算出拳次数的模型并编辑拳击视频。

3.2 环境保护

循环经济初创公司Greyparrot为其计算机视觉驱动的废物监测系统筹集了 1100 万美元的 A 轮融资。Carbon marketplace NCX 使用尖端的计算机视觉模型和卫星图像来提供木材和碳潜力的精确评估,筹集了 5000 万美元的 B 轮融资。Microsoft宣布了 Microsoft Climate Research Initiative (MCRI),它将把他们的计算机视觉用于可再生能源测绘、土地覆盖测绘和冰川测绘方面的气候努力。

3.3 自动驾驶

2022 年对整个自动驾驶汽车行业来说有点喜忧参半,自动驾驶汽车公司Argo AI 在 10 月关闭运营,福特和Rivian将他们的重点从 L4(高度自动化)转移到 L2(部分)和L3(条件)自动化。Apple 最近还宣布缩减其自动驾驶项目“Project Titan”,并将发布时间推迟到 2026 年。

尽管如此,计算机视觉还是取得了一些显着的胜利。麻省理工学院的研究人员发布了第一个用于自动驾驶的开源逼真模拟器。在从英特尔分拆出来后,驾驶辅助部门Mobileye 筹集了 8.61 亿美元的 IPO 。谷歌收购了空间人工智能和移动创业公司 Phiar。Waymo在凤凰城市中心推出了自动驾驶汽车服务。

3.4 健康与医药

在澳大利亚,工程师们设计了一种很有前途的基于计算机视觉的非接触式血压检测方法,它可以替代传统的充气袖带。此外,谷歌开始将其基于计算机视觉的乳腺癌检测工具授权给癌症检测和治疗提供商iCAD

四、总结

2022 年对于机器学习来说非常活跃,对于计算机视觉来说尤其如此。疯狂的是,研究的快速发展、从业者人数的增长和行业的采用似乎都在加速。让我们看看 2023 年会发生什么!

【计算机视觉】回顾2022年计算机视觉领域最激动人心的进展相关推荐

  1. 回顾2022年计算机视觉领域最激动人心的进展

    过去 12 个月见证了计算机视觉的快速发展,从支持基础设施到跨行业的新应用,再到研究中的算法突破,再到 AI 生成艺术的爆炸式增长.本篇文章带大家一起回顾一下这些令人兴奋的发展.本文将通过五个部分来回 ...

  2. 2022 年计算机视觉的三大趋势

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 计算机视觉是进步最大.发展最快的领域之一.根据 Global VI ...

  3. 2022年计算机视觉产业链全景图谱,一文读懂计算机视觉产业链全局

    计算机视觉是一门研究如何使机器"看"的科学,是指用摄影机和电脑代替人眼对目标进行识别.跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像. ...

  4. 人工智能基础入门清单(计算机视觉、强化学习方向/领域)

    一.通识基础部分 1. 基础理论部分(可选) 书籍 <人工智能:一种现代的方法> Stuart J.Russell.Peter Norvig 书籍 <人工智能> 马少平 2. ...

  5. 2022中国智慧农业领域最具商业合作价值企业盘点

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 自2022年3月初,数据猿正式推出以"数智力·新格局"为主题的"2022行业盘点季大型主题策划活动"以来, ...

  6. 【计算机视觉学习一】计算机视觉简述

    计算机视觉学习 文章目录 计算机视觉学习 前言 [计算机视觉学习一]计算机视觉简述 计算机视觉的发展 计算机视觉任务常用技术 计算机视觉任务的应用 计算机视觉面临的挑战 前言 在学习机器视觉的过程中, ...

  7. 全面回顾2022年加密行业大事件:破后而立方能绝处逢生

    2022年,加密领域以Luna/UST的崩溃为起点开启了漫长的加密寒冬,在严峻的宏观环境下以及一系列戏剧性事件中遭受了沉重打击.2022年初,加密货币生态系统的市值达到近3万亿美元,而截至年底已蒸发2 ...

  8. 计算机视觉的相关会议,计算机视觉方向三大顶级会议

    ICCV ICCV 的全称是 IEEE International Conference on Computer Vision,国际计算机视觉大会,是计算机视觉方向的三大顶级会议之一,通常每两年召开一 ...

  9. 计算机视觉PDF马颂德,计算机视觉的高层感知——计算机视觉.pdf

    计算机视觉的高层感知--计算机视觉 图像理解与计算机视觉 图像理解与计算机视觉 第十章计算机视觉的高层感知 第十章计算机视觉的高层感知 --计算机视觉 --计算机视觉 计算机视觉是什么? 计算机视觉系 ...

最新文章

  1. Java:定时启动线程
  2. UITableView中cell的圆角(第一个和最后一个)
  3. java 使用maven 打包 添加本地lib包
  4. HDFS的API操作-创建文件和文件夹
  5. python from __future__ import division
  6. 转载-glance的用法
  7. 2019年3月23日
  8. Java Servlet系列之Servlet入门
  9. php 利用qrcode生成二维码
  10. 【Linux系统】第6节 Linux系统压缩与解压缩文件
  11. Android学习日志1---在AndroidStudio启动Android 模拟器(ADV)发生的失败
  12. 佐切的第一天学习分享
  13. 如何在行业内苟住(老手勿喷)
  14. Vue下拉列表el-select二级联动效果
  15. Web应用服务器tomcat
  16. 解释最透彻的数据库索引原理
  17. 企业微信如何开启全员群?
  18. Linux小白进阶之克隆服务器
  19. html页面文字随机效果,教你用javascript实现随机标签云效果_附代码
  20. 一元二次方程虚根求法java_一元二次方程课件ppt

热门文章

  1. Linux C/C++ 中锁的使用总结
  2. 支付赎金后,80%的企业遭受第二次勒索软件攻击
  3. multipartfile获取数据_MultipartFile实现文件上传
  4. IDA Linux远程调试
  5. 【计算机科学基础】程序的编译与运行
  6. HQChart麦语法内置函数帮助文档
  7. 天生变态狂:TED心理学家的脑犯罪之旅
  8. 《C#零基础入门之百识百例》(九十一)预处理器指令 -- 代码示例
  9. 手牵手,使用uni-app从零开发一款视频小程序 (系列上 准备工作篇)
  10. 游戏遇上区块链,从试探到联盟。