点击上方,选择星标或置顶,不定期资源大放送!阅读大概需要15分钟
Follow小博主,每天更新前沿干货【导读】本文介绍了微软开源的计算机视觉库,它囊括了计算机视觉领域的最佳实践、代码示例和丰富文档。

近年来,计算机视觉领域突飞猛进,在人脸识别、图像理解、搜索、无人机、地图、半自动和自动驾驶方面得到广泛应用。而这些应用的核心部分是视觉识别任务,如图像分类、目标检测和图像相似度。

在各种计算机视觉模型和应用层出不穷的当下,如何把握发展脉络,跟进领域前沿发展呢?微软创建了一个库,提供构建计算机视觉系统的大量示例和最佳实践指导原则。

项目地址:https://github.com/microsoft/computervision-recipes

这个库旨在构建一个全面的集合,涵盖利用了计算机视觉算法、神经架构和系统运行方面近期进展的工具和示例。

该库没有从头开始创建实现,而是基于已有的 SOTA 库发展而来,并围绕加载图像数据、优化和评估模型、扩展至云端构建了额外的工具函数。此外,微软团队表示,希望通过该项目回答计算机视觉领域的常见问题、指出频繁出现的缺陷问题,并展示如何利用云进行模型训练和部署。

该库中所有示例以 Jupyter notebooks 和常见工具函数的形式呈现。所有示例均使用 PyTorch 作为底层深度学习库。

  • Jupyter notebooks 地址:https://github.com/microsoft/computervision-recipes/blob/master/scenarios

  • 工具函数地址:https://github.com/microsoft/computervision-recipes/blob/master/utils_cv

目标群体

该库的目标群体是具备一定计算机视觉知识背景的数据科学家和机器学习工程师,因为库的内容以 source-only(仅源代码)的形式呈现,支持自定义机器学习建模。这个库提供的工具函数和示例旨在为现实世界的视觉问题提供解决方案加速器。

示例

该库支持不同的计算机视觉场景,如基于单张图像运行,示例如下:

或基于视频序列的动作识别等场景,示例如下:

场景

该库涵盖常用的计算机视觉场景,包含如下类别:

对于每个主要场景(base),该项目均提供使用户高效构建自己模型的工具。这需要使用者完成一些任务,如基于自己的数据微调模型的简单任务,或者难例挖掘甚至模型部署等更复杂的任务。

1. 图像分类任务

该目录提供了构建图像分类系统的示例和最佳实践,旨在让用户能够在自己的数据集上轻松快速地训练高准确率分类器。

这里提供的示例 notebook 具备预置的默认参数,可以很好地处理多个数据集。该目录还提供了有关常见缺陷和最佳实践的大量文档。

此外,该库还展示了如何使用微软的云计算平台 Azure,加快在大型数据集上的训练速度或将模型部署为 web 服务。

2. 图像相似度

该目录提供了构建图像相似度系统的示例和最佳实践,旨在使用户能够基于自己的数据集方便快捷地训练高精度模型。

下图为图像检索示例,其中左图为查询图像,右面为与之最相似的 6 幅图像:

3. 目标检测

该目录提供了构建目标检测系统的示例和最佳实践,旨在使用户能够基于自己的数据集方便快捷地训练高准确率模型。

该库使用了 torchvision 的 Faster R-CNN 实现,它被证明能够很好地处理多种计算机视觉问题。

项目作者建议使用者在具备 GPU 的机器上运行示例,虽然 GPU 在技术层面上并非必需,但是如果不使用 GPU,即使只用几十个图像,训练过程也会变得非常缓慢。

4. 关键点检测

该目录包含构建关键点检测系统的示例和最佳实践指导原则,并展示了如何使用预训练模型进行人体姿势估计。

该目录使用了 Mask R-CNN 的扩展,可以同时检测物体及其关键点。其底层技术与上述目标检测方法类似,即基于 Torchvision 的 Mask R-CNN。

5. 图像分割

该目录提供了构建图像分割系统的示例和最佳实践,旨在使用户能够基于自己的数据集方便快捷地训练高准确率模型。

这里的实现使用了 fastai 的 UNet 模型,其中 CNN 主干(如 ResNet)在 ImageNet 数据集上经过预训练,因此使用者只需少量标注训练样本就可以对其进行微调。

6. 动作识别

该目录包含构建基于视频的动作识别系统所需要的资源,旨在使用户能够在自定义数据集上轻松快速地训练出高准确率的快速模型。

动作识别(也叫「活动识别」)包括从一系列帧中对多种动作进行分类,例如「阅读」或「饮酒」:

动作识别是一个热门的研究领域,每年都有大量的方法发表。其中一个突出的方法是 R(2+1)D 模型,它能够获得高准确率,且比其他方法快得多。(参见论文《Large-scale weakly-supervised pre-training for video action recognition》)

该目录中的实现和预训练权重均基于这个 GitHub 库(https://github.com/moabitcoin/ig65m-pytorch),并添加了一些功能,以使自定义模型的训练和评估更加用户友好。这里在预训练时使用的是 IG-Kinetics 数据集。

7. 多目标跟踪

该目录提供了构建和推断多目标跟踪系统的示例和最佳实践,旨在使用户能够基于自定义数据集轻松训练高准确率跟踪模型。

该库集成了 FairMOT 跟踪算法,该算法在近期的 MOT 基准测试中表现出了很强的跟踪性能,同时也推理速度也很快。

8. 人群计数

该目录提供了多个人群计数算法的 production-ready 版本,不同算法被统一在一组一致性 API 下。

对多个基于专用数据集的人群计数模型实现进行评估后,该项目将模型范围缩小到两个选项:Multi Column CNN model (MCNN) 和 OpenPose 模型。二者均符合速度要求。

  • 对于高密度人群图像,MCNN 模型取得了良好的效果;

  • 对于低密度场景,OpenPose 表现良好。

  • 而当人群密度未知时,该项目采用启发式方法。在满足以下条件时使用 MCNN 进行预测:OpenPose 预测大于 20,MCNN 大于 50。反之,则使用 OpenPose 预测。模型的阈值可以根据使用者的场景进行更改。

此外,该目录还展示了依赖项、安装过程、测试及性能。

重磅!DLer-计算机视觉交流2群已成立!

大家好,这是DLer-计算机视觉微信交流2群!首先非常感谢大家的支持和鼓励,我们的计算机视觉交流群正在不断扩大人员规模!希望以后能提供更多的资源福利给到大家!欢迎各位Cver加入DLer-计算机视觉微信交流大家庭 。

本群旨在学习交流图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。希望能给大家提供一个更精准的研讨交流平台!!!

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别添加,即可进群!

PyTorch实现,GitHub star 4k+:这是微软开源的计算机视觉库相关推荐

  1. PyTorch实现,GitHub 4000星:这是微软开源的计算机视觉库

    视学算法报道 编辑:魔王.陈萍 转载自公众号:机器之心 本文介绍了微软开源的计算机视觉库,它囊括了计算机视觉领域的最佳实践.代码示例和丰富文档. 近年来,计算机视觉领域突飞猛进,在人脸识别.图像理解. ...

  2. 4计算准确率_PyTorch实现,GitHub 4000星:这是微软开源的计算机视觉库

    本文介绍了微软开源的计算机视觉库,它囊括了计算机视觉领域的最佳实践.代码示例和丰富文档. 机器之心报道,编辑:魔王.陈萍. 近年来,计算机视觉领域突飞猛进,在人脸识别.图像理解.搜索.无人机.地图.半 ...

  3. pytorch实现人脸识别_PyTorch实现,GitHub4000星:这是微软开源的计算机视觉库

    来源:机器之心 本文介绍了微软开源的计算机视觉库,它囊括了计算机视觉领域的最佳实践.代码示例和丰富文档. 近年来,计算机视觉领域突飞猛进,在人脸识别.图像理解.搜索.无人机.地图.半自动和自动驾驶方面 ...

  4. pytorch实现人脸识别_PyTorch实现,GitHub4000星:微软开源的CV库

    机器之心报道 编辑:魔王.陈萍 本文介绍了微软开源的计算机视觉库,它囊括了计算机视觉领域的最佳实践.代码示例和丰富文档. 近年来,计算机视觉领域突飞猛进,在人脸识别.图像理解.搜索.无人机.地图.半自 ...

  5. 十年积累,5.4万GitHub Star一朝清零:开源史上最大意外损失

    机器之心报道 编辑:蛋酱.小舟 我们找 GitHub CEO 求助,但为时已晚. 2022 年 2 月 15 日,GitHub 通过推特平台广播了一则消息:「我们的朋友 HTTPie 最近不小心将自己 ...

  6. 新的开始 | Arthas GitHub Star 破万后的回顾和展望

    为什么80%的码农都做不了架构师?>>>    一切新的开始,都始于一个里程碑. 2月20日上午,Java 开源诊断工具 Arthas 的 GitHub Star 突破10000,距 ...

  7. Facebook、微信团队、Twitter、微软开源软件列表一览

    Facebook开源软件列表 从Facebook的GitHub账户中可以看到,Facebook已经开源的开源项目有近300个,领域涉及移动.前端.Web.后端.大数据.数据库.工具和硬件等.Faceb ...

  8. PyTorch超级资源列表(Github 2.4K星)包罗万象

    PyTorch超级资源列表,包罗万象 PyTorch超级资源列表(Github 2.4K星)包罗万象 -v7.x 1 Pytorch官方工程 2 自然语言处理和语音处理(NLP & Speec ...

  9. GitHub 热榜:天才黑客开源新项目,不到 1000 行代码,1400 Star!

    点击上方"Github爱好者社区",选择星标 回复"资料",获取小编整理的一份资料 来自机器之心 在深度学习时代,谷歌.Facebook.百度等科技巨头开源了多 ...

最新文章

  1. Java项目:健身管理系统(Java+ssm+springboot)
  2. SAP PM 初级系列18 - 为维修工单分配Permit
  3. cve-2017-12617 tomcat远程代码执行漏洞复现测试
  4. mysql-四舍五入
  5. CF1594F-Ideal Farm【构造】
  6. python kotlin_在Python,Java和Kotlin中标记参数和重载
  7. 如何解析C语言的声明
  8. 线程池 Future 带返回结果
  9. 软硬交互代码示例_matlab交互式程序设计示例:[6]GUI界面编程1
  10. python调用.so动态链接库,运行时报错 liblapack.so.3: undefined symbol: icamin_k
  11. 聊天机器人之知识图谱 Freebase 简介
  12. ios 穿山甲广告联盟集成_GitHub - ducaiwei/Pangolin: Flutter 广告SDK-字节跳动-穿山甲 集成...
  13. ps切图(2)——简单工具操作(1)
  14. 新一轮竞速,小熊电器跑慢了
  15. Weakly-Supervised Physically Unconstrained Gaze Estimation论文翻译
  16. linux线程亲和性,线程亲和性
  17. SQL基础教程学习第六站:数据更新
  18. 你有花生我有酒,一本学道看一天(一)
  19. Redis 安装+设置密码
  20. js中 ‘ ‘==0 为什么等于true?

热门文章

  1. Angularjs中文教程
  2. 详解DNS递归查询与迭代查询
  3. WinWordControl控件的使用注意
  4. 怎么读取h5文件内容_【Python编程特训连载72】读取two.txt文件,模拟输出“两会”内容 答案公布...
  5. mysql学习二:sql语句分类
  6. api ajax解析json数据库,api ajax解析json数据库
  7. 斯隆奖获得者李婧翌:AI+X并非总是有效,生物数据量小、噪音大,可解释性是关键...
  8. AAAI 2021线下论文预讲会讲者征集
  9. 搞定了数学,拿下了代码,没想到在这件事上栽了跟头……
  10. 图灵2月书讯:书籍,不可分离的生命伴侣