欢迎关注“

计算机视觉研究院

计算机视觉研究院专栏

计算机视觉研究院

专注CV领域公众号

作者:Edison_G

长按二维码关注

前言  计算机视觉可以学习美式手语,进而帮助听力障碍群体吗?数据科学家David Lee用一个项目给出了答案。

如果听不到了,你会怎么办?如果只能用手语交流呢?

当对方无法理解你时,即使像订餐、讨论财务事项,甚至和朋友家人对话这样简单的事情也可能令你气馁。

对普通人而言轻轻松松的事情对于听障群体可能是很困难的,他们甚至还会因此遭到歧视。在很多场景下,他们无法获取合格的翻译服务,从而导致失业、社会隔绝和公共卫生问题。

为了让更多人听到听障群体的声音,数据科学家 David Lee 尝试利用数据科学项目来解决这一问题:

计算机视觉可以学习美式手语,进而帮助听力障碍群体吗?

如果通过机器学习应用可以精确地翻译美式手语,即使从最基础的字母表开始,我们也能向着为听力障碍群体提供更多的便利和教育资源前进一步。

数据和项目介绍

出于多种原因,David Lee决定创建一个原始图像数据集。首先,基于移动设备或摄像头设置想要的环境,需要的分辨率一般是720p或1080p。现有的几个数据集分辨率较低,而且很多不包括字母「J」和「Z」,因为这两个字母需要一些动作才能完成。

为此,David Lee 在社交平台上发送了手语图像数据收集请求,介绍了这个项目和如何提交手语图像的说明,希望借此提高大家的认识并收集数据。

数据变形和过采样

David Lee 为该项目收集了 720 张图片,其中还有几张是他自己的手部图像。由于这个数据集规模较小,于是 David 使用 labelImg 软件手动进行边界框标记,设置变换函数的概率以基于同一张图像创建多个实例,每个实例上的边界框有所不同。

下图展示了数据增强示例:

经过数据增强后,该数据集的规模从 720 张图像扩展到 18,000 张图像。

建模

David 选择使用 YOLOv5 进行建模。将数据集中 90% 的图像用作训练数据,10% 的图像用作验证集。使用迁移学习和 YOLOv5m 预训练权重训练 300 个 epoch。

在验证集上成功创建具备标签和预测置信度的新边界框。

由于损失值并未出现增长,表明模型未过拟合,因此该模型或许可以训练更多轮次。

模型最终获得了 85.27% 的 mAP@.5:.95 分数。

图像推断测试

David 额外收集了他儿子的手部图像数据作为测试集。事实上,还没有儿童手部图像用于训练该模型。理想情况下,再多几张图像有助于展示模型的性能,但这只是个开始。

26 个字母中,有 4 个没有预测结果(分别是 G、H、J 和 Z)。

四个没有得到准确预测:

  • D 被预测为 F;

  • E 被预测为 T;

  • P 被预测为 Q;

  • R 被预测为 U。

视频推断测试

即使只有几个手部图像用于训练,模型仍能在如此小的数据集上展现不错的性能,而且还能以一定的速度提供优秀的预测结果,这一结果表现出了很大的潜力。

更多数据有助于创建可在多种新环境中使用的模型。

如以上视频所示,即使字母有一部分出框了,模型仍能给出不错的预测结果。最令人惊讶的是,字母 J 和 Z 也得到了准确识别。

其他测试

执行其他一些测试,例如:

左手手语测试

几乎所有原始图像都显示的是右手,但惊喜地发现数据增强在这里起到了作用,因为有 50% 的可能性是针对左手用户进行水平翻转。

儿童手语测试

儿童的手语数据未被用于训练集,但模型对此仍有不错的预测。

多实例

尽管手语的使用和视频中有所不同,但这个示例表明当多个人出现在屏幕上时,模型可以分辨出不止一个手语实例。

模型局限性

发现该模型还有一些地方有待改进。

距离

许多原始图像是用手机拍摄的,手到摄像头的距离比较近,这对远距离推断有一定负面影响。

新环境

这支视频来自于志愿者,未用于模型训练。尽管模型看到过很多字母,但对此的预测置信度较低,还有一些错误分类。

背景推断

该测试旨在验证不同的背景会影响模型的性能。

结论

这个项目表明:计算机视觉可用于帮助听力障碍群体获取更多便利和教育资源!

该模型在仅使用小型数据集的情况下仍能取得不错的性能。即使对于不同环境中的不同手部,模型也能实现良好的检测结果。而且一些局限性是可以通过更多训练数据得到解决的。经过调整和数据集的扩大,该模型或许可以扩展到美式手语字母表以外的场景。

原文链接:https://daviddaeshinlee.medium.com/using-computer-vision-in-helping-the-deaf-and-hard-of-hearing-communities-with-yolov5-7d764c2eb614

/End.

我们开创“计算机视觉协会”知识星球一年有余,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

如果想加入我们“计算机视觉研究院”,请扫二维码加入我们。我们会按照你的需求将你拉入对应的学习群!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

后台回复“手势识别”

获取源码下载地址

计算机视觉研究院

长按扫描二维码关注我们

YOLOv5的项目实践 | 手势识别项目落地全过程(附源码)相关推荐

  1. 零基础Java学习之初级项目实践(客户信息管理软件-附源码)

    项目涉及知识点 基础的面向对象编程项目. 类和对象(属性.方法及构造器) 类的封装 引用数组 数组的插入.删除和替换 对象的聚集处理 多对象协同工作 需求说明 总体说明 模拟实现基于文本界面的< ...

  2. Java毕设项目城市公交系统计算机(附源码+系统+数据库+LW)

    Java毕设项目城市公交系统计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Ecli ...

  3. Java毕设项目电影院购票系统计算机(附源码+系统+数据库+LW)

    Java毕设项目电影院购票系统计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Ecl ...

  4. Java毕设项目校园一卡通管理系统计算机(附源码+系统+数据库+LW)

    Java毕设项目校园一卡通管理系统计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ E ...

  5. Java毕设项目重庆旅游景点计算机(附源码+系统+数据库+LW)

    Java毕设项目重庆旅游景点计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Ecli ...

  6. Java毕设项目影城票务管理系统计算机(附源码+系统+数据库+LW)

    Java毕设项目影城票务管理系统计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Ec ...

  7. Java毕设项目智能导诊系统计算机(附源码+系统+数据库+LW)

    Java毕设项目智能导诊系统计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Ecli ...

  8. Java毕设项目电子病历系统计算机(附源码+系统+数据库+LW)

    Java毕设项目电子病历系统计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Ecli ...

  9. Java毕设项目大学生体检管理系统计算机(附源码+系统+数据库+LW)

    Java毕设项目大学生体检管理系统计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ E ...

  10. Java毕设项目美发门店管理系统计算机(附源码+系统+数据库+LW)

    Java毕设项目美发门店管理系统计算机(附源码+系统+数据库+LW) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Ec ...

最新文章

  1. linux 脚本 lang,golang可以编写shell脚本吗
  2. c语言实现结构体变量private,C语言中结构体变量私有化详解
  3. js中select下拉框重置_Web测试中需要注意的16个小细节
  4. linux加密框架 crypto 算法管理 - 算法查找接口 crypto_find_alg
  5. 美团面试题:Hashmap的结构,1.7和1.8有哪些区别,深入的分析
  6. 【转载】水木算法讨论题
  7. 关于Tomcat的部署
  8. OAuth2.0_环境介绍_授权服务和资源服务_Spring Security OAuth2.0认证授权---springcloud工作笔记138
  9. ajax php 数组参数传递参数,jquery中ajax传递中文参数和js数组问题
  10. 雨听|生成mac风格代码块
  11. mysql基础入门(参照b站黑马程序员整理)
  12. vue实现输入六位密码支付页面
  13. jupyter 中,前面输入字符,后面的字符被覆盖消失(带小键盘的联想笔记本insert用法)
  14. fluent柱坐标系设定_Fluent中速度入口条件要设置哪些参数
  15. Zabbix 配置钉钉告警
  16. linux系统tar命令慢,Linux系统下tar命令的使用技巧
  17. 什么是 NFT 洗盘交易:洗盘交易背后的原理
  18. linux中license路径,Elasticsearch安装过程中的license问题解决办法
  19. Android BroadCast广播
  20. 第二章 基本数据结构

热门文章

  1. linux如何做动态壁纸实验报告,Ubuntu制作动态壁纸
  2. ROW_NUMBER、RANK、DENSE_RANK的用法(1)(转)
  3. Java如何解析个人或他人微信二维码内的信息
  4. (专升本)PowerPnt(幻灯片放映、演示文稿放映)
  5. 生活随记-公平和本分
  6. 人脸识别技术原来还有这个用途?赶紧get
  7. 怎么打包python环境_python环境搭建和打包
  8. 继昨天的猜拳游戏,升级为老虎机版
  9. 学习历程-----postgreSql
  10. 氛围感新年头像如何制作?教你简单的制作好看头像的办法