唇语识别是目前人工智能领域比较热门的应用之一,本文将在之后的内容中介绍2020年英文词汇级唇语识别在LRW(Lir Reading in the Wild)数据集以及LRW-1000两个数据集上实现SOTA的项目github,可以在唇语识别数据集综述中找到这两个数据集的官网,以及其他常用数据集的地址,下面是论文地址Lipreading using Temporal Convolutional Networks

这是目前常用的几个大型数据集的介绍史上最详细LRW、LRW-1000和OuluVS2数据集介绍,其中包含数据集的下载链接

文章目录

  • 0.介绍
  • 1.下载项目源代码
  • 2.环境配置
    • 1.pytorch
    • 2.其他库
  • 3.模型下载
  • 4.数据集准备
  • 5.进行测试

0.介绍




该项目中实现唇语识别的过程主要步骤

  1. 将人脸标记出来

  2. 对齐每一帧以参考平均脸型

  3. 从已对齐的人脸图像中裁剪出固定的96×96像素宽ROIs,使嘴部区域始终粗略地以图像裁剪为中心

  4. 将裁剪的图像转换为灰度图

该项目并未给出训练模型的代码,只有测试与训练模型的代码,所以本人近期将尝试复现该项目的训练代码。

代码分析的博客在本人主页,欢迎感兴趣的童鞋持续关注

下面开始正式的测试代码的环境配置

1.下载项目源代码

将项目的源代码下载到本地

2.环境配置

1.pytorch

参考史上最详细yolov5环境配置搭建+配置所需文件中的第234步进行pytorch-GPU的基本配置
其中需要的文件如cuda,cudnn等均有提供,需要的可以自行下载

2.其他库

通过anaconda进入虚拟环境中,将下面的代码复制进去,即可完成其他库的安装

pip install numpy
pip install scipy
pip install opencv-python
pip install matplotlib
pip install tqdm
pip install scikit-image

3.模型下载

官网提供了预训练的模型

模型下载完不用解压,程序会自动解压导入

4.数据集准备

本文是在LRW数据集上进行测试的,使用者需要先申请LRW数据集,将数据集下载下来按官网的步骤,链接,解压即可。
在运行测试之前还需要预处理数据

将官网提供的landmark文件下载下来,并解压到landmarks文件夹中。进入到crop_mouth_from_video.py中,将–video-direc设置为lrw数据集的路径,–landmark-direc设置为landmas的路径,–save-direc设置为输出结果的路径,–convert-gray设置为True(转化为灰度图),–testset-only设置为True(只转化测试集),

运行代码可能会有list out of index的错误,解决方法:1.linux环境or2.使用在windows调通的代码,提取码:1111

5.进行测试

进入main.py,修改测试参数,–data-dir设置为预处理代码的输出路径,–model-path设置为下载模型的位置,–config-path设置为与模型对应的json文件路径。完成基本设置即可运行测试代码,在一台i7+1050Ti笔记本中运行20分钟即可完成模型测试,ps(共有500*50=25000个样本,使用的是轻量模型中准确率做高的snv1x_dsmstcn3x模型,准确率为85.312%)
另一个模型为改项目准确度最高但较大的模型–resnet18_mstcn_adamw_s3,准确率为87.94%

史上最详细 Lipreading using Temporal Convolutional Networks 环境配置相关推荐

  1. 史上最详细Lipreading using Temporal Convolutional Networks(MS-TCN)代码层面详解

    本文将从代码层面详细介绍在LRW数据集实现SOTA效果的唇语识别模型MS-TCN.GitHub代码请看Lipreading using Temporal Convolutional Networks, ...

  2. TSN(temporal segment networks)环境配置

    1. anaconda创建虚拟环境 conda create -n Tsn python=3.7 2. 安装pytorch torchvision conda install pytorch==1.0 ...

  3. 史上最详细唇语识别最新研究进展记录

    本文是唇语识别近2年来最新的方法的记录,主要集中在中英文词级数据集如LRW,LRW-1000,英文句子级数据集如LRS2,英文短语级数据集如OuluVS2,以及其他一些数据集. 记录方法为1.简要翻译 ...

  4. 史上最详细唇语识别数据集综述

    更新:VIPL官网网页格式更改,导致旧的LRW1000链接无法访问,现已更新LRW1000数据集链接,内部包含申请需要的文件 推荐一个大佬的综述,关于实现唇语识别的多种途径. 说明:本文包括经常用语唇 ...

  5. 史上最详细LRW数据集、LRW-1000数据集、LRS2数据集、LRS3-TED数据集、OuluVS2数据集介绍

    update 2022-10-22: 更新了LRW1000的官网链接详见史上最详细唇语识别数据集综述 本文将介绍唇语识别领域使用最多的几个数据集. 一.本文将详细的介绍数据集的格式以及处理方法,欢迎在 ...

  6. 史上最详细的微生物扩增子数据库整理

    声明:文件所有链接内容来自"生信控"公众号,已经获作者向屿授权. 本人对每个数据库的使用目的和经验配导读,需要使用的小伙伴读点击链接跳转原文学习. "生信控"相 ...

  7. 史上最详细版Centos6安装详细教程

    镜像CentOS-6.8-x86_64-bin-DVD1.ISO 将下载好的镜像上传到服务器,并选择该镜像(详情请看上篇exsi镜像上传文章) 一.安装开始 开机选择第一项 这里询问我们是否要对光盘进 ...

  8. 史上最详细“截图”搭建Hexo博客——For Windows

    http://angelen.me/2015/01/23/2015-01-23-%E5%8F%B2%E4%B8%8A%E6%9C%80%E8%AF%A6%E7%BB%86%E2%80%9C%E6%88 ...

  9. 不仅有史上最详细Docker 安装Minio Client,还附带解决如何设置永久访问和永久下载链接!!(详图)绝对值得收藏的哈!!!!

    背景: 这两天在整理知识点,然后在学习Minio,一开始遇到更新,整了我不少时间,之前用的太久了,改了不少东西.用了之后发现不知道怎么设置成永久访问,就出了这篇文章. 史上最详细Docker安装最新版 ...

最新文章

  1. 细数英特尔收购McAfee可获得安全产品
  2. 搜索专题【2010】四2.过河问题
  3. 元宇宙大比拼:英伟达Nvidia,Facebook,iwemeta
  4. *** FATAL ERROR: too many grib files .. 1st=F:\data\预测数据 2nd=- ***
  5. LNMP部署(分享十七)
  6. [教程]在Windows 2012 R2上安装Intel I217-V/I218-V网卡驱动
  7. java读二进制bin文件内容_利用Java读取二进制文件示例详细解说
  8. c语言程序设计 简述操作系统管理文件的方法,C语言程序设计基础实验.doc
  9. matlab求临界稳定时的k,MATLAB自动控制原理仿真
  10. 《 ATSS:Adaptive Training Sample Selection》
  11. 苹果如何分屏_玩转mac—苹果电脑操作教程
  12. 计算机硬盘序列号有什么意义,硬盘序列号会/为什么会改变
  13. 安装软件时提示丢失MSVCR.dll,vc++运行库的问题
  14. 计算机资源管理菜单包括哪些,资源管理器文件菜单有哪些命令,资源管理器命令...
  15. r语言svr模型_基于ARIMA,SVR组合模型的空气质量指数预测——以济南为例
  16. vim 快速删除一个英文单词
  17. 【CTF WriteUp】UTCTF 2020部分题解
  18. 重写equals方法一定要重写hashcode方法吗
  19. golang学习笔记(十六):多态的实现
  20. hbuilder前端需要的插件_这两款HTML5开发工具,前端开发工程师用了直呼内行

热门文章

  1. 企业版邮箱怎么登录?公司邮箱如何登录安全?
  2. 网页按钮滑动变色与按钮光影效果的实现
  3. MIPS指令合集(31条)R,I,J型 解释
  4. 公众帐号被系统冻结后,如何解绑管理员?
  5. 中央空调水系统变频水泵控制程序,包含200smart源程序及smart触摸屏程序
  6. 针尖对麦茫?风马牛不相及!BBE和SRS WOW看仔细
  7. live555库安装_live555库的使用总结 | 学步园
  8. 数商云SCM系统上线实时预警功能,助力汽车零部件企业打造可视化供应链
  9. 推箱子更新版(模块化)
  10. 表单标签和iframe标签的用法