史上最详细 Lipreading using Temporal Convolutional Networks 环境配置
唇语识别是目前人工智能领域比较热门的应用之一,本文将在之后的内容中介绍2020年英文词汇级唇语识别在LRW(Lir Reading in the Wild)数据集以及LRW-1000两个数据集上实现SOTA的项目github,可以在唇语识别数据集综述中找到这两个数据集的官网,以及其他常用数据集的地址,下面是论文地址Lipreading using Temporal Convolutional Networks
这是目前常用的几个大型数据集的介绍史上最详细LRW、LRW-1000和OuluVS2数据集介绍,其中包含数据集的下载链接
文章目录
- 0.介绍
- 1.下载项目源代码
- 2.环境配置
- 1.pytorch
- 2.其他库
- 3.模型下载
- 4.数据集准备
- 5.进行测试
0.介绍
该项目中实现唇语识别的过程主要步骤
将人脸标记出来
对齐每一帧以参考平均脸型
从已对齐的人脸图像中裁剪出固定的96×96像素宽ROIs,使嘴部区域始终粗略地以图像裁剪为中心
将裁剪的图像转换为灰度图
该项目并未给出训练模型的代码,只有测试与训练模型的代码,所以本人近期将尝试复现该项目的训练代码。
代码分析的博客在本人主页,欢迎感兴趣的童鞋持续关注
下面开始正式的测试代码的环境配置
1.下载项目源代码
将项目的源代码下载到本地
2.环境配置
1.pytorch
参考史上最详细yolov5环境配置搭建+配置所需文件中的第234步进行pytorch-GPU的基本配置
其中需要的文件如cuda,cudnn等均有提供,需要的可以自行下载
2.其他库
通过anaconda进入虚拟环境中,将下面的代码复制进去,即可完成其他库的安装
pip install numpy
pip install scipy
pip install opencv-python
pip install matplotlib
pip install tqdm
pip install scikit-image
3.模型下载
官网提供了预训练的模型
模型下载完不用解压,程序会自动解压导入
4.数据集准备
本文是在LRW数据集上进行测试的,使用者需要先申请LRW数据集,将数据集下载下来按官网的步骤,链接,解压即可。
在运行测试之前还需要预处理数据
将官网提供的landmark文件下载下来,并解压到landmarks文件夹中。进入到crop_mouth_from_video.py中,将–video-direc设置为lrw数据集的路径,–landmark-direc设置为landmas的路径,–save-direc设置为输出结果的路径,–convert-gray设置为True(转化为灰度图),–testset-only设置为True(只转化测试集),
运行代码可能会有list out of index的错误,解决方法:1.linux环境or2.使用在windows调通的代码,提取码:1111
5.进行测试
进入main.py,修改测试参数,–data-dir设置为预处理代码的输出路径,–model-path设置为下载模型的位置,–config-path设置为与模型对应的json文件路径。完成基本设置即可运行测试代码,在一台i7+1050Ti笔记本中运行20分钟即可完成模型测试,ps(共有500*50=25000个样本,使用的是轻量模型中准确率做高的snv1x_dsmstcn3x模型,准确率为85.312%)
另一个模型为改项目准确度最高但较大的模型–resnet18_mstcn_adamw_s3,准确率为87.94%
史上最详细 Lipreading using Temporal Convolutional Networks 环境配置相关推荐
- 史上最详细Lipreading using Temporal Convolutional Networks(MS-TCN)代码层面详解
本文将从代码层面详细介绍在LRW数据集实现SOTA效果的唇语识别模型MS-TCN.GitHub代码请看Lipreading using Temporal Convolutional Networks, ...
- TSN(temporal segment networks)环境配置
1. anaconda创建虚拟环境 conda create -n Tsn python=3.7 2. 安装pytorch torchvision conda install pytorch==1.0 ...
- 史上最详细唇语识别最新研究进展记录
本文是唇语识别近2年来最新的方法的记录,主要集中在中英文词级数据集如LRW,LRW-1000,英文句子级数据集如LRS2,英文短语级数据集如OuluVS2,以及其他一些数据集. 记录方法为1.简要翻译 ...
- 史上最详细唇语识别数据集综述
更新:VIPL官网网页格式更改,导致旧的LRW1000链接无法访问,现已更新LRW1000数据集链接,内部包含申请需要的文件 推荐一个大佬的综述,关于实现唇语识别的多种途径. 说明:本文包括经常用语唇 ...
- 史上最详细LRW数据集、LRW-1000数据集、LRS2数据集、LRS3-TED数据集、OuluVS2数据集介绍
update 2022-10-22: 更新了LRW1000的官网链接详见史上最详细唇语识别数据集综述 本文将介绍唇语识别领域使用最多的几个数据集. 一.本文将详细的介绍数据集的格式以及处理方法,欢迎在 ...
- 史上最详细的微生物扩增子数据库整理
声明:文件所有链接内容来自"生信控"公众号,已经获作者向屿授权. 本人对每个数据库的使用目的和经验配导读,需要使用的小伙伴读点击链接跳转原文学习. "生信控"相 ...
- 史上最详细版Centos6安装详细教程
镜像CentOS-6.8-x86_64-bin-DVD1.ISO 将下载好的镜像上传到服务器,并选择该镜像(详情请看上篇exsi镜像上传文章) 一.安装开始 开机选择第一项 这里询问我们是否要对光盘进 ...
- 史上最详细“截图”搭建Hexo博客——For Windows
http://angelen.me/2015/01/23/2015-01-23-%E5%8F%B2%E4%B8%8A%E6%9C%80%E8%AF%A6%E7%BB%86%E2%80%9C%E6%88 ...
- 不仅有史上最详细Docker 安装Minio Client,还附带解决如何设置永久访问和永久下载链接!!(详图)绝对值得收藏的哈!!!!
背景: 这两天在整理知识点,然后在学习Minio,一开始遇到更新,整了我不少时间,之前用的太久了,改了不少东西.用了之后发现不知道怎么设置成永久访问,就出了这篇文章. 史上最详细Docker安装最新版 ...
最新文章
- 细数英特尔收购McAfee可获得安全产品
- 搜索专题【2010】四2.过河问题
- 元宇宙大比拼:英伟达Nvidia,Facebook,iwemeta
- *** FATAL ERROR: too many grib files .. 1st=F:\data\预测数据 2nd=- ***
- LNMP部署(分享十七)
- [教程]在Windows 2012 R2上安装Intel I217-V/I218-V网卡驱动
- java读二进制bin文件内容_利用Java读取二进制文件示例详细解说
- c语言程序设计 简述操作系统管理文件的方法,C语言程序设计基础实验.doc
- matlab求临界稳定时的k,MATLAB自动控制原理仿真
- 《 ATSS:Adaptive Training Sample Selection》
- 苹果如何分屏_玩转mac—苹果电脑操作教程
- 计算机硬盘序列号有什么意义,硬盘序列号会/为什么会改变
- 安装软件时提示丢失MSVCR.dll,vc++运行库的问题
- 计算机资源管理菜单包括哪些,资源管理器文件菜单有哪些命令,资源管理器命令...
- r语言svr模型_基于ARIMA,SVR组合模型的空气质量指数预测——以济南为例
- vim 快速删除一个英文单词
- 【CTF WriteUp】UTCTF 2020部分题解
- 重写equals方法一定要重写hashcode方法吗
- golang学习笔记(十六):多态的实现
- hbuilder前端需要的插件_这两款HTML5开发工具,前端开发工程师用了直呼内行