小米开源语音模型 Kaldi-ONNX 转换工具,助力移动端部署!
作者 | 小米开源团队
责编 | 胡巍巍
近日,小米对外开源了Kaldi模型到ONNX模型的转换工具Kaldi-ONNX,有望进一步促进Kaldi生态与深度学习生态间的互通。
同时,配合移动端深度学习框架MACE,将极大降低语音模型在手机与智能设备上的离线部署门槛,并大幅提升推理效率。
介绍
Kaldi是目前使用广泛的开发语音识别应用的框架,利用Kaldi,研究开发人员可以训练出语音识别神经网路模型,不过将训练得到的模型部署到移动端设备上往往需要大量的移植开发工作。
Kaldi-ONNX是一个开源的轻量化Python脚本工具,可以用来将Kaldi的神经网络模型文件转换为ONNX格式模型。
而ONNX是一种开放神经网络交换格式(Open Nerual Network Exchange),它为神经网络模型提供了一种开源的格式, 目前已经有多个神经网络框架或工具支持ONNX格式模型,如Caffe2,PyTorch,Tensorflow,MACE, CoreML等。
意义和优势
使用Kaldi-ONNX将Kaldi的神经网络模型转换成ONNX开源格式,一方面可以使用兼容ONNX的各种工具,如进行可视化检查或模型优化。
另外转换得到的模型可以借助MACE或其他神经网络框架部署到Android,iOS,Linux/Windows或其他设备上, 为开发者部署语音识别神经网络模型提供了更多框架或工具的选择。
Kaldi-ONNX在设计中考虑了工具的轻量化、易用、灵活、高效等特点,主要从如下几个方面进行设计:
使用Python脚本编写,跨平台,方便在Linux/Window/Mac系统下使用;
体积小,除ONNX框架接口外无第三方依赖,易安装;
广泛支持Kaldi的Nnet2和NNet3模型及常用的神经网络组件;
可扩展及模块化设计,方便更新或添加新的组件;
模型融合及优化,将Kaldi框架对神经网络的编译优化过程进行了简化, 并针对LSTM/TDNN等进行了融合,转换成有向无环网络模型,使模型的部署和推理计算更高效。
此外,MACE(移动端AI计算引擎)框架已支持ONNX格式模型文件和Kaldi模型中常用的算子, 因此推荐使用MACE来部署Kaldi的语音识别神经网络模型。同时MACE的Model Zoo项目里已经收录了数个转换好的Kaldi语音识别DNN模型。
性能指标
下表是在小米MIX 2S(骁龙845)上的测试数据(单位: 毫秒):
Kaldi nnet3 模型
Nnet3 模型(chunk size=20) |
arm64-v8a |
armeabi-v7a |
CVTE |
99.1 |
88.694 |
SRE16 |
64.553 |
48.593 |
ASpIRE |
8.165 |
8.499 |
Callhome |
23.851 |
13.813 |
VoxCeleb Models |
76.182 |
55.172 |
SITW Model |
61.096 |
52.418 |
Kaldi nnet2 模型
Nnet2 模型(chunk size = 20) |
arm64-v8a |
armeabi-v7a |
Fisher English |
80.503 |
78.712 |
Librispeech |
80.116 |
86.224 |
RM |
23.197 |
25.228 |
Tedlium |
102.535 |
116.807 |
Timit |
6.488 |
6.179 |
项目地址
Kaldi-ONNX项目地址:
https://github.com/XiaoMi/kaldi-onnx
MACE项目地址:
https://github.com/XiaoMi/mace
示例模型地址:
https://github.com/XiaoMi/mace-models/tree/master/kaldi-models
【END】
作为码一代,想教码二代却无从下手:
听说少儿编程很火,可它有哪些好处呢?
孩子多大开始学习比较好呢?又该如何学习呢?
最新的编程教育政策又有哪些呢?
下面给大家介绍CSDN新成员:极客宝宝(ID:geek_baby)
戳他了解更多↓↓↓
热 文 推 荐
开源需自立!Android、GitHub、Apache 全线告急!
☞任正非回应美国禁令推迟90天实施;小米无惧安卓系统禁用;苹果5G芯片有望2025年面世 | 极客头条
程序员过关斩将:小小的分页引发的加班血案
☞揭秘清华 AI 学堂班:姚期智担任首席教授,2019 年首批招收 30 人
程序员 520 脱单指南!
《使女的故事》大火,AI是背后最大推手?
☞十面九问的逆天异步神器-celery,你了解多少?
黑客亲述: "倾家荡产,是你们的事! "
Docker 系列学习文章 | 什么是容器云?
☞大神!这段代码让程序员躺赚200W,源码简单,你怎么看?
点击阅读原文,输入关键词,即可搜索您想要的 CSDN 文章。
你点的每个“在看”,我都认真当成了喜欢
小米开源语音模型 Kaldi-ONNX 转换工具,助力移动端部署!相关推荐
- kaldi语音识别实战网盘_小米开源语音模型 KaldiONNX 转换工具,助力移动端部署!...
作者 | 小米开源团队 责编 | 胡巍巍 近日,小米对外开源了Kaldi模型到ONNX模型的转换工具Kaldi-ONNX,有望进一步促进Kaldi生态与深度学习生态间的互通. 同时,配合移动端深度学习 ...
- 模型部署到移动端_TensorFlow Lite 自然语言处理模型的最新功能,助力设备端 NLP 部署...
设备端机器学习框架 TensorFlow Lite 为手机.微控制器和 Edge TPU 等边缘设备提供机器学习功能,已被广泛用于许多应用领域.其中,"自然语言处理" (Natur ...
- soar mysql_小米开源的数据库SQL性能分析工具SOAR,windows版安装使用
SOAR SOAR(SQL Optimizer And Rewriter)是一个对SQL进行优化和改写的自动化工具. 由小米人工智能与云平台的数据库团队开发与维护. 功能特点跨平台支持(支持Linux ...
- 基于开源大模型Vicuna-13B构建私有制库问答系统
本教程专注在怎么使用已经开源的模型和项目,构建一个可以私有化部署的问答知识库,而且整体效果要有所保障. 主要工作包括: 选择基础模型,openAI,claude 这些商用的,或者其他的开源的,这次我们 ...
- 视频可以转换html,10 个免费的 HTML 视频转换工具
现在,人们都喜欢看视频目前,大多数的人都是看视频在线或移动.因此,视频必须有正确的格式,可以通过手机或支持系统.因此,人们需要一些应用程序的工具,将有助于他们现有的文件格式转换成当前的格式如MP4,W ...
- html的视频格式转换,10 个免费的 HTML 视频转换工具
现在,人们都喜欢看视频目前,大多数的人都是看视频在线或移动.因此,视频必须有正确的格式,可以通过手机或支持系统.因此,人们需要一些应用程序的工具,将有助于他们现有的文件格式转换成当前的格式如MP4,W ...
- html的视频格式转换,盘点10个免费实用的 HTML 视频转换工具
现在,人们都喜欢看视频目前,大多数的人都是看视频在线或移动.因此,视频必须有正确的格式,可以通过手机或支持系统.因此,人们需要一些应用程序的工具,将有助于他们现有的文件格式转换成当前的格式如MP4,W ...
- 基于《Kaldi语音识别》技术及开源语音语料库分享
前言: 数据堂自AI开源计划发起,面向高校和科研机构首次开源的[1505小时中文普通话语音数据集],该数据集句标注准确率达到了98%,得到了很多开发者的认可. 不仅如此,数据堂基于此开源数据集还精选出 ...
- 转换onnx_模型转换工具X2Paddle操作大全
深度学习的应用主要包括两个部分,一是通过深度学习框架训练出模型,二是利用训练出来的模型进行预测. 开发者基于不同的深度学习框架能够得到不同的训练模型,如果想要基于一种框架进行预测,就必须要解决不同框架 ...
最新文章
- FragmentTabHost切换Fragment时避免重复加载UI
- if you feel lonely
- TermServDevices错误的解决方案
- c# 获取当前活动窗口句柄,获取窗口大小及位置
- Docker (1) 基本概念和安装
- 牛客20701 神秘钥匙
- 达梦数据库导入oracle数据_达梦数据库和oracle数据的一些区别
- PyCharm:调试遇到问题
- Java 蓝桥杯 A+B problem
- 利用DIV,实现简单的网页布局
- iOS贝塞尔曲线(UIBezierPath)的基本使用方法
- ubuntu下安装FoxitReader pdf阅读器
- html化学式编辑器,化学反应方程式编辑器软件(ChemDraw Pro)
- 项目选题报告答辩总结
- #学习笔记 使用c语言来制作一个计算器
- 「日历订阅」全网首发2023年中国法定节假日
- 偶数c语言中怎么写,偶数怎么写
- aspectj tomcat load-time waver
- Mac book air在浏览器中显示flash过期问题
- Chrome for Android AutoComplete地址栏地址自动补全功能调研和更新
热门文章
- [论文阅读] Adaptive Context Selection for Polyp Segmentation
- 小白使用ubuntu杂记
- leetcode python3 简单题58. Length of Last Word
- oracle日期类型格式转换,Oracle日期类型转换格式
- cnn 回归 坐标 特征图_RCNN, Fast R-CNN 与 Faster RCNN理解及改进方法
- linux建模工具有哪些,linux uml 免费 建模工具
- php100 swfupload,swfupload上传图片读取最大只有100*75
- 按比例算出成绩 用c语言,Excel按指定比例生成学生总分,并迭代计算出各学科分数...
- Easystructure教程_C语言源代码自动生成流程图
- 「动手学深度学习」在B站火到没谁,加这个免费实操平台,妥妥天花板