昨日,谷歌在其开源博客中宣布开源 Android语音识别转录工具——Live Transcribe的语音引擎(Live Transcribe Speech Engine),它旨在将语音或对话实时转录为文字,还能够为听障人士提供帮助。

Live Transcribe 是谷歌于今年2月推出的一款Android应用程序,它的语音识别由谷歌最先进的Cloud Speech API提供。但是,依赖于云引入了一些复杂性,不断变化的网络连接、数据成本和延迟等等都带来一些考验。因此,谷歌把它开源出来,希望开发人员在已有的基础上进一步构建和开发。

Cloud Speech API目前无法支持无限的音频流,团队采取了一些措施来解决这一难题,例如在达到超时之前关闭并重新启动流式传输请求,这将有效减少会话中丢失的文本量。

无限流媒体音频带来了一大挑战。在许多国家,网络数据非常昂贵,并且在互联网较差的地方,带宽可能有限。Live Transcribe Speech Engine的团队对音频编解码器进行了大量实验,并最终在不影响精度的情况下将数据使用量减少了10倍。

另外,由于是提供实时语音转录,转录出来的文本会随着语音的输入不断发生变化,降低延迟自然十分必要。该引擎能够大大降低延迟率,这都要归功于它的自定义Opus编码器。

此外,值得一提的是,Live Transcribe支持超过70种语言,并能够根据语音自动识别语种,其中也包括中文。

谷歌宣布开源 Live Transcribe 语音识别转文字工具相关推荐

  1. 谷歌开源Live Transcribe语音识别转文字工具

    8月18日,Google宣布开源Android语音识别转录工具Live Transcribe的语音引擎. 这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟.断网等问题导致的沟通障 ...

  2. 【安卓学习之开源项目】 ParrotTongue:文字转语音(含LeLeTextToVoice、TextToMp3项目)

    █ [安卓学习之开源项目] ParrotTongue:文字转语音(含LeLeTextToVoice.TextToMp3项目) █ 系列文章目录 提示:这里是收集了和音频有关的文章 [安卓学习之MP3] ...

  3. 免费语音识别成文字_免费在线语音识别成文字_语音识别文字免费软件 - 云+社区 - 腾讯云...

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 腾讯云语音识别(asr) 为开发者提供语音转文字服务的最佳体验. 语音识 ...

  4. 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 目录 文章目录 目录 @[toc] open ai 的开源工具:whisper whisper介绍 引用 ASRT语音识别项目 ASRT介绍 引用 ...

  5. 谷歌重磅开源新技术:5行代码打造无限宽神经网络模型,帮助“打开ML黑匣子”...

    鱼羊 假装发自 凹非寺 量子位 报道 | 公众号 QbitAI 只要网络足够宽,深度学习动态就能大大简化,并且更易于理解. 最近的许多研究结果表明,无限宽度的DNN会收敛成一类更为简单的模型,称为高斯 ...

  6. python 实现语音转文字_python3实现语音转文字(语音识别)和文字转语音(语音合成)...

    话不多说,直接上代码运行截图 1.语音合成 -------> 执行: 结果: 输入要转换的内容,程序直接帮你把转换好的mp3文件输出(因为下一步–语音识别–需要.pcm格式的文件,程序自动执行格 ...

  7. 华为麒麟990芯片发布;谷歌宣布开源创新隐私保护技术;阿里20亿美元全资收购网易考拉;中国联通将设立100亿5G创新基金……...

    关注并标星星CSDN云计算 极客头条:速递.最新.绝对有料.这里有企业新动.这里有业界要闻,打起十二分精神,紧跟fashion你可以的! 每周三次,打卡即read 更快.更全了解泛云圈精彩news g ...

  8. 双目立体放大!谷歌刚刚开源的这篇论文可能会成为手机双摄的新玩法

    点击我爱计算机视觉标星,更快获取CVML新技术 摄像头和计算机视觉技术已经成为智能手机技术创新的重要战场. 苹果上个月发布的iPhone XS中计算机视觉技术可谓其重要亮点(详见:iPhone Xs发 ...

  9. python离线录音转文字_python3实现语音转文字(语音识别)和文字转语音(语音合成)...

    话不多说,直接上代码运行截图 1.语音合成 -------> 执行: 结果: 输入要转换的内容,程序直接帮你把转换好的mp3文件输出(因为下一步–语音识别–需要.pcm格式的文件,程序自动执行格 ...

最新文章

  1. Cell:人体细菌到究竟有多少,再作报告必引此文
  2. 零基础基于U-Net网络实战眼底图像血管提取
  3. html 流动效果,html5 canvas流动的海浪特效
  4. 一个对象的内存图及运行流程和3个对象的内存图的运行流程
  5. 2022年中国功能性儿童学习用品行业发展趋势报告
  6. Django实现发邮件
  7. 使用DataSync迁移数据到Gaussdb T
  8. Linux命令Man解释:useradd:帐号建立或更新
  9. Leetcode669.Trim a Binary Search Tree修建二叉树
  10. (原创) 心电图机静态心电自动分析算法介绍
  11. C语言日志库zlog基本使用
  12. 2.1MAC协议概述
  13. 密码太多不知道怎么记录?不如自己写个密码箱小程序
  14. 数码计算机英语单词,数码相机的规格词汇中英对照
  15. JAVA-循序结构、选择结构
  16. 全国青少年编程等级考试python一级真题2020年6月(含题库答题软件账号)
  17. 编写函数求区间[200,3000]中所有的回文数, 回文数是正读和反读都是一样的数
  18. Unreal 4.24毛发
  19. PyTorch强化:01.PyTorch 数据加载和处理
  20. azure创建centos_如何使用Blazor和Azure计算机视觉创建光学字符读取器

热门文章

  1. Vue, element-ui Module build failed: Error: No PostCSS Config found
  2. docker容器管理及网络管理
  3. iOS Swift-元组tuples(The Swift Programming Language)
  4. css3为图片添加鼠标移入放大效果
  5. [NPOI2.0] 使用NPOI读取和导出Excel文件
  6. ios 安装OpenFire
  7. POJ3753 根据关键字进行字符串拷贝【文本处理】
  8. HDU1202 The calculation of GPA【水题】
  9. Bailian2766 最大子矩阵【最大子段和+DP】
  10. Go语言程序的命令行参数