8月18日,Google宣布开源Android语音识别转录工具Live Transcribe的语音引擎。

这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国或是与新朋友见面,Live Transcribe都可以帮助你进行沟通。

交流时可以实时畅通(只要有网络)

Google于今年2月发布了Live Transcribe。该工具使用机器学习算法将音频转换为实时字幕,与Android即将推出的Live Caption功能不同,Live Transcribe是一种全屏体验,使用智能手机的麦克风(或外接麦克风),并依赖于Google Cloud Speech API。Live Transcribe可以用70多种语言和方言标题实时口语。另一个主要区别是Live Transcribe可在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时,它只适用于部分Android Q设备)。

在云上工作

Google的Cloud Speech API目前不支持发送无限长的音频流。此外,依赖云意味着网络连接、数据成本和延迟方面都有潜在问题。

结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新开始会话并且每当语音中检测到暂停时关闭。在会话之间,语音引擎还在本地缓冲音频,然后在重新连接时发送它。因此,Google避免了截断的句子或单词,并减少了会话中丢失的文本量。

70多种语言和方言中挑选自己合适的

为了降低带宽需求和成本,Google还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码器)可以保持准确性,不会节省太多数据,并且具有明显的编解码器延迟。AMR-WB可以节省大量数据,但在嘈杂的环境中准确度较低。

与此同时,Opus允许数据速率比大多数音乐流媒体服务低许多倍,同时仍保留音频信号的重要细节。Google还会在长时间的静音期间使用语音检测来关闭网络连接。

总体而言,该团队能够实现“在不影响准确性的情况下,将数据使用量减少10倍”。

为了比Cloud Speech API更进一步减少延迟,Live Transcribe使用自定义Opus编码器。编码器恰好提高了比特率,使“延迟在视觉上无法区分发送未压缩的音频”。

长按二维码,关注我们

新睿云,让云服务触手可及

云主机|云存储|云数据库|云网络

点击“阅读原文”参与活动

谷歌开源Live Transcribe语音识别转文字工具相关推荐

  1. 谷歌宣布开源 Live Transcribe 语音识别转文字工具

    昨日,谷歌在其开源博客中宣布开源 Android语音识别转录工具--Live Transcribe的语音引擎(Live Transcribe Speech Engine),它旨在将语音或对话实时转录为 ...

  2. 命令行参数怎么输入_太好用了!谷歌开源的命令行接口工具fire

    大家使用最多的命令行工具应该是pip了,pip提供了很多的命令行参数和选项,我们在终端使用pip install --help命令可以查看install子命令的帮助文档. 可以看到,除了最常用的pip ...

  3. java实现镜像系统_谷歌开源Java镜像构建工具Jib

    容器的出现让Java开发人员比以往任何时候都更接近"编写一次,到处运行"的工作流程,但要对Java应用程序进行容器化并非易事:你必须编写Dockerfile,以root身份运行Do ...

  4. 谷歌开源漏洞跟踪工具 Monorail 存在跨站点搜索漏洞

    一名安全研究员表示,在谷歌开源漏洞跟踪工具 Monorail 中找到一个漏洞,可被用于执行跨站点搜索 (XS-Search) 攻击. Monorail 用于检查和 Chromium 相关项目中的问题, ...

  5. 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 目录 文章目录 目录 @[toc] open ai 的开源工具:whisper whisper介绍 引用 ASRT语音识别项目 ASRT介绍 引用 ...

  6. 谷歌开源机器学习可视化工具 Facets:从全新角度观察数据

    谷歌开源机器学习可视化工具 Facets:从全新角度观察数据 By 黄小天2017年7月18日 10:51 近日,出于支持 PAIR initiative的目的,谷歌发布了 Facets,一款开源的可 ...

  7. 谷歌开源Embedding可视化工具

    谷歌开源Embedding可视化工具 导读 目前,在深度学习中可以利用多种方法或工具将特征信息转换为低维稠密的向量表示(Embedding),且Embedding在自然语言处理.知识图谱.推荐搜索.机 ...

  8. 谷歌开源 Python 代码漏洞查找工具 Atheris

     聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码卫士团队 谷歌安全专家又开源了另外一款自动化模糊测试工具,希望开发人员能够使用该工具在漏洞遭利用前,找到并修复漏洞.这款工具名为"At ...

  9. 谷歌开源文件访问漏洞审计工具 PathAuditor(详解)

     聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码卫士团队 本周一,谷歌宣布开放 PathAuditor 工具的源代码,帮助开发人员找到和文件访问相关的漏洞,不过它并非受谷歌官方支持的产品. 谷 ...

最新文章

  1. 为什么说21世纪是一场ABC的革命?
  2. Color the ball----HDOJ1556
  3. 20190429 照片里面的GPS信息确实会暴露经纬度
  4. C语言中字符型和浮点型能否相加,C语言中数据结构的基本类型(整型、浮点型和字符型)...
  5. std::tostring_枚举:如何正确使用name()和toString()方法
  6. 关于MCU、CPU扩展SDRAM的一个小知识
  7. signal.h-----信号函数
  8. php面向对象之策略模式,php策略模式的学习--引自《深入php面向对象模式与实践》...
  9. 三维计算机视觉(二)--点云滤波
  10. 所有进程的信息 linux,LINUX下获取所有进程信息
  11. 目标检测之2015iccv---objdetection 专题论文
  12. PHP100的php教程批量打包下载
  13. [转]如何在Web页面上直接打开、编辑、创建Office文档
  14. 开发uni-app时HBuilderX编辑器使用微信小程序模拟器保存代码无法刷新模拟器问题
  15. python抓取网站数据并图形化显示(二)
  16. SIM卡的PIN码(CHV)及对应的APDU命令
  17. 网络基础-第三章:认识网线制作工具
  18. Android Doze模式
  19. Arduino与Proteus仿真实例-SHT7x温度湿度传感器驱动仿真
  20. 二、python时间序列数据的相减

热门文章

  1. 思维模型 塔克曼阶梯理论
  2. 几维安全中标欢聚时代 KiwiVM护航YY业务安全
  3. 杭州电子地图 高清15、17、19级别 谷歌电子地图资源
  4. 数据库物理模型以及SQL语句的分类
  5. 人人都在说的数据中台是什么?附9张架构图优质模板!
  6. windows 删除+增加右键新建菜单选项
  7. Location specified by ndk.dir (C:\Users\xxxxx\AppData\Local\Android\Sdk\ndk-bundle) did not cont
  8. Metasploit域渗透测试全程实录(终结篇)
  9. 数字化时代,企业为什么需要进行数据资产管理?
  10. C++类与对象(中)