语音识别正在进入我们日常生活的方方面面。它内置在我们的手机、游戏机或智能手表中,只需呼唤它的名字,就可以帮你订外卖、播报天气等等。经过几十年的发展,深度学习使得语音识别技术可以应用到更多的实际场景中。

语言是人与人沟通最重要的方式,语音识别能力是让机器理解人类世界的基础能力。通过深度学习算法建立语音识别模型,需要大量高质量的结构化语音数据对模型进行训练。语音分割和语音转写即对非结构化语音数据进行的结构化处理。

语音分割和语音转写工具是Appen团队专门针对高质量的语音识别模型训练而研发。

语音分割

SEGMENTATION

语音分割是指标记语音信号的开始时间和结束时间,以划分出一段语音中句子、单词、音节的边界。根据是否存在实际说话内容,音频可分割为有效片段和无效片段。根据算法要求的不同,通常的分割处理方式有两种:

方法1:分割出无效片段

分割出无效片段,并对无效片段打标签,如噪音、背景音乐、音量过小等。

方法2:分割出有效片段

只分割出有效片段,无效片段不做分割。

当一段语音中同时存在多个说话人时,工具也支持不同的分割方式:可根据主说话人的语音内容分割,只分割出主说话人的语音;也可独立分割每个说话人的语音内容,不同说话人的分段可能会有重叠。

▲多个说话人的分割处理

在实际项目中,通常要求切分时间点与第一个音节的开始时间只相差几百甚至几十毫秒,这对于标注工具及人员操作的要求较高。工具可提供刻度、量尺等功能,辅助达到高标准的标注精度要求。

与此同时,工具还可以使用语音分割算法对数据进行预处理,使得实际标注时只需要在预处理的基础之上做出调整即可。

语音转写

TRANSCRIPTION

语音转写是指将分割出的每个语音段里的内容转写成文字。除了转写出文本外,还可以给语音设置属性标签、文本标签等,以满足语音分类、情绪判定等不同的标注需求。

由于不同说话人的语速、说话清晰度等都不尽相同,因此标注工具需要支持不同的播放速度设置,以及不同的语音播放模式

在分割出语音片段后,工具支持给每个片段选择不同的属性标签,如说话人、情感、内容分类等等,可用于对语音内容的分类;在转写文本中,工具亦支持进一步在文字中设置停顿、强调、疑问等文本标签。

▲设置文本标签

同样地,语音转写工具也具有算法辅助功能:标注员完成音频分割后,可通过算法预转写语音内容,并在预转写结果的基础上进行修改。

▲算法辅助转写

吴恩达曾经预测,当语音识别的准确率从95%提升到99%时,语音识别将成为人类与计算机交互的新方式。这4%准确率的提升,使得未来语音识别技术的应用充满无限想象。

Talk to AI,揭秘背后的语音识别数据相关推荐

  1. 中国AI产业背后的富士康工人:拿低工资为硅谷巨头的数据贴标

    中国AI产业背后的富士康工人:拿低工资为硅谷巨头的数据贴标 https://mp.weixin.qq.com/s/zeYWAxYWR8WGtm10csEFKQ [导读]AI是人类想要实现真正自由的梦想 ...

  2. 90%人工智能公司都亏损?AI盈利难背后的大数据门槛

    AI落地场景在不断增多,但赚钱依旧艰难. 根据亿欧报告显示,2018年全年,近90%的人工智能公司处于亏损状态,而10%赚钱的企业基本是技术提供商.从谈概念.讲技术,到拼场景.抢落地,建立在大数据基础 ...

  3. 【云周刊】第146期:史上最大规模人机协同的双11,12位技术大V揭秘背后黑科技...

    摘要: 史上最大规模人机协同的双11,12位技术大V揭秘背后黑科技,INTERSPEECH 2017系列 | 语音识别之语言模型技术,机器学习初学者必须知道的十大算法,云数据库SQL Server 2 ...

  4. 吴恩达:告别大数据,AI需要高质量小数据!

    来源:AI科技评论 本文约5000字,建议阅读10分钟 本文向大家谈下吴恩达对基础模型.大数据.小数据以及数据工程的一些感悟. 吴恩达是人工智能(AI)和机器学习领域国际最权威的学者之一,最近一年里, ...

  5. 聚焦技术和实践,腾讯全面揭秘基础设施和大数据演进之路

    "开发者是推动技术发展的主力军,数字社会向前的每一步,都离不开广大开发者.作为数字化转型助手,腾讯云将秉持"开源.共享.创新"的三大理念持续助力开发者的个人成长和价值创造 ...

  6. 因果AI热度背后的打靶迷局

    这两年因果AI真的太火了!相信近两年关注AI领域的读者,不难发现有一种声音越来越多.越来越大:因果AI将是下一代可信AI技术,因果革命将开启下一代AI浪潮. 为因果AI鼓与呼的文章,论证逻辑基本是差不 ...

  7. 【观察】VxRail领跑超融合市场,揭秘背后的“幕后英雄”

    申耀的科技观察 读懂科技,赢取未来! 说到超融合市场,就不能不提Dell EMC VxRail,自2014年问世至今6年来,VxRail始终保持着高速成长. 根据IDC发布的<全球融合系统市场季 ...

  8. 云栖大会上海峰会,AI、云计算、大数据领衔的新产品哪些看点不容错过?

    -------- 作者:刘学习 从2009年的地方网站峰会,到2011年阿里云开发者大会,再到2015年的"云栖大会",云栖大会不仅仅是一个用户大会或者开发者大会,现在已成为一项全 ...

  9. 【语音之家】AI产业沙龙—自动语音识别利器 - NVIDIA NeMo

    由CCF语音对话与听觉专委会 .中国人工智能产业发展联盟(AIIA)评估组.NVIDIA.语音之家.希尔贝壳共同主办的[语音之家]AI产业沙龙-自动语音识别利器 - NVIDIA NeMo,将于202 ...

最新文章

  1. 调查:中国CIO在亚太拥最大战略影响力
  2. Weex Flexbox弹性布局使用
  3. 可视化Linux性能监控
  4. emq+mysql设置_EMQ--添加mysql认证及mysql插件访问控制
  5. RabbitMQ快速安装配置指南
  6. 关于字节面试过程不会的算法题总结
  7. 大数据之-Hadoop伪分布式_Log日志查看和NN格式化前强调---大数据之hadoop工作笔记0024
  8. C语言 · 猜算式
  9. SpringCloud之 Feign的简单使用
  10. 从零开始搭二维激光SLAM --- Karto的前端实现与解读
  11. C语言编程100题(基础知识、基本结构、数组)
  12. java球的体积计算
  13. springboot获取到的MySQL数据少了8小时
  14. c语言打鱼晒网问题报告书,C语言渔夫打鱼晒网问题.docx
  15. Clover引导Windows10,Mac OS High Sierra,CentOS7 经验分享
  16. 51单片机数码管交通灯倒计时c语言,51单片机数码管倒计时模拟交通灯汇编程序...
  17. Chromedriver适用谷歌浏览器的各个版本
  18. 通过adb模拟快速的屏幕点击,小米手机亲测有效
  19. 科学论文类型分类(letter,nbsp;p…
  20. 低代码在爱奇艺鹊桥数据同步平台的实践

热门文章

  1. SaltStack组件return和job cache以及salt-ssh
  2. [办公软件word] 怎么让Worde2019显示所有批注?
  3. 110报警声+单片机c语言,基于单片机的红外报警系统设计毕业论文.docx
  4. R语言 表达式对象的求值 eval
  5. HTML入门学习笔记+详细案例
  6. 如何在微信分享的网页中显示描述和图片
  7. 「Prompt」是什么,并用简单的范例让你了解如何善用他、避开陷阱,以此获得更好的 ChatGPT 回复。
  8. 006 研究生学信网的电子注册备案表在哪里弄
  9. 计算机地图制图原理与算法,计算机地图制图原理与算法基础.ppt
  10. 64位ubuntu使用gcc -m32报错