最近几年,以深度学习为基础,人工智能取得了巨大的进展和广泛的应用,其中语音识别是受益最大的领域之一。在深度学习技术的加持下,多家公司都声称自己的语音识别准确率达到了97%以上。语音识别也的确逐渐应用在像手机输入法、智能音箱、会议记录、机器人等场合。

但是有一个领域,是语音识别最适合进入却又始终没能进入的,那就是电视直播。

我们知道,大多数电视节目是有字幕的,这对于聋人显然是有关键性的辅助作用。即使对于听力正常的人,字幕也能更好地消除歧义,以至于很多人现在看没有字幕的电影或电视节目会觉得不适应。目前电视节目的字幕,主要是在节目制作的后期人工编辑的,这对于录播节目是可以的,但是对于直播节目则无法现场实现。因此,大多数直播节目就没有字幕,其中最重要、最受瞩目、需求也最为迫切的就数春晚了。另外,一些重大赛事,像奥运会、足球世界杯等等,现场的解说也是没有字幕的。虽然之后重播时就会有字幕,但无法在第一时间和普通人一样无障碍地收看春晚和重大比赛,还是给聋人带来了很大不便,对普通人也有一定的影响。

天气有预报是有字幕的,因为是录播的

现场直播的体育比赛就不可能有字幕了

那么为什么电视直播不能用语音识别加上字幕呢?简单来说,还是因为语音识别技术还不够好。这不够好,体现在两个方面。

一个方面是,对于语音识别系统来说,电视直播中的语音难度远大于手机输入法中的语音,识别准确率很难达到97%以上,甚至在某些场合可能连90%都无法达到。

难度主要在哪呢?主要在自然口语和口音。电视直播不只是播音员字正腔圆的播报,也有口语的交流,例如主持人偶尔也会插科打诨一下,此时就会回归到发音不那么规范的自然口语,有连音、吞音等,和正常朗读发音会有区别;有时会请个嘉宾领导、先进模范、草根代表上来讲两句,此时除了口语可能还会有方言口音的问题。自然口语和方言口音都是当前语音识别技术还没完全解决好的问题,遇到了准确率会有大幅下降。

在相声小品等语言类节目中,自然口语和方言口音的问题更为普遍。下面是郭德纲常举例子的一段话,是北京话风格,我用某语音输入法试了下。

原文是:“花200钱买一小猪,滋儿滋儿喝水,嘎嘣儿嘎嘣儿吃豆,隔(读jie)着墙头扔过去,滋儿一声。你猜怎么着?死了!”

识别结果是:“二百钱买一小猪猪多喝水,干不干不吃豆接着墙头扔过去点儿的一生,你的怎么找死了?”

作为技术人员,真心觉得识别得已经不错了,但是如果你是看字幕的观众,你会怎么想?像“你的怎么找死了”这种锅,郭德纲肯定不会背吧?

另外,以上还是针对的最理想情况,就是识别的语音是直接从说话人的麦克风里取到的语音,几乎没有噪音干扰,这只存在于电视台自己处理语音时的情况。如果是第三方希望在接收和转发电视节目的同时给视频加上字幕,那么它所获取的是混音之后的音频,那难度就更大——需要解决语音检测和背景消除的问题。所谓语音检测,是指把语音和音乐、唱歌、掌声等各种声音中切割出来,只留下说话的声音送到语音识别引擎里去处理。这也并不容易,而且一旦有错,后面的语音识别就白做了。对于切割的语音,它的背景里仍然可能有音乐。人耳和人脑的强悍使得人可以毫无障碍地识别出含背景音乐的语音,但这种语音可能会使语音识别系统彻底懵掉。

另一方面,即使语音识别的准确率真的达到了97%,还是不可能用在实时电视字幕上的。这是因为,广电领域对字幕准确率的要求极高,错误率以千分之几来衡量,几乎是一个字都不能错的。不符合要求的一律不得播出。普通节目尚且如此,更不要说春晚这种万众瞩目的大场面了。

所以,至少在目前来说,采用语音识别给直播节目加字幕还是不太可行。

人工智能被拒绝,语音识别做不到给电视直播加字幕?相关推荐

  1. 视频加字幕怎么做?分享几种视频加字幕方法

    视频加字幕怎么做呢?视频加字幕可以带来许多好处,可以清晰地传达视频内容的信息,帮助观众更好地理解视频内容.此外,视频加字幕可以帮助那些听障人士和其他难以听懂视频内容的人群更好地获取视频信息,提高视频的 ...

  2. 亚马逊的人工智能将实时语音识别错误率降低了6.2%

    据 Loup Ventures 不久前发布的2019年语音助理智商测试的结果,通过对每个人工智能系统的800个相同问题的测试,谷歌助手再次引领了这一潮流,与去年一样,100%完全理解了被问到的问题,并 ...

  3. MIT人工智能实验室:如何做AI科研?

    MIT人工智能实验室:如何做AI科研? 01 简介 1.1 目标读者是谁? 1.2 如何使用? 02. 阅读 03 建立关系 04 学习其他领域的知识 05 笔记 06 写作 07 演讲 08 程序设 ...

  4. 人工智能时代,语音识别领域前景广阔

    原标题:人工智能时代,语音识别领域前景广阔 当今,用"炙手可热"来形容AI人工智能再恰当不过,其也令全球科技界趋之若鹜,诸如谷歌.微软.苹果.IBM.Facebook.英特尔.中国 ...

  5. 人工智能趋势:语音识别发展前景广阔

    [导读]深度学习+大数据+并行计算共同推动了人工智能技术实现跨越式发展,"人工智能+"应用已开始落地开花-- 当今,用"炙手可热"来形容AI人工智能再恰当不过, ...

  6. 智能产品工厂测试软件,人工智能如何帮助工厂做质量检测

    原标题:人工智能如何帮助工厂做质量检测 在生产流水线上的质检员,他们往往每天需要花10个小时以上的时间去判断质量.很多工厂这个工作岗位两三个月就要轮一次岗,因为眼睛确实受不了. 现在大家都在搞智能制造 ...

  7. 我司赤城弘一CEO受邀参加东盟与中日韩中小企业人工智能产业论坛并做主旨发言。

    我司赤城弘一CEO受邀参加东盟与中日韩中小企业人工智能产业论坛并做主旨发言. 一.活动背景 为推动东盟与中日韩(10+3)中小企业服务联盟务实合作,帮助中小企业提高生产力和技术创新能力,进一步提高国际 ...

  8. 《人工智能》之语音识别小记

    虽说有些不求甚解,我觉得<人工智能>这本书(王东 利节 许莎著 清华大学出版社)还是相当通俗易懂的,属于人工智能入门级读物. 本书从人工智能总论.人脸识别.语音识别.语言理解.行为模仿以及 ...

  9. 一个程序如何连接到外网_如何开发制作小程序?做一个电商带直播小程序

    开发制作小程序可以让商家更方便地引流获客.增加线上订单.尤其是今年小程序直播大火,商家有了新的运营私域流量的利器,因此做一个电商带直播功能的小程序是很有用的. 如何开发一个这样的小程序呢?流程如下: ...

最新文章

  1. Android 动态生成 EditTest
  2. php yield 导出文件,PHP yield 读取大文件
  3. feign date类型时间错误问题
  4. Json、Gson、FAST-JSON解析学习
  5. flyway版本号_数据库版本管理工具-flyway
  6. java面试题二十九 多线程数据共享问题
  7. Centos7利用fpm制作rpm包(fpm安装及使用)
  8. 04-3. 统计素数并求和(20)
  9. 语言编出的程序怎么实装_程序员小白:编程语言到底该怎么选?
  10. 插件前奏-android黑科技 hook介绍
  11. 计算机网络实验报告 接墙上的,计算机网络实验报告模板.doc
  12. RHEL常用Linux命令操作 第四章实验报告
  13. Java - 调用 echarts 提供的地图压缩方法压缩地图
  14. android工程师专业技能,android开发工程师简历中的专业技能怎么写
  15. 机器学习全系列经典书籍推荐
  16. 箱形图适用于哪种数据_Excel 数据可视化:箱形图全面解析!
  17. 常见大数据应用有哪些?
  18. 没有对比就没有伤害:《明日之后》竟成最良心国产末日手游?
  19. Oracle修改SEQUENCE起始值
  20. 微信小程序详解wx:if elif else的用法(搭配view、block)

热门文章

  1. 撸.NET Core的正确姿势
  2. CSU 1805 Three Capitals(矩阵树定理+Best定理)
  3. java invokelater 以及invokeandwait
  4. 再读headfirst-原则与模式摘录
  5. 有关Linux下的一些配置
  6. UVAlive3708 UVA1388 POJ3154 Graveyard【水题】
  7. POJ3748 位操作【位运算+STL】
  8. Ubuntu下BOINC服务器安装(step8失败)
  9. CCF201509-3 模板生成系统(100分)
  10. POJ3278 HDU2717 Catch That Cow【BFS】