近日,IBM 研究院发布了自动为新闻播报生成字幕 AI 模型的研究报告。据两项测试实验的结果显示,该语音识别系统的错误率分别为 6.5% 和 5.9%,而人类识别的错误率分别为 3.6% 和 2.8%。

△ 图源:IBM,下同

早在两年前,IBM 就已经创造了对话式电话语音领域(CTS)转录的性能记录。在这个领域,语音识别系统需要做的工作很多。例如,系统必须处理失真、以及来自多个不同电话通道的即兴演讲,并且这些对话式语音还可能有多个对话者重叠、中断、重新开始或重复确认的情况。

新闻播报(BN)的语音识别任务也很有挑战性。语音识别系统需要处理多种说话风格、背景噪音以及广泛的新闻领域内容。一些情况下系统还得处理多种题材混合的语音材料 —— 像是现场采访、电视节目的剪辑内容等。

△ 研究进展:CTS 及 BN 测试集单词错误率逐年降低

为了成功地识别复杂的语音内容、给新闻播报内容生成字幕,IBM 研究团队通过语音识别技术,建立了一套深度神经网络。该深度神经网络在整合了长短期记忆网络和深度残差网络(residual network,ResNet)的基础上,结合了辅助的语言模型。其中,以 ResNet 为基础打造的声学模型是含有多达 25 个卷积层的深度卷积网路,使用 1,300 个小时、多种不同的新闻内容资料来训练生成字幕的 AI 模型。

虽然机器的语音识别正在逐渐接近人类水准,但目前的实验数据显示,人类的语音识别表现仍旧好得多。IBM 也表示,在这一领域仍有很大技术改进的空间。

java 开源 ai 生成新闻_IBM 发布了自动为新闻播报生成字幕的 AI 模型相关推荐

  1. 【AI简报20210514期】开源项目树莓派复古相机、L4自动驾驶新闻速递

    嵌入式AI 1. 地平线L4级自动驾驶芯片流片成功,预计2022年量产上市 原文: https://www.163.com/dy/article/G9I96HCO05508TBC.html 5月9日消 ...

  2. 3d 自动生成物体_Adobe发布3D建模、AR内容生成应用Scantastic

    10月27日消息,Adobe展示了一款支持3D AR扫描的全新移动应用原型Scantastic,该应用结合3D扫描.设计和AR技术,让你用手机就能将周围的物体扫描并生成3D模型. 据青亭网了解,Sca ...

  3. Java开源 J2EE框架(二)

    Java开源 J2EE框架(二) 2007-01-06 12:34 Jofti [Java开源 其它开源项目] Jofti可对在缓存层中(支持EHCache,JBossCache和OSCache)的对 ...

  4. java 开源项目(大汇总)

    Spring Framework [Java开源 J2EE框架] Spring是一个解决了许多在J2EE开发中常见的问题的强大框架. Spring提供了管理业务对象的一致方法并且鼓励了注入对接口编程而 ...

  5. java开源框架总结

    Java开源框架集 Spring Framework [Java开源 J2EE框架] Spring 是一个解决了许多在J2EE开发中常见的问题的强大框架. Spring提供了管理业务对象的一致方法并且 ...

  6. Java开源软件总汇

    Spring Framework [Java开源 J2EE框架] Spring是一个解决了许多在J2EE开发中常见的问题的强大框架. Spring提供了管理业务对象的一致方法并且鼓励了注入对接口编程而 ...

  7. Java开源项目(备查)

    转自:http://www.blogjava.net/Carter0618/archive/2008/08/11/221222.html Spring Framework  [Java开源 J2EE框 ...

  8. JEECMS v8 发布,java 开源 CMS 系统

    JEECMSv8 是java开源的站群管理系统,支持栏目模型.内容模型交叉自定义.以及具备支付和财务结算的内容电商为一体的内容管理系统. 对于不懂技术的用户来说,只要通过后台的简单设置即可自定义出集新 ...

  9. Java APNS开源库apns4j-1.0.1发布

    Java APNS开源库apns4j-1.0.1发布 开源地址:https://github.com/teaey/apns4j maven依赖: <dependency><group ...

最新文章

  1. Linux下cacti的安装RedHat9,RedHat AS4
  2. 一个用Spring Boot做的垃圾分类小程序,你不拿来学习一下?
  3. iOS学习笔记---oc语言第八天
  4. mySql中使用命令行建表基本操作
  5. 【数据结构与算法】之深入解析“石子游戏VIII”的求解思路与算法示例
  6. JAVA开发环境及其开发
  7. PHP与ThinkPHP读写文件
  8. C语言霍夫曼编码压缩,数据结构大作业——哈夫曼编码压缩BMP格式文件
  9. PHP 获取微视无水印源地址_如何提取获取下载美拍、微视、微拍等手机视频
  10. 佛系前端面试题记录--第五周
  11. matlab中的函数简化,怎么简化solve函数的求解结果
  12. 挺全的HTML、CSS整理笔记
  13. Android平板 安装deepin,Deepin系统实体安装
  14. 2022年建筑电工(建筑特殊工种)考试题模拟考试题库及模拟考试
  15. Java实现 LeetCode 31下一个排列
  16. mysql HA方案: MHA
  17. signature=dd4c0ce5ed341fbfafa07eb3d3275ec3,SIGNATURE-FREE BUFFER OVERFLOW ATTACK BLOCKER
  18. QIIME 2 使用总结
  19. Python —— 魔方方法
  20. 免费外链图片网站收集

热门文章

  1. java编写一个表示二维平面_JAVA习题集2精品名师资料.doc
  2. 速排小蚂蚁编辑器详细使用教程
  3. 江湖中传说珊瑚虫--到底应该抓谁?
  4. Linux权限维持之suid后门、ssh后门
  5. 申宝策略-汽车零部件或梅开二度
  6. 百度搜索中“鱼龙混杂”的加盟信息,如何靠AI 解决?
  7. 用动画和实战打开 React Hooks(一):useState 和 useEffect
  8. android蓝牙实验,Experiment6蓝牙Android开发实验指导书.doc
  9. android studio导入背景图片,改变图标,定时退出三个操作
  10. 秦储数字藏品平台正式上线公测 | 实名注册用户首日突破2万!