今年5月,在微软开发者大会上,他们宣布推出智能语音评测服务。基于Azure云的认知服务平台,该服务涵盖语音识别、语音合成等技术,主要应用于各种教师评估、作业练习和语言学习等教学场景。

通过市场调研和反馈,他们将语音评测的重点放在解决以下四大问题上:专业性、实时性、稳定性和(能够给予用户一定的)可定制性。

以专业性为例,语音评测对比的是与母语专家评测的一致性。微软云计算与人工智能事业部资深产品经理马莉莎解释,业内普遍采用皮尔森相关系数来反映两个序列线性相关程度,范围在-1到1之间。1表示完全相关,0.5以上为强相关,-1则表示完全相反,0表示乱序无关,数值越大表示相关度越高。与市场上的主流技术对比评测,微软语音评测在一致性上达到了0.75。

马莉莎称,要解决上述问题,语音评测系统除了做要好多语言识别的问题,还要针对不同打分场景,做到包容性和鲁棒性的平衡。

“在客户真实的场景中要尽量贴近真实的用户使用习惯,用户习惯中的误读、少读都能包容得很好,且精准地进行打分。”马莉莎表示,与其他提供语音评测技术的企业相比,她认为微软的语言模型的抗噪能力,以及在垂直领域上针对不同场景的收音需求,都做得比较深入。

数据是语言模型优化的基石。据介绍,微软智能语音评测扩展到了40多种语言,每种语言分别积累了数十万小时以上的母语数据进行学习,在此基础上,模型能够适配实时的线上线下应用。微软Azure云则提供了算力保障,能够支撑大规模用户的计算需求,并保证用户数据安全性。

也就是说,除了优化模型做好语音识别外,还要做到动态、高实时性地调用大模型,这就要求在总体要平衡多点性能。

目前,微软已将智能语音评测服务落地到相关教育公司的产品中。马莉莎称,微软与客户的合作是灵活多样的模式,简单的调用API进进行评测是免费的,但在生产环节的集成会按评测音频的时长计费。

当然,语音评测只是微软在教育解决方案中落地的一个维度,关于老师声音的定制化以及有声课件制作方面,微软正在积极探索。

未来微软的语音评测应用场景也不仅限于教育领域。近期,微软与国内的NGO合作联合,利用语音技术为视障学生合成制作了有声书。马莉莎称,语音评测也可以用来评估合成声音语料本身的质量好坏以及发音是否标准,“凡是和语音质量,发音有关的需求,都可以用到。”

微软云计算与人工智能事业部产品总监丁秉公表示,作为一家平台公司,微软语音评测希望与垂直领域的客户合作,为独立软件开发商、系统集成商等二次开发解决方案商提供充分的灵活性,以此把个性化服务推到不同的客户群,打造相应的语音生态。

微软推出智能语音评测服务,注重解决四大技术障碍相关推荐

  1. 微软推出了语音评测技术

    2020年末中国在线教育市场规模预计将突破4300亿,同比增长18%.日前,微软推出了语音评测技术,据介绍,该技术广泛适用于教育领域的各种语言学习.口语练习和考试等场景,可从准确度.流利度.完整度来为 ...

  2. 阿里云智能语音交互服务导览

    阿里云智能语音交互 产品介绍 & 接口文档 阿里云iDST的智能语音交互服务主要有以下几个大类: 语音识别服务ASR :将语音转换成文字的能力快速集成,打造出"能听"的应用 ...

  3. 微软推出Windows 365云服务;OPPO成为2020“铃木杯”东南亚足球锦标赛官方赞助商 | 全球TMT...

    大公司动态 微软公司推出Windows 365,这项云服务为各种规模的企业提供了一种体验Windows 10或Windows 11(待可用时)的新途径.Windows 365将操作系统传输到微软云,将 ...

  4. 招行推出智能投顾服务“摩羯智投”

    不过我们不能光打打嘴炮,如何克服困难和挑战,让人工智能帮到你的工作.你的事业呢?让我们将李开复的演讲内容,再结合一个实例,来给大家解释一下. 现在,假设你是一个程序员 虽然哥也是一媒体人,但黑起自己的 ...

  5. 智能语音最强突破!微软语音识别率已堪比人声

    相关推荐 Renesas公司的R-Car H2是基于ARM® Cortex™A-15四核配置和big.LITT... 发表于 2018-04-14 17:24 • 33次阅读 图灵机器人有三个基本功能 ...

  6. 可信AI年度观察 | 智能语音产业需求不断升级,评测重点由技术转向产品

    自<新一代人工智能发展规划>发布以来,人工智能发展已上升为国家战略,在"十四五"规划中,更是将人工智能列为科技前沿领域的"最高优先级",国家政策支持 ...

  7. 智能语音在呼叫领域应用广泛 但在“+”之后更精彩

    技术发展的关键在于落地,"语音"作为目前人工智能领域落地最为成熟的技术,以准确率可达95%以上的识别水平,已经逐渐步入商业化阶段.而语音交互的实现主要取决于两点:语音识别及语义理解 ...

  8. 微软深度神经网络语音,定制个性化的自然人声

    以往,谈及对合成语音的刻板印象,很多人会联想到<星球大战>中的C-3PO--那个有着近似人类外形金光闪闪的家伙,它是整个系列影片中毫无争议的搞笑担当,其动作僵硬而滑稽,说起话来喋喋不休,声 ...

  9. 中国人工智能学会通讯——智能语音技术与产业应用展望 1.2 智能语音产业应用的现状和挑战...

    1.2 智能语音产业应用的现状和挑战 智能语音产业应用,基本上都是从语音控制.语音识别和语音交互作为切入点建立起来的,根据不同的定位和形态,目前主要分为以下4类. (1)APP类纯软语音应用.如App ...

最新文章

  1. python celery
  2. Smali插桩打日志
  3. Mysql 查看、创建、更改 数据库和表
  4. sqlserver 2008 R2 删除重复数据
  5. 升级ipython_Linux服务器python升级
  6. [ 逻辑锻炼] 用 JavaScript 做一个小游戏 ——2048 (详解版)
  7. 电子与电工技术实验——集成运算放大器的应用
  8. python画行向日葵_如何用Python画一朵太阳花
  9. 国土空间用途管制制度构建的思考
  10. 打开我的计算机我的文档不见,我电脑桌面上的我的文档不见了,是什么原因造成我的文档不见了呢?是? 爱问知识人...
  11. html中图片椭圆,CSS3技巧之形状(椭圆)
  12. 玉米社:sem竞价推广如何选择投放时间、投放地域
  13. 微信小程序-如何引入地图组件及显示当前所在位置
  14. win10+ubuntu双系统之三步彻底删除ubuntu系统
  15. HDU2099 整除的尾数
  16. 随机点名系统——微信小程序
  17. Arduino旋转编码器
  18. python 电脑状态_Python实现简单状态框架的方法 -电脑资料
  19. MATLAB创建网格函数汇编
  20. 恩施软件开发人员每月多少钱_恩施软件开发学习,恩施软件开发学习哪家好,恩施软件开发学习一般能拿多少工资...

热门文章

  1. [高中作文赏析]假如真的有时光隧道
  2. android adb root方法
  3. LVM-HOWTO/学习笔记(二)
  4. VS新建类自动添加版本注释
  5. 基于kryo序列化方案的memcached-session-manager多memcached...
  6. Spring Cloud(九)高可用的分布式配置中心 Spring Cloud Config 集成 Eureka 服务
  7. C++宏assert()
  8. ROS nodelet的使用
  9. java绘图之Graphics类
  10. 预测----三个原则