达摩院成立快两年之际,机器智能技术实验室抢先展示了一下成绩。

2017 年 10 月,阿里成立了达摩院,覆盖 5 个研究领域,建有 14 个实验室。除了上述的“机器智能”,达摩院研究大方向还有数据计算、机器人、金融科技、X 实验室。

机器智能技术实验室侧重于 AI 相关技术的基础研究,旗下设有语音实验室、视觉实验室、语言技术实验室、决策职能实验室、以及城市大脑实验室。

近日,达摩院机器智能技术实验室举办了一场小型媒体沟通会,几位技术专家向外界介绍了最新成果和进展。

兼具表现力和稳定性的语音合成技术

首先,机器智能技术实验室正式发布了新的语音合成技术 KAN-TTS(KAN 指的是 Knowledge-Aware Neural)。TTS(Text-To-Speech,文本到语音)是一种将文字转化成语音的技术,智能音箱、个人虚拟助理都需要这种技术支持。

达摩院机器智能语音实验室高级算法专家雷鸣介绍,当前业界商用系统的合成语音与原始音频录音的接近程度,通常在85%到90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

简单来说,KAN-TTS 合成的语音更加像真人的语音,“接近真人韵律的感觉”。

“我们新一代的 TTS 解决方案深度融合了传统 TTS 和端到端 TTS,基于不同领域的深层 Knowledge。”雷鸣介绍道。

所谓端到端 TTS,即不依靠领域知识,基于强大的深度学习模型、海量数据来生成音频,优势是大大节省设计的工作,并且得到更加流畅、表现力更好的合成语音,但需要大量计算力支持,而且会出现丢字、漏字等不稳定的情况。Google 的 Tacotron 和 DeepMind 的 WaveNet 都是典型的端到端 TTS 模型。

而传统 TTS 需要花费大量时间和精力去了解相关的领域知识,设计难度较高,但胜在合成的语音比较稳定。

通过将传统 TTS 和端到端 TTS 的结合,KAN-TTS 结合了两者的优势,充分利用不同领域的深层 Knowledge,合成表现力和稳定性具佳的语音。

针对不同的需求,机器智能技术实验室提供了“开箱即用”的 TTS 产品,覆盖 5 大场景(通用场景、客服场景、童声场景、英文场景和方言场景),具备 34 个高品质的声音。

除了“开箱即用”的声音,达摩院这个语音合成方案还能让专业用户定制声音。

传统语音合成定制需要10小时以上的数据录制和标注,对录音人和录音环境要求很高。“从启动定制到最终交付,需要半年时间”。而达摩院利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。

也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。

此外,普通用户也可以自己定制“AI声音”,只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。

语音、自然语言、视觉各领域都有新成绩

除了公布新语言合成方案,机器智能技术实验室还亮出了新成绩。

机器智能技术实验室透露,阿里AI在国际顶级技术赛事上获得了40多项世界第一,入选了近400篇国际顶会论文。具体到细分领域,机器智能技术实验室最近都有不同建树。

语音领域,2019年1月机器智能技术实验室在国际顶级对话系统评测大赛(DSTC-7)上获得双料冠军,将人机对话准确率的世界纪录提升至94.1%,并于2019年7月开源了创造这一记录背后的人机对话模型 ESIM。

事实,该算法模型提出了两年多,已被包括谷歌、facebook在内的国际学术界在200多篇论文中引用。

自然语言理解方面,机器智能技术实验室在 6 月的 MS MARCO 文本阅读理解挑战赛中,击败了 Facebook和微软,创造了阅读理解能力测试的新纪录,并在开放域问答任务上超越人类阅读水平。

MS MARCO 挑战赛是 AI 阅读理解领域的权威比赛,参赛机构提供的 AI 模型需要在搜索引擎返回的网页文档中,找出 100 万个问题的正确答案。

阿里方面介绍,阿里 AI 模型的突破在于提出了基于 “融合结构化信息 BERT 模型” 的 “深度级联机器阅读模型”,可以模仿人类阅读理解的过程,先对文档进行快速浏览,判断,然后针对相应段落进行精读,并根据 “自己的理解” 回答问题。

达摩院机器翻译技术团队已实现了48个语言翻译方向,支持俄、西、法、阿、土,泰、印尼、越南等多种语言翻译,其中电商覆盖了大部分语向和场景,超越了谷歌和亚马逊,日调用量达到17.9亿次。

在机器视觉领域,机器智能技术实验室在图像搜索、大规模图像识别、视频分析、线下视觉智能等领域都有所建树。其中,图像搜索领域,阿里 AI 的向量引擎比Facebook快6倍。

机器智能技术实验室在 6 月份刚刚结束的 WebVision 竞赛中,阿里 AI 以 82.54% 的识别准确率,击败了全世界150多支参赛队伍,获得冠军。机器智能技术实验室称,阿里 AI 目前可以识别超过 100 万种物理实体。

WebVison 是目前图像识别领域最权威的竞赛之一,专注于物体识别,被誉为接棒 ImageNet 的大规模图像识别竞赛。

7 月,在CVPR2019举办的LPIRC(低功耗图像识别挑战赛)中,阿里AI获得在线图像分类任务第一名。在挑战赛使用的训练数据集上,阿里AI实现了67.4%的分类精度,比官方提供的基准线高3.5%。

值得注意的是,上述只是达摩院旗下机器智能技术实验室的进展和成绩。到 2019 年 10 月达摩院两周年之际,会有更加全面的消息公布。

成立快两年,阿里巴巴达摩院都干什么了?相关推荐

  1. 马云爸爸成立快一年的达摩院,究竟在做什么?

    去年10月份,"马云爸爸"做了一件非常惊人的事--成立阿里巴巴达摩院. 阿里之下的达摩院,来源于武侠小说,作为武学最高研究机构,达摩院代表了修为的最高境界.同样,科研也代表了精进. ...

  2. 2021十大科技趋势来了!阿里巴巴达摩院全新发布

    来源: 阿里技术 阿里巴巴达摩院发布2021十大科技趋势,这是达摩院成立三年以来第三次发布年度科技趋势. 2020年是不平凡的一年,经历疫情的洗礼,许多行业重启向上而生的螺旋,但疫情并未阻挡科技前进的 ...

  3. 岗位内推 | 阿里巴巴达摩院决策智能实验室招聘全职/实习生

    PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「pwbot02」. 阿里巴巴达摩院机器 ...

  4. 云要闻 | 中兴通讯一条关于5G 的大新闻;阿里巴巴达摩院“发声”;微软获准在卡塔尔开设全球数据中心!...

      戳蓝字"CSDN云计算"关注我们哦! Hello,everyone: 1月4日,星期五 CSDN云要闻时间: 嗨,大家好,偶是"CSDN 云计算"微信公众号 ...

  5. 阿里巴巴达摩院发布 2021 十大科技趋势

    来自新智元 阿里巴巴达摩院发布 2021 十大科技趋势,这是达摩院成立三年以来第三次发布年度科技趋势. 2020 年是不平凡的一年,经历疫情的洗礼,许多行业重启向上而生的螺旋,但疫情并未阻挡科技前进的 ...

  6. 阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

    2020-01-21 16:17:16 人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行.据了解,本次大会共有 687 篇论文被收录,其中,阿里巴巴达摩院提交的 ...

  7. 杭州内推 | 阿里巴巴达摩院自然语言基础研究组招聘研究型实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 阿里巴巴达摩院 随着通用大规模预训练语言模型研究的深入和应用的开展,包括多 ...

  8. 北京/杭州 | 阿里巴巴达摩院自然语言智能生物医学团队招聘研究型实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 阿里巴巴达摩院 我们是达摩院自然语言智能下的生物医学信息处理团队,目前的研 ...

  9. 专科python应届生工资多少-阿里巴巴达摩院招聘应届生

    阿里巴巴-达摩院-机器智能技术实验室,致力于研发国际领先的大规模机器学习.语音.图像.视觉.自然语言处理.智能决策等人工智能领域技术.我们是人工智能工程技术团队,致力于打造世界一流的工程技术平台:目前 ...

最新文章

  1. java基础(六) switch语句的深入解析
  2. GoldenGate for win安装配置
  3. 一文讲懂什么是三层交换机、网关、DNS、子网掩码、MAC地址
  4. python编写篮球_Python编程2——Python实现计算篮球比赛是否领先安全的程序
  5. bzoj 4552: [Tjoi2016Heoi2016]排序
  6. 最长回文子串_【每日编程142期】最长回文子串II
  7. 你的押金在这?ofo发文曝光多起贪腐案:总涉案金额达数百万元
  8. php读取文件部分内容,PHP 提高篇
  9. c语言一把钥匙只能开一把锁阅读答案,一把钥匙开一把锁阅读附答案
  10. vue 加headers_vue上传图片设置headers表头信息
  11. Gartner2021新兴技术成熟度曲线,AI与超自动化支撑数字化变革
  12. 提取Windows主题中的图片
  13. 逼死强迫症的腾讯网迷你新闻弹窗
  14. web界面性能优化及SE0
  15. P4117 [Ynoi2018] 五彩斑斓的世界
  16. manifest php,manifest让网页实现离线访问
  17. ROS系列——ONVIF Device Test Tool测试工具获取网络摄像头的rtsp
  18. glade-2:安装经验
  19. 计算机管理器802.11n有,802.11n无线网卡驱动
  20. linux野指针追踪,一个erlang nif野指针的追踪过程

热门文章

  1. 搭建App主流框架_纯代码搭建(OC)
  2. android 调用系统的照相机和图库
  3. 提高jQuery执行效率
  4. pl/sql 报ORA-12154: TNS:无法解析指定的连接标志符
  5. Dtree【树形下拉框】
  6. 理解bootstrap的列偏移offset 和 推拉push/pull的区别?
  7. Android分享-微信、Facebook、Google
  8. jQuery源码学习视频
  9. Python学习笔记四(Python OS模块)
  10. JQuery实现表格行当复制