边策 李根 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

搜狗又在乌镇世界互联网大会上搞了大新闻。

2016年,王小川在正式论坛里秀出AI同传,那是机器实时翻译技术,首次在高规格国际会议上实战应用。

而这一次,依然世界互联网大会,搜狗联手新华社,发布的是一项名为AI合成主播的技术。

这项新技术,可比AI同传所需的语音识别、机器翻译更复杂,需要的AI能力更全面。

直白言之,就是“克隆”出与真人主播拥有同样播报能力的“分身”。

此前,类似技术尝试的有,商业化产品发布的无。

新华社给出评价:

这不仅在全球AI合成领域实现了技术创新和突破,更是在新闻领域开创了实时音视频与AI真人形象合成的先河。

这究竟是一项怎样的技术?

AI合成主播

其实所谓“AI合成”,主要强调了其技术原理。

“AI合成主播”是通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。

该项技术要能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。

如果从落地场景去看,就是喜闻乐见的虚拟主播。

但在此之前,出现在大众媒体上的虚拟主播,多半只有声音,或者匹配一个量身定制的虚拟形象。

比如微软小冰在东方卫视担任天气预报员,就是如此。

不过搜狗的“AI合成主播”,讲究的是以假乱真,需要的技术难度和产品打磨挑战,几乎不能相提并论。

 搜狗AI合成主播效果

如果没有提前告知,是不是难辨真假虚实?

要实现这样的效果,2大要求缺一不可:

  • 一、高逼真度。要能够自动生成:语音、表情、唇动等信息完全一致的自然视频,并已达到商用级别。

  • 二、低成本的个性化定制。小数据的学习模型,使用少量用户真实音视频数据,快速迁移生成虚拟的分身模型,快速定制出高逼真度的分身模型。

最后,使用时输入一段文本,即可生成与真人无异的同步音视频。

听起来不难,实现却要经历“九九八十一难”。

人前近乎炫技的综合能力,幕后是一项又一项来不得半点马虎的小技术达成。

技术原理

背后包含了2大AI引擎。

一是语音合成引擎。在语音合成引擎中,基于用户少量音频数据,使用搜狗个性化语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联。

另一个是图像生成引擎。使用搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,生成输出分身视频。

最后,2大引擎协作打磨,最终才能实现“AI合成主播”——能够逼真模拟人类说话的声音、嘴唇动作和表情,并将三者自然匹配,做到惟妙惟肖,让机器以更逼真自然的形象呈现在用户面前。

应用场景

虽然媒体领域应用,就已足够惊人。

因为和真人主播相比,“AI合成主播”能够不知疲倦地工作24小时,同时还掌握多国语言,大大提升效率、降低成本。

甚至写好文字稿,“ AI合成主播”就能即可播送了——还不会有口误或NG.

但“AI合成主播”出现,更是让个性化内容生成的门槛大为降低,娱乐、医疗健康、教育、法律等多个领域和场景,无一不适用。

虚拟教师、虚拟医生,虚拟客服等需要人类参与的内容表达场景,都能发挥价值。

当然,To B商业应用居多,但如果你想试,搜狗方面称,在手机上借助“搜狗制音坊”小程序,也能通过录制用户一段讲话,让其转化为各种名人的声音——这就是语音合成技术在作用。

视觉方面的合成也能试,比如秒变吴彦祖:

总之,技术已经ready,就看怎么找场景落地了。

外媒评价

此外,因为史无前例,所以这个“AI合成主播”,确实也让外媒对中国AI惊叹了一把。

《南华早报》评价,知名主播在新闻制作中的稀缺资产,现在通过AI,克隆而成的“他们”有能力一天工作24小时。

CNET称:搜狗技术支撑,新华社亮相了新主播,不细看不知道不是真人。

Theverge也评价:AI开始进入官方新闻播报这样的场景,说明技术已不是早期阶段了。

总之,对一家中国公司的AI技术进展如此应用如斯,确实震惊了。

进击的搜狗

不过,如果回顾搜狗今年以来的种种AI技术进展,或许这个大新闻,也情理之中:

  • 语音识别:借助搜狗输入法等产品落地,搜狗语音识别准确率突破98%(口音、噪音条件较可控环境下),行业领先;

  • TTS:语音合成界国际顶级大赛Blizzard Challenge 2018 中,搜狗获“可懂度”和“语音停顿”两项子任务全球第一;

  • 机器翻译:机器翻译在国际翻译顶级学术赛事WMT 2017中获中英机器翻译全球第一、IWSLT2018国际口语机器翻译评测大赛全球第一;

  • 人机对话:在NLPCC 2018比赛中,搜狗语义理解技术获得第一名、NTCIR 2017评测比赛短文本对话任务第一;

  • 机器视觉:在自动驾驶领域国际顶级评测CVPR WAD 2018道路目标检测任务全球第一、Pascal VOC 2018挑战赛目标检测Competition 3,4两项子任务,全球第一、国际自动驾驶领域权威评测集Cityscapes 2018实例分割评测任务全球第一、MegaFace 2018人脸识别任务,以99.939%的准确率,获全球第一。

所以天道酬勤,AI进程中的搜狗,此时发布全球首个AI合成主播,个人奋斗得偿而已~

年度评选申请

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

全球首个AI合成主播发布,效果以假乱真!揭秘背后技术原理相关推荐

  1. 全球首个AI女主播上岗了!太惊艳了!

    来源:水木然 摘要:前不久,全球首个AI女主播诞生的消息走红网络!刚刚,这位AI女主播今天正式上岗了! 是不是非常惊艳? 如果不是专门解释,她极有可能被为是真人! 这位全球首个AI女主播的上岗,吸引了 ...

  2. 搜狗发布全球首个手语AI合成主播,用技术造福听障人群

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看央视新闻,你一定对"段子手"朱广权逼疯手语老师的画面印象深刻吧. 手语新闻帮助听障人群更好地了解这个世界. 可是你有没 ...

  3. 搜狗公司与新华社新媒体中心联合发布了全球首个站立式 AI 合成主播

    2019独角兽企业重金招聘Python工程师标准>>> 2 月 19 日,在新华社新媒体中心与搜狗公司战略合作签约仪式上,搜狗公司与新华社新媒体中心联合发布了全球首个站立式 AI 合 ...

  4. 搜狗分身技术再进化,让AI合成主播“动”起来

    整理 | 一一 出品 | AI科技大本营 去年 11 月的互联网大会期间,搜狗与新华社联合发布全球首个AI合成主播一经亮相,引起了人们对"AI+媒体"的广泛讨论.如今,搜狗 AI ...

  5. 打造新华社「AI合成主播」的“分身术”为何物?

    刚刚火了没几年的主播这一职业,已经面临沦陷的危险,当然,沦陷的不只是主播. 11月7日,在第五届世界互联网大会上,惊现全球首个「AI合成主播」,AI合成主播可以模仿真实主播的音容笑貌,就连在发布会现场 ...

  6. ​突破 1nm!台积电祭出“半金属”取代硅材料;搜狗发布手语 AI 合成主播;iOS 微信 8.0.6 版本更新|极客头条...

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  7. 对话搜狗陈伟,揭秘搜狗AI合成主播背后的前沿技术

    导语:近日,雷锋网就"搜狗分身"技术以及升级后的AI合成主播,与搜狗语音技术交互中心的陈伟进行了面对面的交流. 2019年2月19日,搜狗和新华社新媒体中心联合推出的全球首个站立式 ...

  8. 央视牵手搜狗,AI合成主播为3·15晚会预热

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 一年一度的"3·15"又来了,今年央视请来了一位得力帮手--搜狗AI合成主播.这是搜狗AI技术首次与央视牵手. 据悉, ...

  9. 科威特首个AI女主播‘费的哈“亮相“

    目录 科威特首个AI女主播"费的哈"亮相! 科威特首个AI女主播"费的哈"亮相! 在4月9日凌晨4点,科威特新闻在推特上发布了一段只有13秒的视频,但热度并没有 ...

最新文章

  1. 多重影分身:一套代码如何生成多个小程序?
  2. python使用matplotlib可视化余弦曲线cosine、使用plot函数可视化余弦曲线
  3. Spring Cloud Netflix项目进入维护模式之我见
  4. 零基础逆向工程28_Win32_02_事件_消息_消息处理函数
  5. 20个堪称神器的命令行软件
  6. Android特效 五种Toast详解
  7. 混淆Android JAR包的方法
  8. Java 随机数,可变参数,JDBC,访问控制
  9. Win10 查看开/关机历史记录、 删除管理员账户密码
  10. Eclipse/NSight: methond could not resolved
  11. xp系统怎么关闭wmi服务器,WinXP系统如何启用WMI服务,小编教你WinXP系统如何启用WMI服务...
  12. 自定义流程比较全的表结构
  13. 扫描至计算机功能被禁用,远程访问功能已禁用怎么办_允许远程界面控制被禁用的解决方法...
  14. 棋牌PHP域源码,微信棋牌源码下载( h5.super-mans。com Q:2012035031)
  15. okhttp之自定义Interceptor:请求失败切换IP重试拦截器
  16. 清除数据库中所有数据
  17. 小米手机显示服务器已满,小米云空间不足怎么办 小米云服务空间已满官方解决方案...
  18. Linux查看应用的CPU、内存使用情况
  19. 敏捷人不可错过的十本中译书籍
  20. DM8:dexpdimp-逻辑导出--逻辑导入

热门文章

  1. ​对不起!你的超融合认知已过期……
  2. Oracle 加快 Java 迭代速度,功能性版本只维护六个月
  3. linux进程僵停状态,Linux操作系统中进程的七种状态
  4. Oracle故障:Breaking the connection before proto/dty negotiation, error raised 3136
  5. pycharm 设置为git默认编辑器_pycharm配置使用git
  6. 计算机应用基础答案高继梅,[Flash游戏制作.doc
  7. 在线文档有哪些技术难点
  8. 前端开发的壁垒在哪儿?
  9. 华科大计算机跨考,华中科大计算机概况_跨考网
  10. 2047.句子中的有效单词数