感谢阅读腾讯AI Lab微信号第10篇文章。本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展,并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。

2017年8月,在图像描述生成技术这一计算机视觉与NLP交叉研究领域,腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一,超过了微软、谷歌、IBM等参赛公司,体现了在这一前沿领域的技术优势。

微软MS COCO也称常见物体图像识别数据集,对图像的标注信息包括类别、位置和图像语义文本描述等,该数据集的开源使近两三年来图像分割语义理解取得了巨大进展,几乎成为图像语义理解算法性能评价的「标准」数据集。链接:http://cocodataset.org/#captions-leaderboard

团队特别制作了「把照片唱给你听」体验Demo,将图像描述生成技术与文本转语音(Text to Speech,简称TTS)两大AI技术结合,希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后,AI会生成相关的文字描述并匹配韵脚歌词,再通过合成语音配合旋律Rap出来。


class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="0.5660377358490566" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=j0562nbwl5k&width=668&height=501&auto=0" style="display: block; width: 668px !important; height: 501px !important;" width="668" height="501" data-vh="501" data-vw="668" src="http://v.qq.com/iframe/player.html?vid=j0562nbwl5k&width=668&height=501&auto=0"/>
上传吃喝玩乐国庆美图时,AI唱出来是这样的

class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="0.8823529411764706" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=u0559s7osca&width=668&height=501&auto=0" style="display: block; width: 668px !important; height: 501px !important;" width="668" height="501" data-vh="501" data-vw="668" src="http://v.qq.com/iframe/player.html?vid=u0559s7osca&width=668&height=501&auto=0"/>

上传不太正常的图片时,AI可能会被被网友的脑洞玩坏 -_-||

现在,我们将邀请100位「首席体验官」优先测试Demo。如果你有相关技术背景,或图片视频制作经验,将有机会优先体验。请留下评论,回复您的姓名+邮箱+所属公司+职业,如:王小明+wxm@qq.com+腾讯+设计,我们将稍后通知测试方法。

Demo 第 一 步:让 机 器 看 图 写 词

详 解 图 像 描 述 生 成 技 术


Demo中机器「写」出的歌词,其实是给图片配上一句话说明,也被称为图像描述生成。这是一个跨模态(Cross-modality)研究方向,机器不仅要理解图像内容,还要学习和组织语句,给出通顺并符合人类语义习惯的表述。


图像描述生成是一个让机器学会深度理解图片内容的技术。以前,机器只能识别图片里出现的是一只狗,而不是猫;现在,机器不仅识别出狗,说出它的颜色甚至种类,甚至能理解它所处的环境和与其他物体的关系,这体现了机器「视觉能力」的进步。

从简单的图片分类到生成复杂的文字描述,机器用了30多年


在一个三岁儿童的眼里,这可能是个很简单的任务。但机器走到这一步,花费了几十年的时间。尽管如此,机器在理解更复杂的图像内容时,恐怕依旧赶不上三岁小孩。但我们相信,机器前进的每一小步,都体现出人类智慧的一大步。

Demo中使用的是我们全新设计的图像描述模型,采用端到端编码器-解码器模型。这个过程可以用下面的图片表示出来:给定一张图片,用卷积神经网络(CNN)为图片编码,得到全局或局部的图片表示;用长短时记忆模型(LSTM)解码上述的图片表示,转换为一句话的文字说明。解码过程中创新采用了注意力模型(Multistage Attention Model),捕捉到了每个单词生成时,不同局部信息的贡献程度,通过引入不同级(stage)注意力模型,更加充分的挖掘在产生每一个单词的过程中的图像的全局和局部信息的贡献;而整个深度网络模型得到了强化学习的充分训练,从而产生更加流畅的自然语句描述图像内容。

Demo采用的全新图像描述模型


在研究上,这个技术能同时推进对图像和自然语言间单学科到跨学科的理解、分析与运用。而应用上,它的前景非常值得期待。互联网上几乎大部分数据都以图像+文本的多模态方式存在,仅以腾讯产品为例,从微信朋友圈、QQ空间图片到天天快报的新闻,都是图像与文本强相关的素材,这之间的深度关系挖掘,能促进更强的内容理解,进而提供更好的产品体验。比如能为相册照片自动生成丰富的描述,可进一步提升图片的分类、搜索和推荐质量;用于图像文本对话系统中,可为图片生成更相关的评论,或直接做「斗图」这样的趣味图像对话;与语音技术结合时,能帮助幼儿或视觉障碍人群更好地理解图像内容。


Demo 第 二 步:让 机 器 看 字 说 话

聊 聊 文 本 转 语 音 技 术 TTS


机器「给你听的,正是将文字转为语音的合成声音。语音合成(Speech Synthesis)或文本转语音(TTS)技术,是Siri这类语音助手不可或缺的一部分,也被广泛应用到游戏、读书及娱乐等领域。

我们使用了商业产品中最常见的参数合成技术,提供了清晰可理解、自然流畅的语音。这背后是大量的工作,第一步是录制专业播音人才近20小时语料;因为不可能录制人的每一句话,第二步里机器要将语音切片成音素,最后使用深度学习对音素的的声学特征与时长建模。


目前我们还在进一步研究语料库较小、低占用的参数合成技术,并考虑将单元选择的高品质和参数合成的灵活性优势结合。


让 内 容 与 AI 做 加 法

机 器 对 文 字、图 像 与 视 频 施 魔 法


结合腾讯内容产品上的独特优势,针对图像、视频、新闻与文学等领域的「内容AI」一直是腾讯AI Lab的四大应用方向之一。

针对图像、视频和文本等多媒体内容AI,我们不断进行探索与尝试,并在基础图像识别领域,如人脸检测、人脸识别及OCR方面有很大突破,更多细节将在11月8日在成都举办的腾讯全球合作伙伴大会(点链接)上分享,敬请期待。


把照片唱给你听 | 腾讯AI Lab国际领先技术邀你「趣」体验相关推荐

  1. AI一分钟 | 今天,百度又多了一个好基友华为,还互赠了信物;腾讯AI Lab“肢体动作追踪”技术造出了个“AI 尬舞机”

    图片来源:凤凰网科技 一分钟AI 地平线面向智能驾驶和智能摄像头,推出征程和旭日两款嵌入式人工智能视觉芯片. 百度Apollo无人车队雄安开跑,河北省政府与百度宣布将共同筹建AI国家实验室. 搜狗推出 ...

  2. 腾讯AI Lab与Robotics X 2022年度回顾

    感谢阅读腾讯AI Lab微信号第161篇文章.本文将进行2022年度回顾,祝大家新年快乐! 追求「比真实更真」,是贯穿 2022 年的大热点.基于大模型,AI 展现了令人兴奋的生成能力.与此同时,软硬 ...

  3. 腾讯AI Lab 2020年度回顾:科技向善,迈向通用人工智能

    来源:腾讯AI Lab 刚刚过去的 2020 年算不上是平静的一年.贯穿全年的新冠肺炎疫情仍未平息,各类偶发事件也层出不穷.即便如此,秉承「科技向善」信念和「Make AI Everywhere」愿景 ...

  4. 腾讯 AI Lab 2021 年度回顾

    感谢阅读腾讯AI Lab微信号第136篇文章.本文将进行2021年度回顾,祝大家新年快乐! 2021年,腾讯 AI Lab 迈入第 5 个年头.作为一个尚属「年轻」的实验室,在未知而广袤的科学世界中, ...

  5. 腾讯AI Lab两大算法刷新人脸识别与检测纪录,秉承「基础研究+落地应用」之路

    2017-12-22 10:07:03 雷锋网 AI 科技评论按:12 月 18 日,腾讯 AI Lab 宣布,其研发的人脸算法 Face R-FCN 和 Face CNN 分别在人脸检测平台 WID ...

  6. 腾讯AI Lab发布智能创作助手「文涌 (Effidit)」,用技术助力「文思泉涌」

    感谢阅读腾讯AI Lab微信号第142篇文章.本文将介绍腾讯AI Lab研发的智能写作助手「文涌(Effidit)」. 今天,腾讯 AI Lab 研发的智能写作助手「文涌(Effidit)」开放试用, ...

  7. 腾讯AI Lab NLP团队首次曝光,张潼、俞栋带队解读ACL三大前沿

    本文转载自腾讯AI Lab微信号(tencent_ailab),深度解析本届ACL热门研究.文章第一部分是三大前沿领域重点文章解析,包括信息抽取.问答系统和机器翻译等.第二部分是ACL简介及NLP团队 ...

  8. 腾讯AI Lab研发「智能显微镜」 抢先布局病理分析领域

    感谢阅读腾讯AI Lab微信号第50篇文章,我们将分享今日在南京「腾讯全球合作伙伴大会」上介绍的「智能显微镜」研究项目. 腾讯 AI Lab 今日在南京举办的「腾讯全球合作伙伴大会」上宣布,其AI+医 ...

  9. 腾讯 AI Lab 2019 年度回顾

    前 言 农历庚子年(鼠年)新年即将到来,我们也已经进入了 21 世纪 20 年代,正是辞旧迎新,总结过去一年发展历程的好时候.在过去的 2019 年里,腾讯 AI Lab 在 2018 年的发展基础上 ...

最新文章

  1. 【数据结构】回顾散列表
  2. flexpaper 背景色变化
  3. centos 7 关闭 firewall、iptables
  4. HTML5之webSocket使用
  5. SourceTree的基本使用 - 天字天蝎 - 博客园
  6. python中不可以使用类名访问的是_如何在Python中访问当前执行的模块或类名?
  7. 二分--求最小值的最大p1m2
  8. IPv6 gre隧道、路由协议综合实验(华为设备)
  9. 如何在CHROME里调试前端代码?
  10. 将 exe 文件反编译成 Python 脚本
  11. 基于Springboot的Java邮件系统的设计与实现(附论文和源码)
  12. el-tree 关键字搜索
  13. Excel表格复制到Foxmail不显示边框
  14. QQ聊天窗口上的广告与QQ弹窗广告的完美屏蔽去除
  15. 浅谈AI设计:理解玩家们对游戏的感知方式
  16. 彭亮—Python学习
  17. 基于ARM的微机原理-Cortex-M3处理器
  18. 浅描工作环境电脑维护以及性能测试流程
  19. PPT制作和美化插件工具
  20. 一文带你了解Hive【详细介绍】Hive与传统数据库有什么区别?

热门文章

  1. mysql批量删除5000条数据_mysql批量删除大量数据
  2. 修复Duilib MenuDemo右键菜单背景色和前景色无效问题
  3. package有什么作用
  4. 思岚科技通用机器人底盘ZEUS将亮相2019 CES
  5. linux 操作系统root账号被锁定的两种解决方法
  6. QP+uc/GUI嵌入式系统图形界面
  7. 2021必看,今日教学:RestTemplate-结合-Ribbon-使用
  8. Quectel EC200N-CN 大尺寸物联网首选LTE Cat 1模块[移远通信]
  9. building workspace
  10. 计算机是否支持64位操作系统,如何确定电脑的CPU是否支持64位操作系统