郭一璞 发自 凹非寺
量子位 报道 | 公众号 QbitAI

昨天下午,柳岩和大鹏到快手总部“扫楼”,“快手星闻”全程直播。一个吸引人的橙色小精灵,全程活跃在直播页面上,它就是快手直播间的智能宠物“小快”。

直播过程中,柳岩和大鹏可以随时和小快聊天,小快还能对两位演员的新电影侃侃而谈,获得了二人的喜爱。

在直播里加花样,早就不是什么新鲜事了,各类基于计算机视觉技术的特效、AR效果,已经被直播公司们玩出了花。

但快手这家脑洞大的公司,这次把智能宠物“小快”放进了直播间里,这样用户在开直播的同时,就能“使唤”小快完成发红包、放音乐、讲笑话、闲聊等各种功能,帮助主播和观众进行互动。

就像舞台上的演员可以向导播台喊“music”一样,小快可以做主播的专属助理+音响师。

将有语音互动功能的智能宠物引入直播,这还是业内首次。

小快,特别的语音助理

小快本身是快手的吉祥物。在快手的直播页面中,小快默认出现在屏幕的左侧,平时是趴在屏幕边的状态,如果你喊“小快小快”召唤它,它就会跑出来,识别你接下来的命令,这样,在直播的时候,不用伸手点就可以完成各种功能。

小快可以帮你活跃直播现场的气氛,比如,你可以命令它会放音乐、讲笑话、讲故事等,甚至还会发快手平台的虚拟币“快币”红包。

也可以直接让小快找人连麦或PK,你也可以看到其他用户的小快。

而对观众而言,进入直播间的时候,主播的小快会专门来欢迎你,送礼物之后也有答谢,更有互动的感觉。

此外,快手还为小快开发了养成系统,第一次开直播的用户完成三个初始任务后,你的小快就会变身为常伴你左右的小宠物。

点击小快的图标,屏幕的下半区域就会变成小快的专区,小快会用各种姿态向你问好。

因为小快的形象用到了实时的3D渲染,因此看起来整体效果非常真实,哪怕是复杂的动画效果,也可以顺利切换并呈现在你眼前。

甚至还能选择它的性别,女生版头上会多出一朵小花花。

之后,小快进入养成状态,完成每日任务能为小快赚取饭团,投喂之后小快可以升级,获得包含各种直播权益的升级礼包,并解锁更多技能和外形。

开发历程

或许你会问,开直播,为什么要加入一个语音机器人?

这要从一个过气网红提起:夸夸群。

快手第二届黑客马拉松,夸夸机器人项目在进行demo演示

今年3月,各种各样的“夸夸群”突然火了起来,你在群里分享自己的各种有趣行为,求夸,网友们就用各种姿势把你夸上天。

那么,既然能让网友来夸你,能不能干脆找个AI来变着花样夸你呢?

于是,在愚人节那天,快手内部的“以AI之名”黑客马拉松活动中,就出现了一个“夸夸机器人”,产品团队顺势就把这个机器人延伸成为了语音机器人。

因此现在,如果你对小快说“快夸我”,它也会疯狂的夸你优秀美丽风趣幽默……

不过,在直播中做语音助手,要比普通的手机语音助手和智能音箱更难,没有智能音箱那样专业的硬件,嘈杂的直播环境和有限的计算资源对手机的要求更高。

“小快”语音机器人用到了语音唤醒语音识别自然语言理解对话管理语音合成等技术,乍一看并不新奇,但当他们被用在手机直播这个场景下,则有更大的难度。

首先,主播需要喊“小快小快”进行语音唤醒,开直播的时候,手机通常离主播1米左右,比手持的距离要远,不满足传统的近场条件,且系统只能拿到单通道数据。

而且,主播使用的手机型号多种多样,麦克风拾音性能千差万别,有的主播还会使用具有声效处理功能的声卡,小快的语音唤醒必须适配这些复杂条件。

在此同时,手机开着直播,本身就占用了不少计算资源,因此小快机器人不能占用太多的CPU资源,不然会影响直播的清晰度和流畅度。

在这些复杂条件下,快手技术团队设计了两阶段语音唤醒系统,第一阶段采用精简模型,增加召回率,第二阶段采用复杂模型,提高准确率。另外,还需要在回声消除、模型抗噪方面做了大量算法优化。

唤醒之后的语音识别环节,快手团队也遇到了难点:中英文混合识别。这一点,在主播点歌的时候是常用功能,比如快手用户喜欢的《野狼disco》,歌名既有中文又有英文,必须精确的识别出来,既要解决这种中英切换时的协同发音问题,又要解决中英文训练样本的不均衡问题。

因此,快手技术团队采用了基于循环神经网络的序列建模方法,对中英双语音节进行建模。音节的发音特征相对稳定,理论上能缓解协同发音的问题,但音节建模增加了发音单元的长度,对模型能力要求更高。还引入了具备下文语境的门控循环单元,有效地解决了中英混合识别的问题。

最后,主播下完命令之后小快要回话,就涉及到了语音合成的问题。

小快的声音很可爱,活泼而清脆,但如果直接使用业界常用的16kHz采样率,无法保留这一音色特点。因此,快手技术团队提出了一种超宽频带神经网络声码器,对超宽频带也进行了建模。

超宽频带的频谱特征随机性强,增加了神经网络的学习难度。并且合成同样时间长度的音频信号,需要预测更多的采样点,这需要模型捕捉更长的序列依赖关系。

为此,快手的算法工程师对神经网络声码器进行了深度优化,在同样的合成速度条件下,合成音频具有更高的音质,小快音色明亮清脆的特点得到了较高的还原。

此外,除了语言语音相关技术,小快作为一只3D宠物,也需要视觉上的优化。

因为直播本身就消耗了手机的大量资源,同时还需要渲染3D形象,留给渲染3D形象的资源就非常有限了。

那么,如何利用有限资源,渲染出形象丰富立体、光影效果真实、动作流畅的小快呢

快手技术团队优化了美术资源,将包含所有的动作表情、模型和贴图在内的小快数据包压缩到了2M左右,并采用资源异步加载来提升效率。为了减少GPU消耗,减少了渲染API调用次数,优化渲染整体逻辑,使用假阴影方案替换实时阴影计算。

另外,考虑到用户机型不同,许多用户可能用的是相对低端的手机,快手技术团队针对不同机型做了性能降级适配、异步加载,不断调优性能与效果的平衡点,以达到最优效果。

小快背后的团队

此前业界更熟悉快手的图像技术团队,但快手AI语音技术团队人才积累也不容小觑。

快手的语音技术早有布局,三年前就成立了语音交互、音频内容理解的技术团队,成员主要来自清华、中科院、哈工大、西工大的语音实验室,以及微软、三星、BAT这些大厂,目前主要技术方向包括语音识别、语音合成、音乐理解与生成、音频事件检测等。

这样专业的人才团队做了许多业界首创的应用。

比如视频剪辑应用快影,借助快手自言的语音识别技术,它可以向所有用户提供免费的视频自动加字幕功能

还有快手音悦台,利用算法从主播的直播过程中自动剪辑、筛选精彩的唱歌片段,制作成为歌唱精选内容,这样,音乐主播就无需手动整理素材剪辑就有现成可发布的内容,而喜欢音乐的用户也有了观看精彩内容的入口。

直播领域一向竞争激烈,小快的出现,想必是对用户体验和平台粘性的进一步提升。

而在快手先行之后,语音机器人或许会是直播界的一股新风潮。

传送门

最后,小快智能宠物用到的不少技术,快手已经公开发表,为大家传送论文如下:

The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition作者:Yuanyuan zhao, Jie Li, Xiaorui Wang, Yan Li

Gated Recurrent Unit Based Acoustic Modeling with Future Context作者:Jie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li

Automatic Singing Evaluation without Reference Melody Using Bi-dense Neural Network作者:Ning Zhang, Tao Jiang, Feng Deng, Yan Li

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

快手在直播间里养起了AI宠物,连柳岩、大鹏都爱不释手相关推荐

  1. 在李佳琦的直播间里,看不到华熙生物的未来

    消费者每多被"普及"一点护肤知识,都能催生出一个庞大的产业. 商家的镰刀,能割到深陷消费主义泥潭的消费者,自然也不会放过提倡"高级实用主义"自诩理性的成分党. ...

  2. 37岁男子不愿熬夜,回乡养鸡每天准时下班,青山绿水中养鸡,直播间里卖鸡蛋...

    37岁男子不愿熬夜,回乡养鸡每天准时下班,青山绿水中养鸡,直播间里卖鸡蛋. 今天和大家分享一个创业案例,他叫胡铭浩,来自安徽省旌德县,今年37岁,曾做过车床操作工,开过婚纱摄影店,也曾是年入百万的老板 ...

  3. 3天过去了,这个直播间里发生了什么……

    <兰德网络O2OA企业协同业务开发实战>直播培训课程,从2021年11月22日19点准时开始播出,掐指一算已经过去3天啦! 那么在直播活动之前,O2OA团队都做了什么呢? ▲团队多次组织& ...

  4. 为什么uzi排到古手羽就秒_为什么uzi排到古手羽就秒退?看一下直播间里的弹幕就清楚了!...

    前言:12月24号英雄联盟电竞圈快讯,12月份的电竞圈显得有点冷清,不过龙百万仍然会带来每天的精彩快讯,和召唤师们聊聊天,谈谈心. 刚出道就遭受巨大压力的3个职业选手,Leyan排名第二! 今天在论坛 ...

  5. 为什么uzi排到古手羽就秒_为什么uzi排到古手羽就秒退看一下直播间里的弹幕就清楚了!...

    为什么uzi排到古手羽就秒退?看一下直播间里的弹幕就清楚了! #百度APP游戏年度票选活动#前言:12月24号英雄联盟电竞圈快讯,12月份的电竞圈显得有点冷清,不过龙百万仍然会带来每天的精彩快讯,和召 ...

  6. 为什么快手不能左右滑了_快手别人直播间右滑进入悬浮窗怎么没用(快手怎么悬浮窗)...

    下载安装 快手 直播伴侣 进入 隐私设置中给他开启 悬浮窗 权限 进入 游戏直播即可 最佳轻点要坏了好痛佳案 手机管家 --软件管理-- 悬浮窗 管理 ~~设置一下 就好了 最佳佳案 可以使得视频以窗 ...

  7. 618直播间里玩起了“排位赛”,按小时刷榜的淘宝直播是如何保持稳定的?

    今年天猫618期间,淘宝直播的核心玩法"排位赛"也进行了升级. 为了让更多的中腰部商家以及小主播们,有更多机会曝光和透出,小时榜的玩法开始进入直播间,给到商家和主播弯道超车的机会. ...

  8. 快手直播间显示服务器繁忙,高颜值、高学历、一年直播365天,陌陌顶级主播的日常...

    声明:本文来自于微信公众号科技唆麻(ID:techsuoma),作者:科技唆麻,授权站长之家转载发布. 纪伯伦认为,理想和成就无法被直接划上等号,「它取决于一个人的热情能否支持自己跨越中间的鸿沟.」 ...

  9. 抖音直播间没人气?速看让直播间人气快速突破1000人的实战玩法!

    最近嗨妹在看直播的时候,经常看到这样一个现象: 有些抖音号只有几百个粉丝,但直播间在线观看人数却有好几千甚至上万,而且观众非常活跃,并不是刷机器人: 还有的抖音号有小几十万粉丝,但是直播间依然只有几百 ...

最新文章

  1. 网络推广方法中浅谈网站中的内容如何优化好?
  2. mysql粘贴数据_Navicat 如何复制粘贴数据
  3. softmax实现cifar10分类
  4. [C++STL]queue容器用法介绍
  5. Ubuntu下GTK的安装、编译和测试
  6. Java Servlet
  7. 洛谷P1007 独木桥(贪心)
  8. 信息抽取——关系抽取
  9. 详解:离线项目一: 为什么大数据面前没有秘密
  10. 鸿蒙和想象部落哪个好些,还是想说说鸿蒙
  11. WCDMA中的基本概念
  12. 条码软件如何修改条码标签的字体格式
  13. 几何公差基础知识之平行度
  14. 基于HTML贪吃蛇游戏摘要,基于JavaScript实现贪吃蛇游戏
  15. 干货 || 详解SMT贴片电感与SMT贴片电容的区别
  16. 2022-2028年全球与中国机身导线行业产销需求与投资预测分析
  17. Maya导出ASCII格式的FBX文件
  18. 小程序源码:网课查题微信小程序源码下载,题库资源丰富自动采集,支持语音拍照识别
  19. 【Linux网络编程】UDP 套接字编程
  20. jcfis.SMBException(incorrect function,0xC000009A等)解决办法

热门文章

  1. Noticaition 1.0 正式发布了
  2. 《电路学习第三天》 之 彩扩机项目设计
  3. 转:Ubuntu中安装和配置 Java JDK,并卸载自带OpenJDK(以Ubuntu 14.04为例)
  4. struts2 用form取值时出现的错误
  5. JavaScript之function类型
  6. WPS 导致 EXCEL 文件下载问题
  7. 关于利用python进行验证码识别的一些想法
  8. 关闭CISCO不必要的服务
  9. 清理系统垃圾文件的常用脚本
  10. Python统计在一个队列中有多少个正数,多少个负数