编者按:在线K歌的业务已经发展了十年,程乐在音视频领域也闯荡了十年,甚至更久。为什么选择在线K歌领域?如何走过“漫长的季节”,迎来新的风景?如何在“在线K歌”这块难啃的骨头里分点肉?在这一连串的问题下面,只有一个简单的答案:兴趣。以下是程乐的讲述——

01 兴趣决定了一切

大概是在上中学的时候,我开始对音视频产生强烈的兴趣。从收音机、磁带机、CD、VCD、DVD、mp3,一直到大学时期开始流行的MP4、平板、相机等等,基本上都是省吃俭用搞回来的,为此也没少跟父母闹过矛盾。

程乐

大学时,相对能折腾的时间比较多,刚好是智能手机爆发前夜,MP4设备比较火爆,那几年基本是卖旧买新,一直跟着最新的设备迭代,从仅支持单一480p Xvid视频格式到720p rmvb再到1080p H264,到生命末期甚至卷到了4K(那时候还是2010年之前)。当时在imp3论坛上也很活跃(现在早已关闭),一起讨论新出的芯片方案解码性能到底咋样,各种编码格式的优缺点;

2018 年 11 月,iMP3正式宣布关站

也蹲各个厂家的评测优惠活动,写写评测,机器就能半价入手。在当时论坛的影响下,我也开始入门烧耳机,哪些耳机能做到低音沉、中音准、高音甜,无损的Ape Flac比WMA MP3能强多少等等,都是涉猎的范畴。

毕业后的第二份工作是做电视盒子,虽然最后的结果不太好,但当时的烦恼很少,日子过得开心、纯粹。那个时候每天考虑的就是本地播放怎么提高兼容性,MP4/flv/mkv/ts这些格式怎么封装,蓝光导航怎么搞,ASS/PGS特效字幕怎么解析渲染,各家的硬件解码器都要怎么适配,网络播放怎么提高稳定性等等。

当时的状态就像重度游戏玩家开始按照自己的意愿开发一款新游戏,从工作体验上来说是比较满足的。

再后来,移动直播、短视频开始兴起,我就用之前积累的音视频经验转做移动端的直播、短视频SDK,当时应该还是有不少客户在用的。再后来就开始做撕歌的实时语聊K歌场景,也是从乙方转做了甲方。

总之毕业后一路走来,工作在自己的兴趣领域也是蛮幸运的事情。回想起来,兴趣对于跨越音视频的门槛来说是非常必要且有效的,所以希望想入这行的同学都能够培养起来对音视频的兴趣。

02 在K歌赛道中,杀出一条血路

下面,让我们来聊聊业务。我是2019年加入帧趣的,之后就开始接手公司内音视频相关的技术以及K歌的整体体验。主要侧重在客户端部分,服务端音视频能力大部分是用第三方服务,自己做的东西会比较少。

那么,与其他大厂相比,我们的技术优势在哪里呢?

首先是我们有一支战斗力强的业务团队,能够快速试错各种新的脑洞玩法,对用户常用常新。撕歌在K歌的玩法上也是做了不少探索,比如最早上线的双人接唱玩法,以及到后来的多人接唱玩法,都是朝着更容易产生社交的方向去努力的。

撕歌的各种玩法基本都戳中了年轻人的兴趣点

对撕歌有了解的人都能看出来,撕歌走的是实时K歌玩法。K歌是一种社交类的破冰游戏,大家有着共同的唱歌爱好,更容易打开话题,沉淀社交关系,有了社交关系之后用户的粘性就比较强了。

其次是K歌体验部分,相比其他主要关注业务的语聊类app,我们有专门的音视频团队,可以自己实现很多需求,不至于第三方没有我们就没得用;另外我们逐步建立起了一套主客观评价机制,可以推动第三方来优化关注点,然后由我们集成优势,灵活地选择最佳的供应商。

前几年,各RTC厂商对泛娱乐K歌场景都缺乏投入,我们的采集渲染方案在低延迟耳返、耳返兼容性、人声伴奏对齐等方面存在优势;AEC以及演唱评分也做过自己的优化,不过随着各家加大资源的投入,差距会缩小。像AEC效果这些,第三方这两年普遍进步很大,这种情况下我们最终会根据整体的主客观评价结果来做调整。

踩坑、成长、一步一步来

技术上的主要困难还是小团队都会面临的全栈要求。由于我自己一直是在做音视频的工程开发,而唱歌体验的好坏也有很大一部分是落在硬核算法上的,像是音效、演唱打分、回声消除效果等等。

演唱打分这块,在19年初还不太能找到合适的第三方技术服务,当时是请兼职帮忙搞了一套算法,不过效果准确性上一直有比较大的问题,这块自己当时花了大半个月的时间啃了四五篇paper,对评分算法做了一个比较大的优化,准确度上也是有了明显的提升,大致能够满足我们娱乐性质演唱的需求。

回声消除这里也做过尝试,当时的教育产业如火如荼,RTC厂商们的重心基本都在会议和教育领域,对我们这类娱乐K歌类产品的需求满足度就比较低。当时的回声消除最明显的问题是双讲场景下对人声的压制非常厉害,人声发闷严重甚至会丢掉一些音节。

这类问题对会议场景来说不是特别严重,能听清楚对方讲的内容就可以,但在K歌场景下人声的这类损伤会导致听感非常差,这时宁愿残留一些伴奏的回声,也要尽量保障对人声细节的保留。这块我们当时也尝试把WebRTC中的AEC算法抽出来,然后在演唱的时候屏蔽掉非线性处理部分,只做线性处理,残留的回声靠伴奏的精准混音来压制掉。

在当时各RTC厂家整体的效果下,这个方案大多数情况下的体验还是会好不少的。当然后来教育被打掉之后,各家开始重视泛娱乐市场,这块的体验才有了质的飞跃,现在我们也是采购了第三方的AI回声消除算法。

目前我们音视频这边跟业务会相对独立,大部分优化迭代可能是跟业务相关性不大的,这些部分会独立发版,然后跟业务侧的版本班车去发。这里有一些是产品提过来的体验问题优化,也有一部分是我们自己综合用户反馈以及统计信息来做的。当然也有一些跟业务强相关的开发内容,类似接唱玩法、一些需要演唱打分的场景等等,这部分会跟业务一起评估需求,纳入业务的项目管理进度中去。

宣发和技术也是我们在发展过程中努力在提升的方向,留住用户更重要的还是产品力,技术也是为产品力服务的,这块我们还是有持续的路要走。

绕不过的降本增效

说到降本增效,其实,作为一个小团队,主要还是发挥自己的优势方向,非优势方向以及成本上无法顾及的方向则想办法找合作方来补齐。比如实时K歌场景下,对用户体验影响较大且我们自己可以做的采集渲染以及机型适配工作,我们从19年开始就一直在积累;而像RTC的传输优化、AEC处理,服务器架设则是建立了一套实验室评价体系,选择效果最好的服务商来满足需求。

成本这块,实时K歌最大头的也就是RTC服务的费用了,我们目前是配合自己的采集渲染来集成各家的RTC服务,这样可以做到最低的切换成本,线上多家RTC同时存在时的体验也是一致的。这种方案下我们会有比较好的议价优势,也能掌握议价的主动权。另外端上对CDN资源的cache机制,对RTC资源的按需使用优化也能降低一部分成本。

03 要在现在,抓住未来

唱歌是人的天性,社交也是天性。特别是年轻一代在自我表现以及社会认同上会有更个性化的需求,他们对在一个虚拟社区中组成团体的认同感以及精力投入上也都更多,基于K歌的社交垂类还是有持续的可挖掘空间的。

我认为,K歌未来的发展方向应该也是朝着更容易沉淀社交关系的方向去走。比如说更精准的匹配推荐策略,让对脾气的用户能高效的认识并沉淀关系;再比如说基于AI的自动改编和自动作曲,让有才华的非专业用户可以高效产生自己的特色作品,低成本地炫出自己的才华;对于音乐领域来说,基于AI的伴奏人声分离技术已经比较成熟,目前的效果基本上能达到实用程度了。

再比如基于AI的回声消除以及降噪,可以达到传统算法无法企及的高度。像我们所在的K歌社交领域,如果能基于AI给歌曲以及用户的演唱做自动分类推荐,则会是一个比较显著的方向。希望未来的技术发展能解决目前实时合唱的延时问题,让远在各地的用户可以轻松和声。

最后,分享下我在这次的LiveVideoStackCon中带来的内容:主要还是分享这几年做撕歌在音视频这块踩过的坑,以Android/iOS移动端的技术为主;也会分享K歌场景下特殊的一些技术点;还会聊聊音视频技术上的优化如何变成老板们能认可的指标,以及语聊场景常见的卡麦问题。

*文章图源:

豆瓣《蜘蛛侠:纵横宇宙》

如何把在线K歌“玩起来”——专访撕歌音视频架构师程乐相关推荐

  1. 专访支付宝首席架构师程立

    今天,5年后的今天,这位高手的 [支付架构建立方式] 和[架构师的职责]的论述还是让我肃然起敬. 专访支付宝首席架构师程立 2008年07月21日 14:55 网络转载 据支付宝公司官方数据,截止到2 ...

  2. 在线K歌如何基于zego sdk实现音视频社交玩法

    无处不在的在线K歌. 在线K歌一直是泛娱乐领域的热门赛道,艾媒咨询最新数据表示,2021年中国在线K歌用户规模约为5.1亿人,渗透率约为49.7%,这意味着每两个网民中,就有一个体验过在线K歌. 尽管 ...

  3. Java架构师在线视频,架构师的7大必备技能

    优秀的架构师的核心能力模型包含:编程.性能调优.架构设计等能力等. 编程能力 对工程师而言,编程是最基础的能力,必备技能,其本质是一个翻译能力,将业务需求翻译成机器能懂的语言. 提升编程能力的书籍有很 ...

  4. 打破系统边界,云端协同创新——专访华为云视频架构师 黄挺

    " 随着互动.云游戏等低时延的需求出现,我们需要重新思考这个系统的定义,首先想到的就是我们是否要把他们看成一个系统,看成一个系统的好处是,这样有助于帮助我们回到诉求的原点,并重新思考如何解决 ...

  5. LiveVideoStack线上分享第四季(三):在线教育的音视频架构设计及弱网对抗技术...

    今晚 7:30,LiveVideoStack线上分享第四季,第三期,我们邀请到了VIPKID 服务端架构师,陈劲松老师详细介绍在线教育场景下,如何搭建分布式和高可用的音视频平台,并重点分析在弱网对抗中 ...

  6. 专访阿里云游戏首席架构师李刚:如何解决云服务技术两大痛点?

    原文链接:点击打开链接 摘要: 对于阿里云来说,游戏相关的项目合作一直在增加. 对于如今的游戏行业来说,云服务早已不是什么新鲜的话题.一定程度上,不论是近期兴起的手游,还是曾经的端游和页游,如今都会或 ...

  7. 专访:平安科技首席架构师金新明和他的程序人生

    [CSDN 编者按]从改革开放后提出金融电子化,到如今新一代技术与金融的融合创新,近半个世纪以来,国内外金融科技究竟如何发展?为了回答这个问题,我们请到了平安科技首席架构师金新明,通过对他经历丰富的技 ...

  8. Gopher China 2019 讲师专访-Grab/地图团队资深架构师胡泊

    第五届 Gopher China 大会将于2019年4月26日-4月28日在北京市海淀区朗丽兹西山花园酒店举办,Gopher China 大会目前是国内最大规模,最专业的 Go 语言线下技术交流大会. ...

  9. ArchSummit讲师专访:微酷首席架构师赵志猛

    编者按:由InfoQ中文站主办的首届International ArchSummit架构师峰会即将召开.我们也对一些专题的讲师进行了采访,谈谈他们要讲的议题. \ 本次采访的是微酷首席架构师赵志猛,在 ...

最新文章

  1. 人工智能在音频链中找到自己的声音
  2. 一个妹子的美团面试经历,历经 4 轮 2 小时,成功拿到 Offer
  3. ConcurrentHashMap实现原理--转载
  4. c++计算-eigen(1)
  5. 2 了解MyBatis配置文件
  6. 只需要2个工具,百度云盘大文件就能用迅雷和IDM下载
  7. ubuntu安装php5-mysql_Ubuntu下安装Apache2, php5 mysql
  8. 防qq页面多边形html5,高仿QQ Xplan的H5页面
  9. Vue计算属性之基本使用---vue工作笔记0004
  10. Select prototyping tools
  11. Ps 初学者教程,如何让照片成为手绘美图?
  12. 2T架构师学习资料干货分享
  13. 龙芯(Loongson)CPU频率显示问题
  14. 数值计算(九)——线性代数方程组求解(一)高斯消元法
  15. LidarSLAM(一):NDT
  16. 我用java写了个壁纸软件
  17. Italvibras M3/4-S02振动电机M3/20-S02 3/100-S02 3/200-S02 MVSI 3/300-S02振动电机
  18. SMAA算法详解 - SMAADepthEdgeDetectionPS
  19. pandas常用操作以及eda分析笔记(自用)
  20. 整活~使用webAI做一个网页AR吃豆人小游戏

热门文章

  1. 浅谈 串行信号 转换成 并行信号 原理
  2. 『UML类图』一文看懂学会UML类图
  3. 密码框限制xxs注入字符处理
  4. 和平使命-2007中方部队抵达演习区域
  5. ArcGIS 创建空间数据库表
  6. GraphLab:新的面向机器学习的并行框架 .
  7. 出现‘transactionManager‘ while setting bean property ‘transactionManager‘错误 可以参考下
  8. 游戏AI-人工智能架构模型
  9. 22款奔驰E350升级ACC自适应巡航系统,解放您的双脚
  10. 传输介质:同轴电缆、双绞线和光纤