RTN实时音视频传输网络

一、基本概述

（一） RTN实时音视频传输网络的定义

实时音视频传输网络RTN(Real-time Network)，是一个全新架构的音视频实时传输网络。
类似于直播的CDN网络，RTN是对音视频的实时性又强烈要求的场景而设计的，原理上全球端到端的时延通过RTN网络可以控制在300ms以内。

（二） RTN实时音视频传输网络的架构

1. 超级节点-SNode

支持单服务模式，单服务模式下同时支持推流和拉流，但是系统如果有普通节点则超级节点不支持拉流，支持RTN和WebRTC。

2. 普通节点-GNode

只支持拉流，支持RTN和WebRTC。

3. 路由节点-RNode

也称为传输节点，只支持流转发，不支持推拉流，支持单点平行扩容即：当一个路由节点容量不足时，可以平行增加路由节点对此节点进行容量扩容；这里我们提到的容量一般指的是网络带宽。

4. 管理节点-MNode

管理所有服务，支持动态分配推拉流的接入节点；同时管理节点支持双机热备。

5. 录像服务-VRecSvr

支持流录像，将单路推流录制成标准MP4或特定格式(需配置转码服务)。

6. 转流服务-VLiveSvr

将RTN转成RTMP，并推向自建或第三方CDN平台。

7. 穿透服务-VTurnSvr

内外网穿透服务，支持一些特殊应用场景比如说金融，银行等需要内外网穿透。

二、实时音视频技术的现状分析

（一）支持第三方接入

1. 直播平台

实时音视频技术支持阿里云，腾讯云，网宿，百度云等主流的直播平台流对接；支持原有直播基础上集成连麦功能。

实时音视频技术，结合腾讯云优质的节点资源，帮助开发者搭建卡顿率更低、延时1秒以内的互动直播，让直播走进CDN 2.0 时代，打造低延时互动直播方案。

2. AI智能

实时音视频技术支持AI图像后处理和视频回源。概括来讲，目前AI与实时音视频的结合点有四个：

3. 实时翻译

实时音视频技术支持音频实时翻译SDK对接，支持音频流不限时长地极速识别和实时翻译，即时转化，更快更准。

可广泛用于会议同传、多语种直播字幕、视频字幕翻译等场景，支持实时返回识别结果，达到一边输入音频流，一边获得翻译后的文字内容。

4. 鉴黄防恐

实时音视频技术支持图像识别功能接入及第三方对接，能精准识别涉黄、涉恐、涉政等有害内容，支持配置图片黑名单，打击自定义的违规类型。

识别结果还分为正常、可疑与违规三部分，建议放行正常的图片，人工审查可疑的图片，屏蔽违规的图片，节省人力成本，提高审核效率。

（二）实时音视频技术优势

1. 高效快速

端到端时延是实时音视频的黄金指标，其最低可达50ms以内，最高不超过1s，保证视频通话端到端时延低于300ms。

实时音视频技术还能动态检测各个节点直接的链路状态，保持高效传输，实现了更低的音视频传输延迟，提升办公工作效率。

2. 动态与时延可控且线路稳

实时音视频技术可以实时动态监控线路的状态，异常时可及时切换；还可以根据实际情况，动态调整接收端的缓冲时间。

除此之外，采用线路实时监控，保证每路转发的流的稳定性，在使用音视频会议办公时，即使在弱网环境下仍然能够保证高质量的音视频通信，确保视频通话过程顺畅稳定。

3. 业务拓展丰富

系统设计简洁高效，容易业务拓展，比如与传统CDN兼容，支持连麦等复杂业务场景。

例如可适配智能硬件车机、大屏，闪布已对接吉利招聘系统支持吉利校招，支持企业的实时音视频会议以及私有化部署。

4. 高并发

节点支持平行扩容和树形扩容，理论上并发没有上限，即使面临音视频会议井喷式涌入、用户使用流量暴增也能扛住压力，避免出现卡顿、崩溃。

（三）实时音视频技术难点

企业在实时音视频技术实现上通常会遇到卡顿、延时和音视频质量差等诸多问题，而且需要耗费大量的人力、物力和资源。

技术上的难点主要有中间传输以及最后一公里传输两大难题。

中间传输即指从路由到路由的骨干网数据传输过程，这里承载数据传输服务的主要有光纤以及同轴电缆等渠道。然而，就像城市道路一样，一旦用户增加、流量剧增，在这些数据传输渠道里同样会发生数据拥塞的问题。因此，比较容易发生延时加剧、数据丢包等现象。
最后一公里传输主要指从Wi-Fi路由器或电信基站到用户终端之间的最后一公里传输，如果用户手机由于距离太远或者同时连接的设备太多而造成信号质量太差的情况，实时传输同样也会大受影响。

而上述问题都会造成在实时音视频通话时延时大、卡顿、画面模糊及听不清楚等问题。

第一点是低延迟，如果要满足流畅地进行实时互动，那么单向的端到端的迟延大概要在400ms以下才能保证沟通流畅；
第二点就是流畅性，在视频过程中频繁卡顿,很难会有良好的互动，对用户来说使用性能大打折扣；
第三点是回声消除，回声的产生是扬声器播放的声音经过环境反射被麦克风重新采集并传输给对方，这样对方就会一直听到自己的回声，整个互动过程会非常难受；
第四点是国内外互通，随着现在国内同质化产品越来越多，国内的竞争也异常激烈，产品国际化趋势愈加明显；
第五点是海量并发，这不仅仅是实时音视频的难点，基本对于任何一款互联网产品而言都是必须要考虑的难点。

三、如何解决和优化技术难点

（一）多路竞争优化

第一，如果实时音视频要保证低延迟，那么前端和后端的整个链条一定要做到极致的，比如前端的一些编码算法、流控，甚至丢帧、追帧策略等等都要做到足够好。
另外，不同的业务场景下，编码器的选择也会有所区别，从而会带来不同的编码延迟，因此不同的业务场景能达到的延迟程度也是不一样的。
第二，就是对推拉流网络的选择，通常的方案是让需要实时互动的用户通过核心语音视频网络——像BGP这样的优质节点来做语音视频传输。
而对于一些特定场景来说，比如互动游戏会直播给一些围观用户看，那么这里就需要做转码、转协议、甚至混流，再通过内容分发网络去分发。

下图为三路RTC数据流采用优化后的BBR算法在300kBps的带宽下进行竞争时的性能，图中显示当有新的数据流汇入时，通过较短时间的调整，每一路数据流会最终平分带宽，也就能保证低延迟。

多路竞争-宽带

多路竞争-RTT

（二）音质优化

1. 舒适噪声CNG

舒适噪音生成是VoIP技术中静音抑制（silence suppression）或语音活动检测（VAD）的一部分。语音活动检测及舒适噪音生成是用来维持一个感受到的可接受的服务品质，同时尽可能降低传输成本和带宽使用。

使用舒适噪声去减小传输数据量，进而减小传输带宽的要求，这是因为RTC通讯时大于50%的时间是没有语音的，同时要让人感觉语音通信是持续连接的，从而达到更好的听觉体验。

2. 动态音质调整

默认使用OPUS音频编解码器，Opus是一种混合式（hybrid）的编码器，有Skype的SILK和Xiph.org的CELT融合而成，于2012年9月，由Internet Engineering Task Force (IETF)标准化RFC 6716。
同时Opus的音质范围很广，从人声到音乐都能做到很好的效果。

Opus码流-质量

Opus性能

根据当前的网络的状态以及声音源状态去动态的平衡音质与码流直接的阈值。
动态的码流通过X = (A + Q*0.75) - L * 0.25; 进行计算
X：实际的码流
A：基准码流 - 初始设定后不再更改
Q：音源质量 - 音源的质量越高对应的码流越大
L：丢包率 – 丢包率越高码流越低

（三）视频优化

1. 图像增强

图像的噪点和质量往往会被人们忽视，因为实际的图像质量受到很多因素影响比如：灯光亮度，摄像头像素，采集传感器质量等等，这就需要视频降噪技术对图像进行去噪和增强即美颜技术。

2. 音视频同步

在网络上传输多媒体数据时，由于终端对数据的处理方式，以及网络中的延时、抖动，会引起音视频流的不同步。

由于人的视觉敏感度要低于听觉，音视频同步策略采用的是音频优先，即首先保证音频的质量，包括在传输算法上，音频的通道优先级也要高于视频。

3. 平滑处理(防抖)

由于使用音频优先策略，容易造成视频的卡顿现象，为保证视频的流畅度，需要通过反馈机制动态调整视频的帧率、码率来保持视频的流畅度受到较低的影响。

4. 高级编码(H265,SVC,Simulcast)

通过高级编码的特性，可以在相同的网络环境下实现更优的音视频通讯效果。

H265：可以提高压缩效率、提高鲁棒性和错误恢复能力、减少实时的时延、减少信道获取时间和随机接入时延、降低复杂度等；可以实现利用1~2Mbps的传输速度传送1080P（分辨率1920*1080）普通高清音视频传送；同时支持超高清4K视频。
SVC：分级编码是一种用来兼容不同的终端设备和链路带宽的技术。它的特点是对码流分层，低层码流可以单独解码，高层码流能增强视频的质量。
Simulcast：对于不支持SVC的编码器来说，可以使用同播技术实现多级视频传输，达到或接近SVC的效果。

四、展望与总结

实时音视频技术支持图像分析接入，能帮助实现智能交通系统，识别运动中的车辆信息，对比传统车辆检测系统，处理更快。

实时音视频系统应用处于刚起步的阶段，目前主要用于会议、直播等场景。随着5G的发展，智能设备也会拥有低延迟、高稳定性的网络环境，一些智能穿戴的音视频应用和车载会议应用会迎新的发展，同时提供给了大家更多的想象空间。

五、参考文献

《实时音视频技术难点及解决方案》
《5G时代，实时音视频技术如何改变未来》
《WebRTC-实时音视频通信技术介绍》
《腾讯实时音视频技术低延时的秘密》

——END——