音视频技术开发周刊 73期

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第73期内容，祝您阅读愉快。

架构

下一代低延时直播CDN：HLS、RTMP 与UDP +WebRTC

在上月落幕帷幕的多媒体领域技术盛会——LiveVideoStackCon2018音视频技术大会上，阿里云的高级技术专家李刚进行了《下一代低延时的直播CDN》技术分享。本文由云栖社区整理，并授权LiveVideoStack发布。

机器学习帮助WebRTC视频质量评价

本文来自CosMos Software创始人Alex. Gouaillard的博客，他同时为WebRTC、QUIC等标准组织工作。LiveVideoStack对原文进行了摘译。

Zoom的Web客户端与WebRTC有何不同？

Zoom是非常出色的视频会议平台，拿Zoom的web客户端和WebRTC对比似乎有失公允。重要的是，未来WebRTC还会不断做明智的改进。

自建及商用CDN之间的多维度比较

在选择自建CDN或者商用CDN时，需要结合业务实践，从成本、质量、业务定制化能力等维度进行综合评判。本文来自欢聚时代直播部负责人林正显在LiveVideoStackCon 2017大会上的分享，并由LiveVideoStack整理而成。

2018年是VR的新机会吗？

本文综合了ITU、IDG最新报告以及Harmonic VP Thierry Fautier的对VR内容与技术成熟度的观点。包括高效的编码技术、点播内容都是VR行业的不错的切入点。但大规模的赛事VR直播看上去并不成熟。LiveVideoStack对原文进行了摘译。

Netty学习之路（五）-TCP粘包/拆包问题

TCP是个“流协议”，所谓流，就是没有界限的一串数据。TCP底层并不了解上层业务数据的具体含义，它会根据TCP缓冲区的实际情况进行包的划分，所以一个完整的包可能会被TCP拆分成多个包进行发送，也有可能吧多个小的包封装成一个大的数据包发送，这就是TCP粘包和拆包问题。

音频/视频技术

全平台硬件解码渲染方法与优化实践

硬件解码后不恰当地使用OpenGL渲染会导致性能下降，甚至不如软解。本文来自PPTV移动端研发经理王斌在LiveVideoStackCon 2017大会上的分享，并由LiveVideoStack整理而成。分享中王斌详细解析了Windows、Linux、macOS、Android、iOS等多种平台下硬件解码的渲染方法及优化实践。

Android上实现频域均衡器

本文主要分为三个部分：1、现有的音控贴纸的创建以及渲染流程；2、从时域信息转化成频域信息的FFT算法实现；3、将生成的均衡器贴在3D眼镜的镜片上。

Ubuntu18.04 从头开始编译 Android Native WebRTC

本文详细记录Mac下使用PD虚拟机安装ubuntu18.4桌面版，编译Android Native WebRTC的过程。

视频采集：Android平台基于Camera 1的实现

本篇文章简单介绍下移动端Android系统下利用Camera1进行视频数据采集的方法。Camera1调用摄像头采集视频的核心实现在CameraCapture.java。

编解码

高吞吐量JPEG 2000（HTJ2K）：新的算法和机会

本文参考D. S. Taubman等人发表在SMPTE Motion Imaging Journal上的文章High Throughput JPEG 2000 (HTJ2K): New Algorithms and Opportunities，描述了一种联合图像专家组（JPEG）2000（J2K）块编码器的直接替代品，它提供了极高的吞吐量，编码效率略有降低，但同时保留了除质量可拓展性之外J2K的所有功能。

M-JPEG和H.264压缩性能比较（V4L2采集+编码压缩）

Linux下，一般的普通USB摄像头V4L2视频采集有两种方式：V4L2_PIX_FMT_MJPEG和V4L2_PIX_FMT_YUYV。V4L2_PIX_FMT_MJPEG采集方式得到的是经过MJPEG压缩的图片，图片格式是jpeg/jpg，后缀为.jpg或.jpeg。直接将采集到的.jpeg数据依序循环写入一个文件，得到的流并不能直接播放，需要封装成avi等视频格式才能正常播放...

使用FFmpeg将音频PCM数据生成WAV和MP3文件

WAV音频封装格式可以存储无编码的PCM数据，而MP3封装格式中不能直接存储PCM数据，需要对数据进行编码。

Affine motion compensated prediction

在HEVC中，运动补偿预测（MCP）仅采用平移运动模型。而在现实世界中，有很多种运动，比如放大/缩小、旋转、透视等不规则运动。在VTM中，采用了基于块的仿射变换运动补偿预测方法。

AI智能

基于深度学习的目标检测算法综述：常见问题及解决方案

目标检测（Object Detection）是计算机视觉领域的基本任务之一，学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展，目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。

NIPS 2018 | 将RNN内存占用缩小90%：多伦多大学提出可逆循环神经网络

本文首先展示了不需要存储隐藏激活的完全可逆 RNN 从根本上是有限制的，因为它们不能忘记隐藏状态的信息。然后，研究人员提供了一个存储少量比特的方案，使遗忘信息实现完全逆转。本文的方法实现了与传统模型相当的性能，但所需内存只占传统模型的 1/10 到 1/15。

唇语识别技术的开源教程，听不见声音我也能知道你说什么！

唇语识别系统使用机器视觉技术，从图像中连续识别出人脸，判断其中正在说话的人，提取此人连续的口型变化特征，随即将连续变化的特征输入到唇语识别模型中，识别出讲话人口型对应的发音，随后根据识别出的发音，计算出可能性最大的自然语言语句。

实例详解贝叶斯推理的原理

贝叶斯推理是一种精确的数据预测方式。在数据没有期望的那么多，但却想毫无遗漏地，全面地获取预测信息时非常有用。

SFFAI分享 | 黄怀波：自省变分自编码器理论及其在图像生成上的应用

以生成对抗网络（GANs）和变分自编码器（VAEs）等为代表的深度生成模型已经成为当前人工智能研究的热点问题和重要前沿方向。目前的各种深度生成模型都各有其优点和缺点，比如生成对抗网络的训练稳定性和模式崩溃（mode collapse）问题等，变分自编码器生成图像比较模糊等。针对这些问题，我们提出了一种新的生成模型——自省变分自编码器，用于实现稳定训练和生成高分辨率真实图像。

图像

DeOldify：用GAN为黑白照片重新着色

一位reddit网友分享了自己近期的一个项目，他训练了一个用于着色和恢复旧图像的深度学习模型，效果很不错。虽然是未完成品，我们在这里先把这个项目简单介绍给大家，感兴趣的读者可以去Github上继续围观。

人脸识别相关论文阅读(2)

通过深层网络学习high-level的特征表达，利用深层网络，泛化能力强，容易拓展到未见过的新身份类别。

音视频技术开发周刊 73期相关推荐

音视频技术开发周刊 94期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第94期内容,祝您阅读愉快. 架构衡量视频质量有 ...
音视频技术开发周刊 93期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第93期内容,祝您阅读愉快. 架构 Nodejs+ ...
音视频技术开发周刊 92期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第92期内容,祝您阅读愉快. 架构从通信到AI ...
音视频技术开发周刊 91期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第91期内容,祝您阅读愉快. 架构从头到脚撸一个 ...
音视频技术开发周刊 90期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第90期内容,祝您阅读愉快. 架构刘歧:让人生不 ...
音视频技术开发周刊 88期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第88期内容,祝您阅读愉快. 架构思科:2022 ...
音视频技术开发周刊 87期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第87期内容,祝您阅读愉快. 架构如何优化Web ...
音视频技术开发周刊 86期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第86期内容,祝您阅读愉快. 架构 2019年低延 ...
音视频技术开发周刊 84期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第84期内容,祝您阅读愉快. 架构手机K歌的人声 ...

音视频技术开发周刊 73期

音视频技术开发周刊 73期相关推荐

最新文章

热门文章