音视频技术开发周刊 72期 - 好文

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文
』，浏览第72期内容，祝您阅读愉快。

架构

RTSP协议 SDP

RTSP被用于建立的控制媒体流的传输，它为多媒体服务扮演“网络远程控制”的角色。尽管有时可以把RTSP控制信息和媒体数据流交织在一起传送，但一般情况RTSP本身并不用于转送媒体流数据。媒体数据的传送可通过RTP/RTCP等协议来完成。

Hulu直播服务难点解析（三）：关键收获

Hulu在其博客发布了建立直播服务遇到的挑战及解决方案，这对于以前只提供点播服务的系统而言是一次彻底的升级。LiveVideoStack对原文进行了摘译。本文是系列文章的第三篇。

谁是最好的WebRTC SFU？

如果你计划在WebRTC中有多个参与者，那么最终可能会使用选择性转发单元(SFU)。webrtcHacks的撰稿人 Alex
Gouaillard和他的CoSMo Software团队组建了一个负载测试套件来测量负载与视频质量，并发布了所有主要开源WebRTC
SFU的结果。LiveVideoStack对原文进行的摘译。

FFmpeg在Intel GPU上的硬件加速与优化

英特尔提供了一套基于VA-API/Media SDK的硬件加速方案，通过在FFmpeg中集成Intel
GPU的媒体硬件加速能力，为用户提供更多的收益。本文来自英特尔资深软件开发工程师赵军在LiveVideoStackCon
2017大会上的分享，并由LiveVideoStack整理而成。

利用Webpack4搭建Vue服务器端渲染SSR

构建服务器端渲染(SSR)我们可以利用vue-server-renderer 插件更简单的构建SSR。

基于OpenSSL的HTTPS通信C++实现

HTTPS是以安全为目标的HTTP通道，简单讲是HTTP的安全版。即HTTP下加入SSL层，HTTPS的安全基础是SSL，因此加密的详细内容就需要SSL。Nebula是一个为开发者提供一个快速开发高并发网络服务程序或搭建高并发分布式服务集群的高性能事件驱动网络框架。

音频/视频技术

AVFoundation系列五：关于音视频的导出

在音视频导出中重要的就是：AVAssetExportSession，早在 AVFoundation系列一：AVAsset的使用方法
中的Demo中就已经使用过AVAssetExportSession进行了音视频的分离，合成。简单的导出我们已经使用了。但是对于更高的导出需求，请使用AVAssetReader和AVAssetWriter类。

libVLC 提取视频每一帧

DVD 电影中的场景、从 YouTube
下载的剪辑、通过网络摄像头拍摄的内容......无论是视频还是动画，都是由一系列静止的图像组成。然后，这些图像会一个接一个的播放，让你的眼睛误以为物体在移动。图像的播放速度越快，动作看起来越流畅，画面也越逼真。

Android 音频渲染之AudioTrack

Android平台下的音频渲染在java层有三个API，分别是MediaPlayer、SoundPool和AudioTrack。AudioTrack是较底层的接口，只支持裸数据即PCM数据，对于一个压缩的音频数据，需要先解码成pcm数据。

Web H5视频滤镜的“百搭”解决方案——WebGL着色器

视频滤镜，顾名思义，是在视频素材上duang特效的一种操作。随着H5页面越做越炫酷的趋势，单一的视频播放已经不能满足我们的需求，视频滤镜在Web页面上的应用越来越广泛。

周源：视频加密和DRM实施实践

在上周落幕的LiveVideoStackCon音视频技术大会，阿里云高级技术专家周源进行了《视频加密和DRM的实施实践》专题分享。周源，有十多年音视频研发经验，之前在淘宝视频负责开放平台，目前在阿里云视频云部门负责媒体处理，在大规模系统建设和云计算方面都有非常丰富的实战经验。本文为演讲原文，由云栖社区整理，并授权LiveVideoStack转发。

William Law：CMAF如何支持的超低延迟视频直播

刚落幕的LiveVideoStackCon 2018音视频技术大会上，Akamai媒体业务群首席架构师William
Law通过主题演讲介绍了如何通过分块编码和分块传输CMAF，为观众提供极低延迟的视频直播服务。本文由Akamai整理，并授权LiveVideoStack发布。

编解码

Android FFmpeg视频转码并保存到本地

本文讲述在Android中，如何将FFmpeg视频转码为YUV格式并保存到本地。

H264裸流分析

1 SPS和PPS从何处而来？ 2 SPS和PPS中的每个参数起什么作用？ 3 如何解析SDP中包含的H.264的SPS和PPS串？客户端抓包
在做客户端视频解码时，一般都会使用Wireshark抓包工具对接收的H264码流进行分析。

FFmpeg（4.0.2）解码H264

接口变更： AVStream的codec参数被codecpar参数所替代 AVCodecContext *codec变为AVCodecParameters
*codecpar av_register_all被弃用添加av_demuxer_iterate() const AVInp...

ADPCM编解码原理及其代码实现

本文详细讲解 0x0011 /* Intel’s DVI ADPCM */的编码解码原理。

一文了解视频转码那些事儿

对一个视频服务平台，通过上传获得的视频源千差万别，有高清的影视片源、UGC视频以及推拉过来的直播流等。平台直接将这些视频分发出去可能存在诸多问题，例如视频源码率过高、视频质量差、视频参数不合理、视频格式不被播放器支持等等，此时就会启动转码为用户提供优化的、规范化的视频流。

AI智能

深度神经网络加速与压缩

在本文中，我们将深入探索深度神经网络加速与压缩的最新研究进展。具体而言，本文将这些方法分成以下六类，即网络剪枝、低秩分解、网络量化、知识迁移网络、紧凑网络设计，并讨论它们的优缺点。

深度多目标跟踪算法综述

基于深度学习的算法在图像和视频识别任务中取得了广泛的应用和突破性的进展。从图像分类问题到行人重识别问题，深度学习方法相比传统方法表现出极大的优势。与行人重识别问题紧密相关的是行人的多目标跟踪问题。

开源！OpenCV预训练模型库

OpenCV 的 GitHub
页面中有一个称为「open_model_zoo」的资源库，里面包含了大量的计算机视觉预训练模型，并提供了下载方法。使用这些免费预训练模型可以帮助你加速开发和产品部署过程。

【NIPS 2018】多伦多大学提出可逆RNN：内存大降，性能不减！

多伦多大学的研究人员提出Reversible RNN，一种可以减少RNN训练时内存需求的新方法，在保留模型性能的同时，将激活内存成本降低了10-15倍。

图像

定制人脸图像没那么难！使用TL-GAN模型轻松变脸

基于描述生成逼真图像是一项比较困难的任务。本文介绍了一项新研究 Transparent Latent-space GAN (TL-GAN)，它使用英伟达的
pg-GAN 模型，利用潜在空间中的特征轴，轻松完成图像合成和编辑任务。

热门工具换一换