低延迟视频编码技术:面向实时通信的系统性综述与展望
本文由上海交通大学图像通信与网络工程研究所及上海交通大学未来媒体网络协同创新中心的宋利、刘孝勇、武国庆、朱辰、黄琰、解蓉、张文军等研究人员共同撰写,并于2021年3月发表在《北京航空航天大学学报》(*Journal of Beijing University of Aeronautics and Astronautics*)第47卷第3期。文章题为“低延迟视频编码技术”,是一篇对低延迟视频编码领域进行全面梳理和系统性归纳的综述性论文。文章针对实时视频通信应用中日益增长的低延迟需求,深入剖析了编码延迟的来源,系统总结了降低编码延迟的各类技术手段,并分析了业界主流低延迟编码方案,最后指出了该领域未来的研究方向。
论文核心议题与背景: 论文的核心议题聚焦于低延迟视频编码技术,这属于视频通信与多媒体处理领域的核心研究方向。随着5G网络的普及和智能终端的广泛应用,视频通话、视频会议、互动直播、远程教育、云VR(Virtual Reality,虚拟现实)、云游戏等实时交互应用场景不断涌现,用户对端到端系统延迟的体验要求日益严苛。例如,云VR和第一人称射击类云游戏要求编码延迟在十毫秒级,而无人驾驶等场景则要求毫秒级的超低延迟。视频编码作为实时视频通信链路上的关键环节,其产生的延迟直接影响整体系统延迟和用户体验。然而,传统的视频编码标准(如H.264/AVC, H.265/HEVC, H.266/VVC)主要以提高压缩效率为导向,计算复杂度高,往往难以满足超低延迟场景的需求。尽管已有x264、x265等实时编码器,但学术界和工业界此前缺乏系统性总结低延迟视频编码技术的综述文献。因此,本文旨在填补这一空白,从编码延迟的根源出发,系统地归纳和梳理优化编码延迟的技术体系,为低延迟场景下的编码器设计和方案选择提供理论指导和实践参考。
论文主要观点与论述:
观点一:深入分析视频传输系统延迟的构成与编码延迟的产生机制,是优化低延迟编码的基础。 文章首先构建了分析框架,指出视频传输系统的总延迟由编码器延迟、传输延迟和解码器延迟三部分构成。其中,编码器延迟是本文的焦点,它又可细分为视频采集延迟、帧重新排序延迟和编码器处理延迟。文章特别强调了帧重新排序延迟的根源在于传统编码标准(如RA模式)中使用的双向预测(B帧)技术。为了追求更高压缩效率,B帧需要参考未来帧,导致编码顺序与显示顺序不一致,必须等待后续帧编码完成后才能开始,从而引入了不可避免的额外延迟。对于低延迟编码,必须避免或重构这种参考结构。此外,编码器处理延迟则与编码算法的复杂度、硬件处理能力、任务调度策略等密切相关。这一分析为后续所有低延迟优化技术提供了明确的靶向目标:即减少或消除帧重排、降低算法复杂度、优化处理流水线。
观点二:率失真优化(RDO)理论是编码决策的核心,但在低延迟场景下需引入延迟约束,形成更复杂的权衡模型。 文章指出,传统率失真优化(Rate-Distortion Optimization, RDO)的目标是在给定码率下最小化失真(D),其经典拉格朗日公式为 *J = D + λR*。然而,在实时通信中,延迟(D_latency) 成为一个与码率(R)、失真(D)同等重要甚至更为关键的约束条件。因此,低延迟编码器的设计需要从单纯追求“率失真最优”转向权衡“码率-失真-延迟”甚至“码率-失真-复杂度-延迟”的多目标优化。文中介绍了Li等人提出的延迟-码率-失真优化(Delay-Rate-Distortion Optimization, DRDO) 模型和延迟-功率-码率-失真(Delay-Power-Rate-Distortion, DPRD) 理论分析框架。这些模型将端到端延迟(包括编码和缓冲区延迟)和功耗作为优化变量,为在无线视频通信等资源受限环境下设计最优编码参数分配策略提供了理论基础。文章还提到,编码决策之间存在空域和时域的依赖关系(如当前块的编码质量会影响后续参考它的块的预测精度),一些研究通过建立空域/时域失真传播模型来进行联合率失真优化(Joint RDO, JRDO),能在不显著增加复杂度的情况下获得4%~15%的性能增益。这说明了低延迟优化不能仅靠“蛮力”简化算法,更需要智能化的决策模型。
观点三:优化编码延迟需从参考结构、流水线设计、编码模块简化、码率控制和硬件加速五个核心技术维度协同进行。 这是本文的技术核心部分,作者对这五个维度进行了详细阐述。 1. 低延迟参考结构:这是消除帧重排延迟的根本手段。文章对比了HEVC的RA(Random Access)模式和LDP(Low-Delay P)模式。RA模式使用B帧,带来至少数帧的延迟;而LDP模式仅使用前向参考的P帧,实现了“帧级”的零等待编码,但压缩效率有所损失。为了进一步降低延迟,业界提出了条(Slice)级甚至宏块(Macroblock)级的编码方案,使得编码完一个条或宏块后即可立即输出码流,将编码延迟从一帧的时间降低到一个条或宏块的处理时间。此外,通过片(Tile)级并行和波前并行处理(Wavefront Parallel Processing, WPP) 等技术,将一帧图像划分为多个独立或半独立的编码单元并行处理,可以大幅缩短单帧的编码处理时间。 2. 编码流水线优化:编码器的架构设计直接影响延迟和并行度。文章将编码器内部任务同步的粒度分为帧级、条级和块(宏块)级。同步粒度越小(如块级),输出码流的延迟就越低,但同步开销和调度复杂性也越高。实际应用中,条级是一个在延迟和复杂度之间取得较好平衡的选择。任务并行化分为任务级分解(将不同编码模块分配给不同处理器)和数据级分解(将数据切割分配给不同处理器)。WPP是数据级分解中兼顾编码效率和并行性的优秀方案。 3. 编码模块简化:视频编码标准迭代(如从HEVC到VVC)在提升压缩效率的同时,计算复杂度急剧增加(VVC约为HEVC的7倍)。降低复杂度的主要方法包括传统快速算法和基于机器学习/数据挖掘的新方法。传统方法基于统计信息提前终止不必要的模式搜索;基于学习的方法则利用大量数据训练模型,预测最优的编码单元划分和模式,精度更高。文章指出,编码时间的瓶颈主要在帧间预测(运动估计/补偿) 模块,其次是变换量化模块。通过综合运用各类加速算法,可以在可接受的性能损失(如5%以下)前提下,降低20%~70%的编码复杂度。 4. 低延迟码率控制:在超低延迟场景下,编解码缓冲区很小,码率的剧烈波动极易引起缓冲区上溢,导致卡顿。传统的周期性I帧会带来瞬时高峰码率。为此,需要采用帧内刷新技术,如周期性帧内刷新(PIR)、随机帧内刷新(RIR)、自适应帧内刷新(AIR)以及渐进解码刷新(Gradual Decoding Refresh, GDR) 图像。GDR图像将刷新区域分散到多个连续帧中,既能平稳码率、降低缓冲延迟,又有利于错误恢复。此外,码率控制算法本身需要更加精细化,从GOP级、帧级深入到基本编码单元(如条/块)级,以实现比特数的精确控制。文中指出,基于机器学习和深度强化学习的新方法在提升码率控制精度方面展现出巨大潜力。 5. 硬件编码加速:利用专用硬件(如FPGA, ASIC)或通用并行计算平台(如GPU)是实现超低延迟编码的必由之路。FPGA适合高度定制化的编码流水线;GPU则凭借其强大的并行计算能力,非常适合加速运动估计、像素插值滤波等可并行化模块。文章提到,异构计算平台(CPU+GPU) 的协同是研究热点,即用GPU处理可并行化的繁重计算(如预分析、运动估计),用CPU处理串行化或控制逻辑复杂的任务(如率失真优化决策、熵编码)。现有GPU加速方案能在性能损失5%以内减少40%~80%的处理时间。
观点四:业界存在多种面向不同延迟需求和应用场景的低延迟编码方案,其技术取舍各有侧重。 文章选取了四个具有代表性的低延迟编码方案进行对比分析: 1. SVT-HEVC(基于H.265):英特尔开源的软件编码器。它采用可伸缩视频技术(SVT)架构,将编码流程模块化并组织成高效的流水线,实现了进程级、帧级和块级的三维并行。通过结合人类视觉系统(HVS)重要性进行编码决策,在编码速度、延迟和视觉质量之间实现弹性配置。其最快档次延迟在百毫秒级,压缩比约300:1。 2. TPCAST(基于H.264):专为无线VR设计。其核心是采用帧内刷新技术(结合CBR码率控制)来替代周期性I帧,有效平滑码率、降低缓冲区延迟。同时使用复杂度较低的CAVLC熵编码。可实现约50:1的压缩比和10毫秒级的编码延迟。 3. JPEG-XS:一种低延迟图像编码标准。它彻底摒弃了帧间/帧内预测,仅采用极简的5/3离散小波变换(DWT) 和简化的熵编码模块。其设计理念是追求极致的低复杂度而非高压缩率,延迟可达毫秒甚至微秒级,但压缩比通常只有2:1到6:1(视觉无损),适用于专业视频制作、AR/VR系统等对延迟极度敏感且带宽充裕的场景。 4. WHDI:一种无线高清接口技术,采用浅压缩方案。编码端仅使用DCT变换进行空间去相关,完全不含预测模块,追求极致的低编码复杂度。压缩比约为1.7:1,延迟在毫秒级。它更像是一种为特定无线传输协议优化的编解码方案。
这些方案覆盖了从1毫秒到1000毫秒的延迟范围,并在压缩率和延迟之间做出了不同的权衡,体现了技术为应用服务的理念。
观点五:低延迟视频编码领域仍面临挑战,未来研究应在理论模型、智能算法、系统集成和弹性配置等方面深入探索。 文章在结论部分指出了当前低延迟视频编码技术的局限性并展望了未来发展方向: 1. 完善理论模型:现有的延迟约束率失真优化模型(如DRDO)多基于H.264时代建立,未能充分考虑新一代编码标准(如VVC)中更多、更复杂的编码工具带来的新延迟因素,需要在新标准下拓展理论分析框架。 2. 深化智能算法应用:应更充分地利用机器学习、深度学习等方法,提高编码单元划分、模式决策的准确性,同时设计轻量化模型以减少训练和推理的额外开销。 3. 提升码率控制精度:需要结合强化学习等新思路,实现更细粒度(如CU级)的比特精确控制,以应对动态场景并维持码率平稳。 4. 系统级协同优化:未来的研究不应局限于编码器本身,而应以低延迟编码器为基础,构建完整的实时视频传输系统,从系统架构层面进行整体优化,在视频质量、编码延迟、网络适应能力之间达成最佳权衡。 5. 弹性编码方案:终极目标是开发能够根据不同应用场景的需求,动态、弹性地配置编码延迟和压缩性能的编码方案,并与低延迟传输协议(如WebRTC、QUIC)深度协同,最终实现高质量的超低延迟视频通信。
论文的意义与价值: 本文作为一篇系统性的综述,具有重要的学术价值和工程指导意义。在学术上,它首次全面梳理了低延迟视频编码的技术体系,将分散的研究成果归纳为参考结构、流水线、模块简化、码率控制和硬件加速五个清晰的维度,并引入了延迟约束的率失真优化理论,为领域研究者提供了一个完整的技术图谱和理论框架。在工程实践上,文章详细分析了编码延迟产生的根源,对比了业界主流低延迟方案的优缺点和技术取舍,为工程师在设计面向云游戏、VR/AR、实时通信等具体应用的编码器时,提供了明确的技术选型指南和优化路径。文章指出的未来研究方向,如理论与新标准结合、智能算法轻量化、系统级优化等,也为该领域的后续研究指明了重点和突破口。这篇论文是理解和进入低延迟视频编码领域的一篇重要参考文献。