基于深度残差网络的VP9超级块快速划分算法

分享自：
基于深度残差网络的VP9超级块快速划分算法

工程学
信息科学
人工智能
计算机科学
软件工程
期刊:电视技术DOI:10.16280/j.videoe.2019.08.002
【点击此处】阅读全文、收藏及针对性提问
本文介绍的学术论文《基于深度残差网络的VP9超级块快速划分算法》（Fast Superblock Partition Decision Based on Deep Residual Network for VP9）发表于《电视技术》（Video Engineering）期刊2019年第43卷第8期。论文作者为黄永铖、宋利、解蓉，均来自上海交通大学图像通信与网络工程研究所。这项研究受到国家自然科学基金（项目编号：61671296）的支持。以下将对该研究进行详细介绍。
一、 作者、发表信息与研究背景 本研究由上海交通大学图像通信与网络工程研究所的黄永铖、宋利、解蓉三位学者完成。其研究成果以论文形式发表在2019年的《电视技术》期刊上。研究的核心领域为视频编码技术，具体聚焦于VP9编码标准的快速编码算法。
VP9作为谷歌主导的新一代开源、免专利授权费的高效视频编码标准，因其优异的压缩性能和开放特性，在在线视频、网络教育等诸多领域受到广泛应用。然而，为了实现高效率编码，VP9采用了灵活的编码单元划分结构。具体而言，编码器需要将一帧图像划分为64x64的“超级块”（Superblock），并递归地对其进行更精细的划分（如划分为32x32、16x16等更小的块），直到达到最小块尺寸。在每个划分节点，编码器需要尝试水平划分、垂直划分、十字划分和不划分等多种模式，并对每种模式进行完整的率失真优化（Rate-Distortion Optimization, RDO）计算，以选择最优的划分结构。这种穷举式的递归搜索过程需要执行大量的变换、量化、熵编码等操作，占据了VP9编码过程中绝大部分的计算复杂度，成为制约其编码速度的主要瓶颈。
此前，已有许多研究尝试通过提前终止划分决策来加速HEVC、H.264等编码标准，其中既有基于传统图像分析（如利用邻近块相关性、运动发散性）的方法，也有基于机器学习（如支持向量机SVM）的方法。然而，这些方法大多依赖于人工设计的特征，其性能受限于特征选取的有效性，且往往针对特定编码标准设计，难以直接移植到VP9平台上。此外，VP9的超级块划分模式更多，构成了一个复杂的多分类问题，这给预测算法带来了更大挑战。
本研究的目的是：设计一种能够直接、准确地预测VP9超级块最优划分结构的方法，以替代或规避传统耗时的率失真优化递归搜索过程，从而显著降低VP9的编码复杂度，同时尽可能保持其编码效率（即码率-失真性能）。
二、 详细研究流程 本研究的工作流程主要包含三个核心步骤：数据集的构建、网络模型的设计与训练、以及性能评估。
1. 数据集的构建： 深度学习模型的训练依赖于大量、高质量的数据。为此，研究团队首先建立了一个大型的VP9超级块最优划分结构数据库。他们选择了公开的图像集RAISE（作为数据来源），使用开源的VP9编码器（libvpx 1.7.0）在四种不同的量化参数（Quantization Parameter, QP，取值为22, 27, 32, 37）下，对图像集进行帧内编码。编码时采用标准的率失真优化过程，以获得每个超级块的“真实”最优划分结构（即“标签”）。每个64x64的超级块在编码后会得到一系列标签，对应其本身及其子块的划分决策，总计21个标签。通过这种方式，他们将整个图像集的80%用于训练模型，20%用于测试，确保了模型训练的充分性和评估的客观性。他们还对标签的分布进行了统计分析，发现标签分布与量化参数高度相关，并且标签为“水平划分”和“垂直划分”的样本数量远少于“不划分”和“十字划分”。为解决样本不均衡问题以提升模型性能，他们将纹理复杂度相似的“水平划分”和“垂直划分”合并为一类。最终，超级块的划分模式被归纳为三类：0类（不划分，纹理复杂度低）、1类（水平或垂直划分，纹理复杂度中等）、2类（十字划分，纹理复杂度高）。
2. 网络模型的设计与训练： 为了实现对VP9超级块三级划分（64x64, 32x32, 16x16）的预测，研究团队设计了一种基于残差块（Residual Block）的分层卷积神经网络（CNN）结构。模型的输入是经过零均值化预处理的64x64超级块的亮度分量。
特征提取网络： 首先使用一个步长为2的3x3卷积层进行浅层特征提取。随后，借鉴ResNet-18的思想，构建了三个残差块来提取深层特征。每个残差块包含两层卷积层，并采用“捷径连接”（Shortcut Connection）将输入直接映射到输出，这有效缓解了深度网络中的梯度消失问题，使得网络能够提取更强大的特征。特征提取过程通过公式 y_j = σ( f(x_j, {W_j}_i) + s(x_j) ) 计算，其中σ是ReLU激活函数，f是卷积操作，s是捷径映射。
分层分类器： 为了降低网络总体复杂度，特征提取网络后输出的深层特征被三个层级的分类器共享。每个分类器首先接收共享特征和当前的量化参数（作为重要的上下文信息），然后经过两层全连接隐藏层（每层后使用20%的Dropout以防止过拟合），最后通过一个Softmax激活函数输出对应层级的划分概率。这三个分类器分别负责预测64x64超级块本身的划分、其四个32x32子块的划分以及16个16x16子孙块的划分。
损失函数与训练： 考虑到不同层级预测错误的代价不同，高层的划分决策错误会直接影响其所有子块的划分，因此研究设计了一种联合加权损失函数：L = -w1 * (ŷ1 log y1) - w2 * Σ(ŷ2_i log y2_i) - w3 * Σ(ŷ3_i log y3_i)。其中，ŷ是真实标签，y是预测概率，w是权重。他们为三层分类器分别设置了4、2、1的权重，赋予高层预测更高的优先级。模型采用动量梯度下降法进行优化，在TensorFlow框架上实现，并利用GPU加速训练。
3. 实验与性能评估： 训练好的模型被集成到VP9官方编码器libvpx 1.7.0中。评估时，他们将提出的算法与一篇近期在VP9上表现较好的、基于加权支持向量机（Weighted SVM）的快速算法进行了对比。实验在标准高清数据集（Standard HD Dataset, StdHD）上进行，采用帧内编码模式，对比了四种量化参数下的性能。
性能评估指标包括： * 编码复杂度（时间）节省（ΔT）： 计算相对于原始VP9编码器（第0档速度）节省的时间百分比。公式为 ΔT = Σ((T_ori - T_proposed) / T_ori) / 4 * 100%。 * 率失真性能： 使用业界通用的BD-Rate（Bjøntegaard Delta Rate）和BD-PSNR（Bjøntegaard Delta PSNR）来衡量。BD-Rate表示在相同视频质量下码率的平均变化（正值为码率增加），BD-PSNR表示在相同码率下峰值信噪比（PSNR）的平均变化（负值为质量下降）。 * 神经网络额外开销（T_net）： 统计神经网络预测本身所消耗的时间占总编码时间的比例。
三、 主要研究结果 实验结果表明，本研究提出的基于深度残差网络的算法取得了显著成效。
1. 编码复杂度大幅降低： 与原始的VP9编码器相比，新算法在StdHD测试序列上平均节省了65.16%的编码时间，效果显著。而作为对比的基于SVM的算法平均节省时间为46.18%。这表明本算法在加速效果上优势明显。关键原因在于，本算法是直接预测最终的划分结构，从而完全规避了递归式的率失真优化搜索过程；而SVM方法只是提前终止某些搜索分支，仍需进行部分RDO计算。此外，研究特别指出，神经网络预测本身的时间开销（T_net）平均仅占总编码时间的2.49%，说明深度模型带来的额外计算负担很小，加速效果是净收益。
2. 率失真性能损失微小： 在显著提升编码速度的同时，该算法对编码效率的影响控制在可接受范围内。实验数据显示，算法的BD-Rate平均仅增加了2.28%，即为了达到相同的视频质量，平均只需要多付出2.28%的码率。同时，BD-PSNR平均下降了0.12 dB，意味着视频质量有微小的下降。值得一提的是，本算法在率失真性能上的损失（2.28% BD-Rate增加）略优于对比的SVM算法（2.46% BD-Rate增加）。这证明了深度残差网络通过自动学习图像深层特征，能够比依赖手工特征的SVM更准确地预测划分结构，从而在加速和性能保持之间取得了更好的平衡。
四、 研究结论与价值 本研究的结论是：所提出的基于深度残差网络的VP9超级块快速划分算法是成功且有效的。它通过构建深度神经网络模型，利用图像的空间特征直接预测VP9超级块的最优划分结构，从而彻底取代了传统编码器中复杂度极高的递归式率失真优化搜索过程。
这项研究的价值体现在以下几个方面： * 科学价值： 它将深度学习，特别是残差网络，成功应用于视频编码的快速决策问题，为解决编码单元划分这一核心难题提供了一种全新的、数据驱动的思路。证明了深度特征自动学习在解决此类复杂多分类问题上，优于传统基于手工规则或浅层机器学习的方法。 * 应用价值： 该算法能够在VP9编码中平均节省超过65%的时间，而仅带来约2%的码率开销。这种“用微小的压缩效率损失换取巨大的编码速度提升”的权衡，对于实时视频通信、流媒体服务等对编码速度有极高要求的应用场景具有重大的实用意义，使得VP9编码器在保持开源优势的同时，竞争力得到进一步增强。 * 方法论价值： 研究中所采用的分层分类器共享特征的网络结构设计，有效降低了模型复杂度。针对样本不均衡进行的标签合并策略，以及考虑决策层级重要性的加权损失函数，都为解决类似的视频编码快速决策问题提供了可借鉴的技术路径。
五、 研究亮点 本研究的亮点主要包括： 1. 研究目标的针对性： 专门针对开源、应用广泛的VP9编码标准，解决了其核心的效率瓶颈问题，填补了该领域深度学习加速算法研究的空白。 2. 方法的创新性： 首次将深度残差网络应用于VP9的超级块划分预测，实现了从“提前终止”到“直接预测”的范式转变，大幅提升了加速比。 3. 技术方案的完整性： 研究涵盖了从大规模数据集构建、针对性的网络结构设计（残差特征提取+分层分类）、考虑实际问题的训练策略（处理样本不均衡、设计加权损失），到完整的集成测试与对比分析的全流程，论证严谨。 4. 显著的性能优势： 最终实验结果表明，无论是在编码速度的节省幅度（65.16% vs 46.18%），还是在率失真性能的保持上（2.28% vs 2.46% BD-Rate增加），所提算法均全面优于已有的先进算法（基于SVM的方法），体现了深度学习方法的优越性。
六、 其他有价值的内容 论文在引言和“相关工作”部分对视频编码快速算法的发展脉络进行了清晰的梳理，从早期的基于启发式规则的方法，到基于传统机器学习（如SVM）的方法，再到近期基于深度学习（CNN）的方法，指出了各类方法的优缺点及演进趋势，为读者理解本研究的定位和价值提供了良好的背景知识。此外，论文对实验结果的分析不仅给出了整体平均值，还列出了多个测试序列的详细数据，展示了算法在不同视频内容上的稳定表现，增强了结果的可信度。最后，论文所有代码基于开源软件（libvpx, TensorFlow）实现，具有较好的可复现性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问