Promptus：一种将真实世界视频表示为稳定扩散提示以用于视频流传输的新系统

分享自：
Promptus：一种将真实世界视频表示为稳定扩散提示以用于视频流传输的新系统

期刊:ICLR
根据所提供的文本内容，判断该文档属于类型a：一份报告单一原创性研究的科学论文。以下是基于该文档内容撰写的学术报告。
关于Promptus：一种利用稳定扩散提示进行视频流传输的新范式
本文介绍了一项名为“Promptus”的开创性研究工作。这项研究旨在彻底改变传统的视频流传输范式，通过利用生成式人工智能（Generative AI）的强大能力，实现超低码率下的高质量视频通信。本文将对该研究的背景、方法、结果及意义进行详细阐述。
一、 作者与发表信息
本研究报告的研究工作由匿名作者团队完成，论文标题为“Promptus: Representing Real-World Video as Stable Diffusion Prompts for Video Streaming”。该论文目前（根据文中标注）正处于“ICLR 2025”（国际学习表征会议）的同行评审（Double-Blind Review）过程中，因此作者信息、所属机构及具体发表日期暂未公开。论文作者承诺，在正式发表后将会开源Promptus系统。
二、 学术背景与研究目标
主要科学领域： 本研究主要涉及计算机视觉、多媒体通信与生成式人工智能的交叉领域，具体聚焦于视频编码、压缩与流媒体传输技术。
研究动因与背景知识： 随着在线视频流媒体应用的爆炸式增长，网络视频流量持续攀升。以H.264、H.265/HEVC为代表的传统视频编解码器通过消除视频中的空间和时间冗余来实现压缩。然而，视频中的冗余信息是有限的，这导致传统方法的压缩比存在理论上的上限（受香农极限约束）。为了进一步压缩，不得不丢弃非冗余信息，从而导致视频质量严重下降，出现模糊、块效应（blocking artifacts）等问题。近年来，基于深度学习的编解码器和流媒体框架被提出以提升压缩比，但它们在性能或通用性上仍存在局限。
与此同时，生成式AI，特别是稳定扩散（Stable Diffusion）模型，因其强大的文本到图像生成能力而受到广泛关注。通过在LAION等海量数据集上的预训练，稳定扩散学习了近乎涵盖所有人类视觉领域的先验知识，能够根据简短的文本提示（prompt）生成高保真度的图像。这激发了一个核心问题：能否用稳定扩散模型来替代传统的视频编解码器？在流传输过程中，发送方不再传输编码后的视频数据，而是传输“提示”（prompts）；接收方则利用这些提示通过生成模型“重建”视频，而非解码视频。这样一来，网络视频流量将从视频级别降至文本级别，有望极大提升视频通信效率。
研究目标： 为了实现上述愿景，本研究提出了Promptus系统。其核心目标是将真实世界的视频帧“反转”（invert）为稳定扩散模型能够理解的提示，从而构建一个基于提示流传输的超低码率视频流系统。为实现这一目标，研究团队需要解决三个关键的技术挑战：1) 如何确保生成帧与原始视频帧在像素级别上对齐；2) 如何精确控制提示本身的比特率以适应动态变化的网络带宽；3) 如何对提示进行帧间压缩，以利用视频的时间相关性。
三、 详细工作流程与方法
Promptus的研究流程主要包括三个核心技术环节：基于梯度下降的提示拟合、基于低秩分解的码率控制，以及基于时间平滑的提示插值。
1. 基于梯度下降的提示拟合框架（实现像素对齐）： 该步骤的目标是为每一帧视频找到一个特定的“提示”，使得稳定扩散模型根据该提示生成的图像与原始帧在像素级别上高度一致。 * 研究对象与处理： 研究对象为视频序列中的每一帧图像（目标帧）。不训练新的神经网络，而是完全利用预训练且冻结参数的稳定扩散模型的知识。 * 核心工作流程： * 初始化： 随机初始化一个提示（以嵌入向量的形式，而非自然语言文本）。 * 前向生成： 使用该提示，结合一个输入噪声，通过稳定扩散模型生成一帧图像。 * 损失计算： 计算生成图像与目标图像之间的差异作为损失值。损失函数结合了像素级重建损失（如MSE）和感知损失（如LPIPS），以在保证对齐的同时维持图像的锐利度和细节。 * 梯度反向传播与更新： 通过反向传播计算损失相对于提示的梯度，并使用梯度下降法迭代更新提示。 * 迭代优化： 重复上述步骤，直至损失收敛，最终得到的提示即能引导模型生成与目标帧像素对齐的图像。 * 创新方法/技术： * 单步去噪： 采用SD-Turbo变体模型进行单步去噪生成，避免了传统迭代去噪带来的高阶导数计算，极大提升了梯度下降的效率。 * 嵌入向量作为提示： 直接使用可微分的文本嵌入向量作为提示，绕过了将自然语言文本通过CLIP模型转换为嵌入向量时产生的不可微操作，使得梯度可以直接对提示进行优化。 * 噪声化的前一帧作为输入噪声： 为了缩小输入噪声与目标图像在潜在空间（latent space）的距离，采用对前一帧的潜在表示添加噪声的方式作为当前帧生成的输入噪声，而非纯粹的随机噪声。这使得单步生成更容易拟合目标。 * 损失函数组合： 结合MSE和LPIPS损失，兼顾像素对齐与主观视觉质量。
2. 基于低秩分解的提示码率控制算法（实现自适应码率）： 直接拟合得到的提示是一个固定维度的嵌入矩阵，其比特率是固定且较高的。为了根据网络带宽动态调整码率，需要进行压缩。 * 研究对象与处理： 研究对象是拟合过程中待优化的提示嵌入矩阵C（维度为m*n）。 * 核心工作流程： * 低秩表示： 将提示嵌入矩阵C表示为两个低秩因子矩阵U（m*r）和V（r*n）的外积与归一化结果，即 C = (U * V) / √r。其中，r是秩（rank）。 * 端到端拟合： 在梯度下降拟合过程中，不再直接拟合和存储C，而是随机初始化并直接拟合U和V。低秩分解的逆过程被整合到拟合中。 * 码率-质量权衡： 秩r控制了码率与质量的权衡。r越小，U和V的总参数量（(m+n)*r）越小，提示的比特率越低，但其表征能力也越弱，无法拟合图像中的高频细节；反之，r越大，质量越高，比特率也越高。 * 感知量化： 对U和V中的参数进行可微分的伪量化（如从32位浮点数量化至8位），并将量化过程整合到拟合中，通过端到端优化补偿量化带来的损失。 * 创新方法/技术： 提出了将低秩分解的逆过程集成到梯度下降拟合中的方法，实现了对低维提示的端到端直接拟合，避免了先拟合高维提示再降维带来的质量损失。
3. 基于时间平滑的提示插值算法（实现帧间压缩）： 若对每一帧都独立拟合并传输一个提示，比特率会随帧率线性增长。为了利用帧间相关性进行压缩，需要实现提示的帧间压缩。 * 研究对象与处理： 研究对象是视频序列中连续帧的提示。 * 核心工作流程： * 时间平滑正则化： 在拟合每一帧的提示时，在损失函数中增加一项时间平滑正则项，即当前帧提示与前一帧提示在嵌入空间中的L2距离。这强制要求时间上接近的视频帧，其提示在提示空间中也足够接近。 * 关键帧与插值： 在流传输时，只稀疏地传输少量关键帧的提示。对于非关键帧，其提示可以通过前后关键帧提示的线性插值来近似得到。 * 场景切换检测： 实践中，视频会发生场景切换。系统会检测潜在空间中帧间距离的突变，当超过阈值时，判定为场景切换，并将切换后的第一帧作为新场景的“第一帧”处理，重新开始关键帧计数和插值流程。 * 创新方法/技术： 提出了通过时间平滑正则化来约束提示空间连续性的方法，使得线性插值在提示空间变得可行且有效，从而实现了对提示的帧间压缩。
四、 主要研究结果
研究团队在来自4个不同数据集（涵盖自然风景、人类活动、3D游戏、2D动画等多种领域）的7个测试视频上对Promptus进行了全面评估，并与H.265、H.266和VAE等基线方法进行了对比。评估主要使用LPIPS作为衡量感知质量的指标（值越低越好）。
1. 码率-质量权衡关系的结果： * 提示秩（Rank）的影响： 实验结果（图6、图5）清晰表明，提示秩r越高，生成的视频质量越好（LPIPS越低）。例如，当关键帧间隔为1时，秩从4增加到16，平均LPIPS从0.265降至0.221。可视化结果证实，更高的秩能拟合更丰富的细节（如耳环、灯光颜色）。 * 关键帧间隔的影响： 关键帧间隔越小，质量越高（图6）。例如，当秩为16时，间隔从10减小到1，LPIPS从0.274降至0.221。因为间隔越小，关键帧提示在提示空间中越接近，线性插值的近似越准确。 * 可伸缩的码率： 通过调节秩（4至32）和关键帧间隔（2至8），Promptus能够实现从113 kbps到4284 kbps的宽广码率范围覆盖，并且质量随码率增加而单调提升（图7）。
2. 压缩效率对比结果： * 全面优势： 在不同目标码率水平下（140 kbps, 280 kbps, 360 kbps, 540 kbps），Promptus的质量（LPIPS）曲线均位于所有基线方法（H.265， H.266， VAE）的左侧，表明其帧质量分布更优，平均质量更高（图9）。 * 显著的带宽节省： Promptus在保持相同感知质量的前提下，可以实现超过4倍的带宽缩减。例如，Promptus在140 kbps码率下的平均质量，优于H.265在540 kbps码率下的质量。 * 极低码率下的巨大优势： 在极低码率下（如140 kbps），Promptus的优势更为显著。相比于VAE和H.265，Promptus分别将感知质量提升了0.139和0.118（以LPIPS计）。更重要的是，Promptus将严重失真帧（LPIPS > 0.32）的比例相比VAE和H.265分别降低了89.3%和91.7%。这是因为在低码率下，传统编码器因粗量化而丢失大量高频细节，导致模糊和块效应；而Promptus虽然降低了提示的表征能力，但得益于稳定扩散的先验知识，生成的帧仍能保持较好的清晰度和细节。
3. 通用性验证结果： * 跨域有效性： 在所有四个不同内容领域的数据集上，Promptus均取得了优于基线方法的平均质量（图8）。这证明了其方法的通用性。 * 细节丰富视频的优势更大： 对于细节丰富的真实世界视频（如UVG数据集），Promptus相对于H.265的优势（LPIPS降低0.121）远大于细节简单的2D动画视频（Animerun数据集，优势为0.015）。因为稳定扩散能够基于先验知识“补全”部分在压缩中丢失的高频信息。
4. 系统性能与消融实验结果： * 实时生成能力： 接收端通过使用TensorRT等加速技术，生成一帧512*512图像仅需约6.226毫秒，可实现实时视频生成（表1）。 * 插值方法有效性： 消融实验（图15）表明，所提出的提示插值方法优于直接在潜在空间或像素空间进行插值的方法，能够更好地保持运动并避免伪影，证明了U-Net（扩散过程）在压缩性能中的关键作用。 * 拟合能力： 即使对于稳定扩散模型本身也难以生成的特定元素（如精确的手指、文本），Promptus通过端到端梯度下降拟合也能较好地还原（图16）。
五、 结论与研究价值
结论： 本研究成功提出了Promptus，一个利用稳定扩散提示流替代传统视频流的新型系统。通过创新的梯度下降提示拟合框架，实现了像素级对齐的视频到提示反转；通过低秩分解算法实现了提示的自适应码率控制；通过时间平滑正则化和提示插值实现了有效的帧间压缩。大量实验证明，Promptus在多种视频类型上均能实现远超传统编解码器的压缩效率，尤其在极低码率下能显著提升视觉质量并减少严重失真。
科学价值与应用价值： * 科学价值： 本研究开创性地将生成式AI（AIGC）的能力边界拓展至视频通信领域，提出了一种全新的“提示流”通信范式。它不再局限于消除冗余，而是利用生成模型的强大先验知识来“表达”和“重建”视频内容，为突破传统压缩理论极限提供了新思路。 * 应用价值： Promptus为未来超低带宽环境下的高质量视频传输（如移动网络、卫星通信、物联网设备回传）提供了切实可行的技术方案。其开源性也将促进该方向的后续研究和应用探索。
六、 研究亮点
范式创新： 据作者所知，这是首次尝试用提示反转替代视频编解码器，也是首次使用提示流传输替代视频流传输的研究工作。
方法创新： 提出了集成的梯度下降提示拟合框架，巧妙解决了生成模型用于严格重建任务时的像素对齐难题。
高效系统设计： 构建了完整的、包含码率自适应和帧间压缩的视频流媒体系统原型，并验证了其实际效能和实时生成潜力。
显著的性能提升： 实验数据充分证明了Promptus在压缩效率，特别是在极低码率下的巨大优势，具有明确的应用前景。
七、 其他有价值的内容
论文也坦诚讨论了当前Promptus系统的局限性： * 提示拟合的时间开销： 发送端的拟合过程需要迭代优化，目前无法实时完成，因此主要适用于视频点播（VoD）场景，暂不适用于实时通信或直播。 * 提示插值带来的延迟： 接收端需要等待后续关键帧才能插值生成中间帧，引入了额外延迟，对延迟极度敏感的应用（如WebRTC视频会议）构成挑战。 * 均匀关键帧的效率问题： 目前采用均匀间隔的关键帧选取策略，未来可探索自适应关键帧选择，在变化剧烈的片段更密集地发送关键帧。
针对这些局限性，作者指出了未来改进方向，如开发更高效的梯度下降算法以加速拟合、设计关键帧外推算法以降低延迟等。这些讨论为后续研究指明了道路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问