更小但更好:用更小的大型语言模型统一布局生成

统一布局生成研究新突破:更小但更强的大语言模型 研究背景与问题提出 布局生成(Layout Generation)是计算机视觉和人机交互领域的重要研究方向,旨在通过算法自动生成符合特定需求的图形界面或排版设计。例如,科学文章、应用程序界面(App UI)、杂志页面以及幻灯片的设计都需要高效且灵活的布局生成方法。然而,传统方法通常针对单一任务或单一领域进行优化,缺乏跨任务和跨领域的通用性。随着深度学习技术的发展,基于Transformer架构的方法逐渐成为主流,但仍面临模型复杂度高、计算成本大等问题。 近年来,大语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了显著进展,其强大的推理能力为解决复杂任务提供了新的可能性。然而,将LLMs应用于统一...

从空间特征重要性角度提升分布外检测

从空间特征重要性视角提升分布外检测性能的研究 研究背景与问题提出 在深度学习模型的实际应用中,确保模型在面对未知类别的输入时能够可靠地拒绝预测,是保障系统安全性和鲁棒性的关键。这一需求催生了分布外检测(Out-of-Distribution Detection, OOD Detection)的研究领域。OOD检测旨在区分模型训练数据分布范围内的样本(即分布内样本,In-Distribution, ID)和超出该范围的样本(即分布外样本,Out-of-Distribution)。近年来,研究者提出了多种检测准则,如MSP(Maximum Softmax Probability)、Energy Score、GradNorm等,以构建模型的拒绝区域,并将落入该区域的样本识别为分布外样本。 然而,现...

Moonshot:通过运动感知多模态条件实现可控视频生成和编辑

MoonShot——迈向基于运动感知多模态条件的可控视频生成与编辑 研究背景与问题提出 近年来,文本到视频扩散模型(Video Diffusion Models, VDMs)取得了显著进展,使得生成高质量、视觉吸引人的视频成为可能。然而,现有VDM大多依赖于文本条件进行生成控制,这在精确描述视觉内容方面存在局限性。具体而言,这些方法通常难以对生成视频的外观和几何结构进行精细控制,导致生成结果高度依赖随机性或偶然性。 为了解决这一问题,研究者尝试通过微调扩散模型实现个性化生成(如DreamBooth),但这种方法需要针对每个输入图像重复训练,效率低下且难以扩展到更广泛的应用场景。此外,尽管图像域中的IP-Adapter通过双交叉注意力层实现了图像与文本的联合条件控制,但直接将其应用于视频生成会...

深度伪造检测:双级适配器用于深度伪造检测

Deepfake-Adapter——一种双层适配器用于深度伪造检测 研究背景与问题 随着深度生成模型(deep generative models)的快速发展,超逼真的面部图像和视频可以轻松生成,这些内容甚至能够欺骗人类的眼睛。这种技术被滥用时,可能导致政治、娱乐和社会领域的严重虚假信息传播问题,这种威胁被称为“深度伪造”(Deepfake)。为了应对这一安全问题,许多深度伪造检测方法被提出,并在训练和测试数据来自相同操纵类型且质量良好的情况下表现出色。然而,当面对未见过或低质量的伪造样本时,这些方法的性能显著下降。这主要是因为现有的深度伪造检测方法大多仅关注局部纹理、融合边界或频率信息等低层次伪造特征,而忽略了高层次语义信息的作用。 高层次语义信息(high-level semantics...

有限数据下的图像合成:综述与分类法

图像合成在有限数据下的研究综述 研究背景与问题提出 近年来,深度生成模型(Deep Generative Models)在智能创作任务中取得了前所未有的进展,特别是在图像和视频生成、音频合成等领域。然而,这些模型的成功依赖于大量的训练数据和计算资源。当训练数据有限时,生成模型容易出现过拟合(Overfitting)和记忆化(Memorization)问题,导致生成样本的质量和多样性显著下降。这种限制对许多实际应用场景构成了挑战,例如医学影像生成、工业缺陷检测以及艺术品创作等。 为了应对这些问题,研究人员致力于开发能够在有限数据条件下生成高质量、多样化图像的新模型。尽管已有许多研究尝试解决这一问题,但目前尚缺乏系统性的综述来明确以下几点: 1. 有限数据下图像合成的定义、挑战及分类; 2. 对...

基于事件相机的自监督快门复原方法

基于事件相机的自监督快门展开方法 研究背景与问题提出 在计算机视觉领域,从滚动快门(Rolling Shutter, RS)图像中恢复无失真的全局快门(Global Shutter, GS)视频一直是一个极具挑战性的问题。RS 相机由于逐行曝光机制,在动态场景中容易产生空间扭曲(如抖动和倾斜),这在高速运动场景中尤为明显。尽管现有的方法可以通过人工假设或特定数据集的特性来纠正 RS 效应,但这些方法往往在复杂非线性运动的真实场景中表现不佳。此外,许多方法依赖于合成数据集进行训练,导致在真实场景中性能下降,即所谓的“合成到真实”差距。 为了解决这些问题,本文作者提出了一种基于事件相机的自监督学习框架——SelfUnroll,旨在通过利用事件相机的高时间分辨率信息,实现从 RS 图像到连续时间 ...