基于级联潜在扩散模型的高质量视频生成框架LaVie

基于级联潜在扩散模型的高质量视频生成框架LaVie

基于级联潜在扩散模型的高质量视频生成:LaVie 学术背景 近年来,随着扩散模型(Diffusion Models, DMs)在图像生成领域的突破性进展,文本到图像(Text-to-Image, T2I)生成技术已经取得了显著的成功。然而,将这一技术扩展到文本到视频(Text-to-Video, T2V)生成领域仍然面临诸多挑战。视频生成不仅需要生成视觉上逼真的图像,还需要确保时间上的连贯性,同时保留预训练T2I模型的创造性生成能力。现有的T2V生成方法通常依赖于从零开始训练整个系统,这不仅需要大量的计算资源,还难以在视频质量、训练成本和模型可组合性之间找到平衡。 为了解决这些问题,本文提出了LaVie,一个基于级联视频潜在扩散模型(Cascaded Video Latent Diffusi...

基于可控扩散模型的射电天文图像生成方法

RaDiff: 用于无线电天文图生成的可控扩散模型” 全面学术新闻报道 背景介绍 随着平方公里阵列(Square Kilometer Array, SKA)望远镜的建造接近完成,无线电天文学将在宇宙研究领域迎来革命性进展。SKA的灵敏度和空间分辨率达到了前所未有的高度,然而,由其前身望远镜产生的海量数据已经对数据处理提出了严峻挑战。具体来说,后台自动化、高效的数据挖掘工具变得至关重要。自动源检测与分类任务成为研究中的核心问题,尤其对于那些背景噪声显著或源形态复杂的无线电图像(如银河系平面观测)尤为困难。 深度学习(Deep Learning)作为机器学习的一种先进方法,近年来被广泛应用于无线电天文学。然而,此方法依赖于庞大的高质量标注数据集,而无线电天文数据因为人工标注过程复杂且耗时,难以实...

基于扩散模型的特征增强在整张切片图像多实例学习中的应用

基于扩散模型的特征增强:针对全视野病理图像多实例学习的新方法 学术背景与研究动机 在计算病理学(computational pathology)领域,如何有效分析全视野扫描病理图像(Whole Slide Images,WSIs)是当前研究的热点。WSIs 是超高分辨率的图像,通常具有广域的视野,广泛用于癌症诊断。然而,由于病例标记的稀缺性以及图像自身的体量庞大,基于深度学习的多实例学习(Multiple Instance Learning,MIL)在WSI的自动化分析中面临诸多挑战。 MIL 是一种经典的弱监督学习方法,核心思路在于将整个WSI看作一个“袋”级别的实例,而每块小图像(patch)作为单独的“袋中实例”。虽然袋级别的标签已知,但单个实例的标签未知。在 MIL 的应用中,常见的...

StyleAdapter:一种统一风格化的图像生成模型

StyleAdapter:一种统一风格化的图像生成模型 近年来,文本到图像(Text-to-Image, T2I)生成技术和深度学习模型的快速发展,显著推动了人工智能在图像生成领域的研究进展。然而,将参考图像的特定风格融入文本生成的高质量图像中仍然是一个挑战。为了解决这一问题,Zhouxia Wang等人提出了一种名为StyleAdapter的统一风格化图像生成模型。这篇论文发表于International Journal of Computer Vision,由香港大学、腾讯ARC Lab、澳门大学以及上海人工智能实验室的研究人员共同完成。 研究背景与意义 目前主流的风格化图像生成方法包括DreamBooth和LoRA。这些方法通过对原始扩散模型进行微调,或增加额外的小型网络来适应特定风格...

利用基于扩散模型的深度学习算法增强超结构成像与体积电子显微镜

利用基于扩散模型的深度学习算法增强超结构成像与体积电子显微镜

利用基于扩散模型的深度学习算法增强超结构成像与体积电子显微镜 背景介绍 电子显微镜(Electron Microscopy,简称EM)作为一种高分辨率成像工具,对细胞生物学取得了重大突破。传统的EM技术主要用于二维成像,尽管已经揭示了复杂的纳米级别细胞结构,但在研究三维(3D)结构时存在一定局限性。体积电子显微镜(Volume Electron Microscopy,简称VEM)作为一种更为先进的技术,通过串联切片和断层扫描技术(如透射电子显微镜TEM和扫描电子显微镜SEM)实现了细胞和组织的3D成像,可以提取细胞、组织甚至小模型生物体的纳米级3D结构。 尽管VEM技术突破了传统二维EM的局限性,但其成像速度和质量之间存在固有的权衡关系,导致成像区域和体积的限制。此外,生成各向同性(isot...