基于光谱扩散后验采样的多材料分解

基于光谱扩散后验采样的多材料分解研究 背景介绍 在医学成像领域,CT(计算机断层扫描)技术被广泛应用于疾病诊断和治疗规划。近年来,谱CT(spectral CT)因其能够提供能量依赖的衰减信息,成为研究热点。谱CT通过多能量通道的投影数据,可以重建出不同材料的密度分布,这一过程称为材料分解(material decomposition)。然而,材料分解是一个高度非线性的逆问题,传统的分解方法如解析分解(analytical decomposition)和迭代模型分解(iterative/model-based decomposition)存在诸多局限性,如计算效率低、噪声大、模型依赖性强等。此外,尽管基于深度学习的分解方法在精度和速度上有显著提升,但它们往往缺乏对物理模型的显式利用,导致鲁棒...

TryOn-Adapter:高效细粒度服装身份适应的高保真虚拟试穿

TryOn-Adapter:高效细粒度服装身份适应的高保真虚拟试穿

TryOn-Adapter——高效细粒度服装身份适配的高保真虚拟试穿 研究背景与问题 虚拟试穿(Virtual Try-On)技术近年来受到广泛关注,其核心目标是将给定的服装无缝调整到特定人物身上,同时避免服装图案和纹理的失真。然而,现有的基于扩散模型(Diffusion Model)的方法在保持服装身份一致性方面存在显著局限性,即使通过全参数微调也难以完全控制服装的身份特征。此外,这些方法通常需要高昂的训练成本,限制了其广泛应用。 为了解决这些问题,本研究提出了一种新颖的框架——TryOn-Adapter,旨在实现高效的服装身份适配,同时降低训练资源消耗。具体而言,研究者将服装身份解耦为三个细粒度因素:风格(Style)、纹理(Texture)和结构(Structure),并通过定制的轻量...

尖峰扩散模型

脑启发的低能耗生成模型——Spiking Diffusion Models研究评述 背景概述 近年来,人工智能领域涌现出众多前沿技术,其中深度生成模型(Deep Generative Models, DGMs)通过生成图像、文本等数据表现出了卓越的能力。然而,这些生成模型通常依赖人工神经网络(Artificial Neural Networks, ANNs)作为骨干网络,其高度依赖算力和内存资源的特性使其在大规模应用中面临显著的能耗问题。同时,与人类大脑相比,ANNs的能耗效率远不及人类大脑的20瓦功率水平,这导致研究人员对更高能效的神经网络架构产生了兴趣。 与ANNs不同,脉冲神经网络(Spiking Neural Networks, SNNs)以大脑神经元的工作方式为启发,以事件驱动的方...

LDTrack:基于条件潜在扩散模型的服务机器人动态人员跟踪

基于扩散模型的服务机器人动态人员跟踪 学术背景 在复杂和拥挤的人类中心环境中,动态人员的跟踪是机器人技术中的一个具有挑战性的问题。由于存在遮挡、姿态变形和光照变化等类内差异,传统的跟踪方法往往难以准确识别和跟踪目标。现有的机器人跟踪方法通常依赖于独立的检测和跟踪系统,这种方法在计算效率和实时性方面存在瓶颈,尤其是在面对类内差异时,检测器的失败可能导致跟踪的中断。 为了解决这些问题,本文提出了一种基于条件潜在扩散模型(Conditional Latent Diffusion Models)的新型深度学习架构——潜在扩散跟踪(Latent Diffusion Track, LDTrack)。该架构通过捕捉时间上的人员嵌入(temporal person embeddings),能够适应人员外观随...

AutoStory:以最少人力生成多样化故事图像

AutoStory:以最少人力生成多样化故事图像

学术背景与问题提出 故事可视化(Story Visualization)是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量,还要与文本描述保持一致,并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,但由于其复杂性,现有的方法往往通过简化问题来处理,例如仅考虑特定的角色和场景,或要求用户提供每张图像的控制条件(如草图)。这些简化使得现有方法在实际应用中表现不佳。 为了解决这些问题,本文提出了一种自动化故事可视化系统,能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说,作者利用大语言模型(LLM)的理解和规划能力进行布局规划,然后基于布局利用大规模文本到图像模型生成复杂的...