Champ de distance signée régularisé par pseudo-plan pour la reconstruction neuronale de scènes intérieures

Champ de distance signée régularisé par des pseudo-plans pour la reconstruction neuronale de scènes intérieures Contexte académique La reconstruction tridimensionnelle (3D) de scènes intérieures est une tâche importante en vision par ordinateur, avec des applications prometteuses dans des domaines tels que l’infographie et la réalité virtuelle. Les...

AutoStory : Génération d'images narratives diversifiées avec un effort humain minimal

AutoStory : Génération d'images narratives diversifiées avec un effort humain minimal

Contexte académique et problématique La visualisation d’histoires (Story Visualization) est une tâche visant à générer une série d’images visuellement cohérentes à partir d’une histoire décrite par un texte. Cette tâche exige que les images générées soient de haute qualité, alignées avec la description textuelle, et que les identités des personnage...

Combattre le bruit des étiquettes avec un modèle de substitution général pour la sélection des échantillons

Contexte académique et problématique Avec le développement rapide des réseaux de neurones profonds (Deep Neural Networks, DNNs), les systèmes d’intelligence visuelle ont réalisé des progrès significatifs dans des tâches telles que la classification d’images, la détection d’objets et la compréhension vidéo. Cependant, ces avancées dépendent de la co...

Exploration des associations d'étiquettes cohérentes homogènes et hétérogènes pour la ré-identification non supervisée des personnes en lumière visible et infrarouge

Exploration des associations de labels homogènes et hétérogènes cohérentes pour la ré-identification non supervisée de personnes en visible-infrarouge Introduction La ré-identification de personnes en visible-infrarouge (Visible-Infrared Person Re-Identification, VI-ReID) est un domaine de recherche important en vision par ordinateur, visant à retr...

Aniclipart : Animation de Clipart avec des A Priori Texte-Vidéo

Contexte académique et problématique Le Clipart (image clipart) est une forme d’art graphique prédéfinie largement utilisée dans les documents, les présentations et les sites web pour améliorer rapidement l’attrait visuel. Cependant, les workflows traditionnels pour convertir des images clipart statiques en séquences animées sont laborieux et chron...

LaVie : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade

LaVie : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade

Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade : LaVie Contexte académique Ces dernières années, les modèles de diffusion (Diffusion Models, DMs) ont réalisé des avancées révolutionnaires dans le domaine de la génération d’images, en particulier pour la génération d’images à partir de texte (Text-to-Image, T2...