Seaformer++ : Transformateur axial à compression améliorée pour la reconnaissance visuelle mobile

SEAFormer++ - Une architecture Transformer efficace conçue pour la reconnaissance visuelle mobile Contexte de recherche et problématique Ces dernières années, le domaine de la vision par ordinateur a connu un changement majeur, passant des réseaux neuronaux convolutionnels (CNN) aux méthodes basées sur les Transformers. Cependant, bien que les Visi...

Plus petit mais meilleur : Unifier la génération de mise en page avec des modèles de langage plus petits

Une nouvelle avancée dans la génération unifiée de mises en page : des grands modèles linguistiques plus petits mais plus puissants Contexte de recherche et problématique La génération de mise en page (Layout Generation) est une direction importante dans les domaines de la vision par ordinateur et de l’interaction homme-machine, visant à générer au...

Vers l'amélioration de la détection hors distribution à partir d'une perspective d'importance des caractéristiques spatiales

Amélioration de la détection des distributions extérieures sous l’angle de l’importance des caractéristiques spatiales Contexte de recherche et formulation du problème Dans les applications pratiques des modèles d’apprentissage profond, assurer que le modèle peut refuser de manière fiable les prédictions face à des entrées de catégories inconnues e...

Moonshot : Vers une génération et une édition de vidéos contrôlables avec des conditions multimodales sensibles au mouvement

 

MoonShot - Vers une génération et une édition vidéo contrôlables basées sur des conditions multimodales sensibles au mouvement Contexte de recherche et problématique Ces dernières années, les modèles de diffusion texte-vidéo (Video Diffusion Models, VDMs) ont connu des progrès significatifs, permettant de générer des vidéos de haute qualité et visu...

Deepfake-Adapter : Adaptateur à deux niveaux pour la détection de deepfake

Deepfake-Adapter - Un adaptateur double couche pour la détection de deepfakes Contexte de recherche et problématique Avec le développement rapide des modèles génératifs profonds (deep generative models), des images et vidéos faciales ultra-réalistes peuvent être facilement générées, capables même de tromper l’œil humain. Lorsque cette technologie e...

Synthèse d'images sous données limitées : Une étude et une taxonomie

Synthèse d’images sous données limitées : Une revue Contexte de recherche et problématique Ces dernières années, les modèles génératifs profonds (Deep Generative Models) ont réalisé des progrès sans précédent dans les tâches de création intelligente, en particulier dans la génération d’images et de vidéos, ainsi que dans la synthèse audio. Cependan...