Nicolas Gonthier (École des Ponts ParisTech)

Synthèse d’images : texture et lignes de texte

vendredi 18 mars 2022, 17h20 - 18h20

Salle du conseil, espace Turing


Dans cet exposé, nous allons présenter deux applications de la synthèse d’images.
Tout d’abord, nous nous intéresserons à la synthèse de texture. Cela consiste à synthétiser une nouvelle image à partir d’une image de référence. L’image synthétisée doit être perceptiblement similaire à l’image de référence tout en étant différente. Il s’agit d’un problème ancien qui a été réactualisé avec l’arrivée des réseaux de neurones convolutionnels (CNNs). La plupart des méthodes actuelles sont basées sur l’utilisation des matrices de Gram des cartes de caractéristiques issues de CNNs entraînés sur ImageNet. Nous avons développé une stratégie multirésolution simple pour prendre en compte les structures à grande échelle. Elle peut être couplée à des contraintes à grande distance, telle qu’une contrainte basée sur le spectre de Fourier de l’image, ou bien avec l’utilisation de l’autocorrélation. Cette stratégie multirésolution permet d’obtenir d’excellentes synthèses en haute résolution. La combiner avec des contraintes supplémentaires améliore les résultats dans le cas des textures régulières. Nous avons comparé nos méthodes aux méthodes alternatives sur divers exemples de texture et avons corroboré nos observations visuelles par des évaluations quantitatives et perceptuelles.
Dans un second temps, nous décrirons une nouvelle approche non supervisée et spécifique à chaque document, pour la reconnaissance des caractères dans des lignes de texte. Notre idée principale est de s’appuyer sur des approches non supervisées de découverte d’objets et en particulier sur des méthodes récentes d’analyse par synthèse, qui reconstruisent des images à partir d’un nombre limité d’éléments visuels, appelés sprites. Nous étendons ces approches pour apprendre jusqu’à une centaine de caractères et analyser des lignes de texte complètes en introduisant une architecture pertinente et une stratégie efficace de sélection des sprites. Nous illustrons l’efficacité de notre modèle sur des documents imprimés et des manuscrits anciens.