Alasdair Newson (Sorbonne Université / ISIR lab)

Alasdair Newson (Sorbonne Université / ISIR lab)

Modèles génératifs pour la restauration des images et des vidéos

Quand

10 avril 2026    
9h30 - 10h30

Salle du Conseil, Espace Turing
45 rue des Saints-Pères, Paris, 75006

Type d’évènement

Les méthodes modernes de restauration d’images et de vidéos reposent désormais sur les capacités de réseaux de neurones puissants, et en particulier des modèles génératifs. Dans cet exposé, je parlerai de deux travaux qui emploient ce type de réseau pour la restauration d’images et de vidéos.

Le premier travail concerne l’inpainting vidéo, c’est-à-dire le remplissage des zones manquantes dans des vidéos, problème important pour la post-production de films, par exemple. Nous proposons pour cela une approche fondée sur les modèles de diffusion, une famille de modèles génératifs particulièrement puissants, qui reposent sur l’inversion progressive d’un processus de bruitage. La grande taille de ces modèles, en termes de nombre de paramètres, rend malheureusement leur utilisation difficile, notamment dans le cas des données volumineuses telles que les vidéos. Par conséquent, dans ce travail, nous proposons une approche “frugale” d’inpainting vidéo, fondée sur l’hypothèse de l’auto-similarité des vidéos, c’est-à-dire sur la présence de contenu redondant dans celles-ci. Cet apprentissage utilise la vidéo elle-même comme base d’entraînement pour le problème d’inpainting, ce qui permet une réduction drastique du nombre de paramètres. Par ailleurs, nous proposons de spécialiser l’apprentissage du modèle de débruitage selon le niveau de bruit, ce qui entraîne une réduction supplémentaire du nombre de paramètes. Nous obtenons des résultats équivalents ou meilleurs que les modèles de l’état de l’art, avec des modèles bien plus compacts (un ou plusieurs ordres de grandeur). Le code source associé à ce travail est disponible ici : https://github.com/ncherel/infusion.

Dans le deuxième travail, nous employons l’algorithme de descente de gradient projeté pour la résolution de problèmes inverses (super-résolution, inpainting d’image), en remplaçant l’étape de projection par un réseau de neurones profond (auto-encodeur ou réseau débruiteur). En particulier, nous proposons une régularisation stochastique orthogonale (“SOR” en anglais) du réseau, qui permet de contrôler la vitesse de convergence de l’algorithme de descente de gradient projeté. Par ailleurs, des expériences quantitatives et qualitatives confirment une amélioration significative des solutions aux problèmes inverses.

Vous aimerez aussi...