Lucas Benigni (U. Montréal)
Distribution des valeurs propres du NTK dans une échelle quadratique
Malgré leur nombre excessif de paramètres, les modèles modernes d’apprentissage profond parviennent souvent à bien se généraliser, un phénomène remarquable illustré par la “courbe de double descente”. Si ce comportement est bien compris pour des problèmes tels que la régression de crête sous un redimensionnement linéaire des dimensions, des phénomènes fascinants apparaissent dans le cadre d’un redimensionnement quadratique, où la taille de l’échantillon égale le nombre de paramètres. Dans cette présentation, nous explorons les valeurs propres du Neural Tangent Kernel, une matrice fondamentale pour les réseaux neuronaux larges entraînés par descente de gradient, dans ce régime quadratique.