* Vincent Vandewalle (Université Lille 2 & Modal, INRIA Lille) - MAP5-UMR 8145

Vincent Vandewalle (Université Lille 2 & Modal, INRIA Lille)

Extension du modèle des classes latentes pour la classification non supervisée de données qualitatives

vendredi 8 novembre 2013, 9h30 - 10h30

Salle de réunion, espace Turing


Le modèle des classes latentes est un modèle souvent utilisé pour le classification non supervisée de données qualitatives, celui-ci fait l’hypothèse d’indépendances des variables conditionnellement à la classe. Bien que souvent très efficace, la non prises en compte des dépendances entre variables conditionnellement à la classe peut être responsable de sévères biais. Nous présentons ici une extension parcimonieuse de ce modèle permettant de capter les principales dépendances entre variables conditionnellement à la classe. Dans cette extension, les variables sont regroupées en blocs dans lesquels les dépendances conditionnellement à la classe sont prises en compte. La distribution d’un bloc conditionnellement à la classe est une distribution multinomiale parcimonieuse dans laquelle les fréquences des principaux croisements (appelés modes) sont libres tandis que la masse de probabilité restante est distribuée uniformément sur les croisements restants. Ce modèle bien que très simple pose de nombreuses questions de choix de modèle : comment choisir le nombre des classes ? comment déterminer les blocs ? combien de modes choisir dans chaque bloc ? Nous répondrons à ces questions au cours de l’exposé notamment à l’aide d’un algorithme de Gibbs permettant d’explorer efficacement l’espace des modèles. Le bon comportement de ce modèle sera illustré sur des données biologiques.