Séminaire n°40


Modèles de représentations temps-fréquence pour la transcription automatique de musique
et la séparation de sources


Intervenant :  Benoît Fuentes, qui vient d'obtenir son doctorat dans l'équipe AAO (Audio, Acoustique et Ondes) de Télécom ParisTech, sous la direction de Gaël Richard et Roland Badeau

Contact :  bf (at) benoit-fuentes.fr
                 http://www.benoit-fuentes.fr

Date : 22/04/13

Résumé :
La transcription automatique de musique polyphonique consiste à estimer automatiquement les notes présentes dans un enregistrement, via trois de leurs attributs : hauteur, temps de début et durée. Récemment, pour traiter ce problème encore très ouvert, une nouvelle classe de méthodes est apparue, qui consiste à modéliser une représentation temps-fréquence (RTF) d'un signal comme une somme d’éléments de base, porteurs d’informations symboliques. Parmi ces techniques d'analyse, on trouve les factorisations de matrices non-négatives, ou encore l'analyse probabiliste en composantes latentes (PLCA).

L'objet de ce séminaire est multiple. D'abord je présenterai dans les grandes lignes les différentes stratégies et cadres mathématiques disponibles pour modéliser et décomposer une RTF. Ensuite j'exposerai les travaux de ma thèse, qui s'inscrit dans le cadre mathématique de la PLCA :
   - comment estimer les paramètres d'un modèle donné de RTF de manière pertinente ;
   - comment modéliser une RTF pour prendre en compte les caractéristiques propres des signaux
      musicaux ?

Les algorithmes qui découlent de ces recherches sont appliqués à la tâche de transcription automatique qui est la tâche qui nous intéresse principalement. Mais nous verrons également qu'ils peuvent être directement utilisés pour la séparation de sources, qui consiste à séparer plusieurs sources d'un mélange.