Séminaire n°1
Transcription automatique de la musique de piano: modélisation des sons et méthodes d'estimation
Intervenant :
Valentin Emiya, Post-doc
à l'IRISA - INRIA
Contact : valentin.emiya(at)irisa.fr
Date : 19/01/09
Résumé :
Dans le
domaine de la recherche d'informations musicales (MIR, music
information retrieval), la transcription automatique consiste à
analyser un enregistrement musical pour en extraire les informations
relatives aux notes (hauteurs, instants d'attaques, fins, etc.),
c'est-à-dire une description symbolique des données physiques, ou
encore une forme simplifiée de relevé ou de partition de la musique
jouée. Cette tâche fait l'objet de travaux de recherche depuis une
trentaine d'années et a vocation à constituer une brique de base dans
diverses applications en MIR: wav2MIDI, recherche de similarité,
extraction de la mélodie, etc. La musique de piano est de ce point de
vue difficile à analyser: aux questions d'estimation et de suivi des
fréquences fondamentales multiples s'ajoutent des difficultés liées à
l'acoustique de l'instrument (inharmonicité, battements, étendue du
registre) et à la musique pour piano (virtuosité, niveaux de polyphonie
élevés). Pour ces raisons et compte tenu de la taille du répertoire
pour piano solo, des systèmes de transcription spécifiques à cet
instrument ont vu le jour. Au cours de ce séminaire, je présenterai
celui réalisé pendant ma thèse, en détaillant les éléments principaux
de modélisation des sons de piano.
Dans ce cadre, nous verrons tout d'abord comment estimer
l'inharmonicité de sons de piano directement sur le signal à analyser,
afin de localiser précisément les partiels des notes dans le domaine
spectral. Nous aborderons ensuite la caractérisation des enveloppes
spectrales des notes et du spectre résiduel par des modèles
autorégressifs (AR) ou à moyenne ajustée (MA). La méthode d'estimation
associée distingue les coefficients spectraux relatifs aux partiels des
notes et au résiduel et prend en compte le recouvrement spectral pour
évaluer le cas échéant les contributions provenant de plusieurs notes à
une fréquence et un instant donnés. Enfin, le système de transcription
sera présenté et les résultats obtenus seront illustrés par quelques
exemples sonores.
Pour info, une version (presque définitive) de la thèse est disponible ici.