Espaces perceptif et acoustique de voix des services telecoms Thibaut Ehrette Thèse (octobre 2000 – décembre 2003 ?) France Telecom R&D (Noël CHATEAU) Limsi / CNRS (Christophe d’ALESSANDRO)
Que cherche-t-on ? Savoir comment le grand public perçoit les voix des services vocaux (messageries, serveur de réservation, …) Définir un vocabulaire de description Trouver des paramètres physiques qui sont corrélés aux descriptions perceptives Modéliser acoustiquement ces descriptions perceptives: prévoir le portrait perceptif d’une voix à partir d’une analyse acoustique
Comment s’y prend-on ? (30 professionnels, 1 phrase, 5 styles) Choix d’un corpus de voix d’hommes et femmes (30 professionnels, 1 phrase, 5 styles) s d Expériences psychoacoustiques catégorisation et verbalisation libres réduction de vocabulaire et jugement sur échelle Analyses physiques choix de paramètres de la littérature et à partir d’écoute experte Modélisation régression linéaire réseaux de neurones
Quels résultats ? (1/3) Espace perceptif : 20 critères
Quels résultats ? (2/3) Espace acoustique : plus de 100 paramètres spectre long terme / bandes de fréquence description globale de la prosodie description dynamique des contours de f0 / énergie / durées
Quels résultats ? (3/3) Modélisation par régression linéaire sélection des paramètres qui sont pertinents dans la description d’un trait perceptif Dynamique = 4.4904 -0.0006 * [Silavg ] -0.0011 * [Silmax ] +0.0638 * [EBTO(1512-1905)_avg] -0.1045 * [EBTO(1905-2400)_avg] +0.3786 * [EBTO(2400-3400)_avg]