0 Grégory PALLONE Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo
1 Objectif de la thèseCinéma (24 images/s) Vidéo (25 images/s) Accélération du son AVEC modification de la hauteur tonale et des formants 20% Accélération du son SANS modification de la hauteur tonale ni des formants Harmoniseur
2 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique
3 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique
4 Problématique liée à la hauteur tonale - Durée T - Fréquence F Dilatation simple - Durée T - Fréquence F/ - Durée T - Fréquence F Transposition-p Dilatation-p
5 Définition Zones de résonance du conduit vocal, faisant partie des caractéristiques du timbre des locuteurs. Le traitement dharmonisation devra compenser laltération de la hauteur tonale et des formants I. Problématique Problématique liée aux formants Expérience illustrant le rôle des formants Inhalation dhélium (c hélium > c air ) Modification des formants (altération du timbre) Conservation hauteur tonale
6 Format sonore multi-HP Dolby Digital 5.1 (Cinéma, DVD) Spatialisation de scènes sonores Canaux indépendants Relations de phases entre canaux I. Problématique Aspect multicanal Traitement synchronisé entre canaux
7 I. Problématique Evaluations sonores Evaluation des algorithmes Appréciation personnelle Tests informels en interne Tests « grandeur nature » en auditorium Difficultés pour évaluer les algorithmes Pas dévaluation automatique Oreille unique juge de la qualité Inexistence de banque de sons spécifique
8 Pas de traitement Modification de hauteur tonale de 4% Modification des formants Traitement par la Lexicon 2400 Entrées/sorties analogiques (coloration, bruit) Pas de possibilité de multicanal Qualité des sons impulsifs peu satisfaisante Problèmes sur certains sons complexes I. Problématique La technologie (non-) disponible
9 Algorithme Machine Qualité sonore Format multicanal EconomiqueTemps-réel Validation sur une banque de sons-test Délai de réalisation Contraintes imposées I. Problématique
10 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique Méthodes temporelles Méthodes fréquentielles
11 II. Classification - Introduction Problèmes abordés depuis longtemps (1928), mais résolus ? Bibliographie : Nombreuses études, chacun sa méthode Nécessité de réaliser une classification Méthodes de dilatation-p et transposition-p
12 II. Classification – Méthodes temporelles Méthodes temporelles « aveugles » Avantage : Simplicité Inconvénient : Discontinuité de désynchronisation duplication [French 28], [Freund 35], [Schuller 44], [Lee 72] Principe : Dupliquer et insérer des segments de durée constante discontinuité
13 Méthodes temporelles « adaptatives » duplication II. Classification – Méthodes temporelles [Malah 79], [Roucos & Wilgus 85], [Verhelst & Roelands 93], [Hejna 92] redoublement de transitoire Principe : Adapter le segment inséré à une période fondamentale Avantage : Haute qualité pour les rapports <20% Inconvénient : Redoublement de transitoire
14 Compromis et hypothèses des méthodes temporelles II. Classification – Méthodes temporelles Compromis sur la durée du segment inséré Segment trop court : Discontinuité de désynchronisation sur BF Segment trop long : Anisochronie (irrégularité rythmique dans tempo) Hypothèse sous-jacente Présence dune période fondamentale Discontinuité sur sons inharmoniques
15 II. Classification – Méthodes fréquentielles Méthodes fréquentielles « aveugles » Vocodeur de phase classique [Schroeder 66], [Flanagan & Golden 66], [Moorer 78], [Portnoff 81], [Dolson 86], [Depalle 91]… =E/L Principe : Espacer les spectres à court terme en modifiant les phases Avantage : Adapté à un contexte musical (taux élevés) Inconvénient : Coloration et réverbération sur sons complexes Etalement des transitoires
16 II. Classification – Méthodes fréquentielles Méthodes fréquentielles « adaptatives » Temps Amplitude Fréquence Amplitude A - Verrouillage de phase ([Puckette 95], [Laroche & Dolson 97]) But: Eviter coloration et réverbération sur des sons complexes Principe: Conservation des phases dans les canaux fréquentiels dun lobe correspondant à un partiel Représentation temporelle Représentation fréquentielle Fourier
17 II. Classification – Méthodes fréquentielles B - Détection de transitoires But : Eviter étalement des transitoires Principe : 1. Conservation des transitoires par segmentation [Settel 95], [Duxbury 02] 2. Conservation des relations de phase originales hors des pics [Bonada 00] Méthodes fréquentielles « adaptatives »
18 II. Classification – Méthodes fréquentielles Compromis temps-fréquence durée de la fenêtre temporelle danalyse bonnemauvaiseRésolution fréquentielle mauvaisebonneRésolution temporelle Fenêtre longueFenêtre courte Adapté aux HF Adapté aux BF Hypothèse sous-jacente Présence dune seule sinusoïde par canal fréquentiel Pas respectée pour sons complexes Pas respectée pour sons impulsifs Compromis et hypothèses des méthodes fréquentielles
19 II. Classification - Récapitulatif Avantages Hypothèse sous-jacente (présence dune période fondamentale) Problème danisochronie Conservation de la forme donde Puissance de calcul modérée Inconvénients Méthodes temporelles Méthodes fréquentielles Bons résultats pour des taux élevés Pas de problème danisochronie Hypothèse sous-jacente (présence dune seule sinusoïde par canal fréquentiel) Puissance de calcul élevée Compromis Courts segments insérés (adapté aux HF, transitoires, évite anisochronie) Longs segments insérés (adapté uniquement aux BF) Courtes fenêtres danalyse (adapté uniquement aux transitoires) Longues fenêtres danalyse (adapté aux BF et sons harmoniques)
20 II. Classification - Conclusion Etat de lart, revisite des méthodes Relations entre techniques existantes (formalisme commun) Expérimentation et évaluation de nombreuses méthodes Aucune des méthodes totalement adaptée au problème Classification à lorigine dinnovations algorithmiques
21 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique Méthodes couplées Méthode temps-fréquence Méthode HARMO
22 III. Innovations – Méthodes couplées A - Décomposition en sous-bandes Combinaison de méthodes temporelles / fréquentielles Décomposition (Fc=500Hz) BF Reconstruction Dilatation par méthode fréquentielle HF Dilatation par méthode temporelle Signal original Signal dilaté Avantage : Evite anisochronie, discontinuités BF Inconvénient : Problèmes de phase à Fc
23 III. Innovations – Méthodes couplées B - Décomposition hybride Dilatation par méthode temporelle Dilatation par méthode fréquentielle Décomposition résidu transitoire Reconstruction Signal original Signal dilaté Combinaison de méthodes temporelles / fréquentielles Avantage : Evite létalement de transitoire Inconvénient : Problèmes de phase à la reconstruction
24 III. Innovations – Méthode temps-fréquence Généralisation de la méthode fréquentielle Analyse fréquentielle adaptée à loreille humaine (Bark) f = constant pour f < 500 Hz : bonne résolution fréquentielle pour BF f/f = constant pour f > 500 Hz : bonne résolution temporelle pour HF Avantage : Améliorations sur - sons complexes - sons transitoires Inconvénient : Qualité insuffisante pour notre application
25 III. Innovations – Méthode HARMO Principe de la méthode HARMO Basée sur une méthode temporelle 3 paramètres principaux : FE : Durée du fondu-enchaîné I : Décalage du point dinsertion K : Durée du segment inséré I K K FE insertion
26 III. Innovations – Méthode HARMO Détermination du paramètre FE Forme du fondu-enchaîné : Adaptée aux signaux corrélés Adaptée aux signaux décorrélés Adaptative Durée du fondu-enchaîné : Adaptative K long (segments similaires) FE long K court (transitoire ou HF) FE court FE Courbes de pondération K
27 III. Innovations – Méthode HARMO Détermination du paramètre I Utilisation de la détection de transitoires Amélioration dans certains cas, mais pas de garantie de succès (échéance dinsertion pas repoussée indéfiniment) Pour I constant : Nécessité de trouver une solution ! I
28 III. Innovations – Méthode HARMO Détermination du paramètre K Estimation de similarité entre 2 segments successifs (détection de la période fondamentale) : Fonction de différence damplitude moyenne Fonctions dautocorrélation Fonctions dautocorrélation normalisée Signaux quasi-stationnaires Avantage : Améliorations sur les très basses fréquences Améliorations sur certains sons inharmoniques Inconvénient : Redoublement de transitoire plus audible Anisochronie plus audible Ajustement des paramètres : Augmentation de K par rapport aux méthodes classiques
29 III. Innovations – Méthode HARMO Détermination du paramètre K 2 critères de stationnarité : Critère de corrélation (seuillage) Critère énergétique (détection de transitoire) Signal considéré stationnaire Insertion dun segment long Signal considéré non-stationnaire Insertion dun segment court Signaux transitoires Avantages : Redoublement moins audible (masquage temporel) Anisochronie diminuée
30 III. Innovations - Conclusion Méthode HARMO Meilleur compromis, satisfaisant les contraintes de qualité sonore temps-réel multicanal économiques Algorithme sélectionné pour implantation sur HARMO Méthodes couplées & méthodes temps-fréquence Résultats encourageants Mais qualité actuellement insuffisante pour lapplication Conclusion
31 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique Matériel Logiciel
32 IV. Conception de lHARMO Processeurs : 2 DSP : « Analog Device SHARC 21065L », 60MHz 1 pour lalgorithme 1 pour lIHM et la communication entre machines DSP Matériel [Deschamps] Rééchantillonnage : Composant spécialisé (SRC) : « Crystal CS8420 » SRC Multicanal: Lien physique synchronisant les paramètres Liens
33 IV. Conception de lHARMO Codage: Mémoire interne limitée : Program Memory (PM) : 36Ko Data Memory (DM) : 32Ko Traitement de l autocorrélation normalisée « au vol » Traitement du fondu-enchaîné « au vol » Optimisation Mise de données en PM pour la Multiplication-Accumulation Certaines routines en assembleur (le reste en C) Logiciel [Monteil, Adam, Pallone] Multicanal: 1 machine « maître », les autres « esclave » ou « indépendant » Création dun signal de référence (respect des relations de phase) Liaison entre machines: Création dun protocole de communication
34 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique
35 Des contraintes respectées… Algorithme Machine Contrainte de qualité sonore Contrainte de format multicanal Contrainte économique Contrainte temps-réel Validation sur une banque de sons-test Contrainte de délai de réalisation V. Conclusion
36 … et des contributions apportées. Algorithme V. Conclusion Classification des méthodes Innovations algorithmiques Elaboration dune banque de sons-test spécifique
37 Films traités par lHARMO (liste non-exhaustive des films sortis jusquen janvier 2002) V. Conclusion
38 V. Conclusion VOIX Suzanne Vega « Toms diner » MUSIQUE (Voix + accordéon) Jacques Brel « Vesoul » Démonstration temps-réel de lHARMO Dilatation simple (+20%) Transposition-p (+20%) Dilatation-p (+20%) Dilatation-p (-20%) Original Harmonisé Dilatation simple (-20%) Transposition-p (-20%) Original Harmonisé