0 Grégory PALLONE Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo.

Slides:



Advertisements
Présentations similaires
Chap. 1 - Introduction Plan
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
Conservatoire National des Arts et Métiers
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
E-learning Evolutif Albarelli Corinne Behem Patrice Guillot Jérôme
Fabrice Lauri, François Charpillet, Daniel Szer
Distance inter-locuteur
La Gestion de la Configuration
Indexation Parole / Musique / Bruit
La Cyclostationnarité Aspects théoriques et application au Diagnostic
Classification des signaux exemples de signaux réels
Analyse temps-fréquence
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Reconnaissance de la parole
THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Mesures dans le domaine fréquentiel
JXDVDTEK – Une DVDthèque en Java et XML
Journées franciliennes 2006 Moussa ELKIHEL (LAAS-CNRS;UPS Toulouse )
3. Analyse et estimation du mouvement dans la vidéo
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
Dpt. Télécommunications, Services & Usages Théorie de l information H. Benoit-Cattin Introduction 2. Vue densemble 3. Sources discrètes & Entropie.
Baccalauréat professionnel SEN
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Identification des personnes par l’iris
Le Concept. Régulation électronique LonWorks communicante pour application poutre froide.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Caméras Infrarouge pour la reconnaissance du visage
LE SON & L’ AUDITION Dr CHAKOURI M.
MRP, MRP II, ERP : Finalités et particularités de chacun.
Application des algorithmes génétiques
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Etapes du marketing stratégique et opérationnel
Les besoins en CAN pour les applications d'imagerie
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Titre : Implémentation des éléments finis sous Matlab
Plan de la présentation
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
LES NOMBRES PREMIERS ET COMPOSÉS
Acoustique musicale Mains dœuvres. Son pur Formule : X = sin ( 2 ft )
Partie 1: Ondes et Particules.
ISTS 3 Formation aux techniques du multicanal Septembre-Octobre 2008.
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
Journées de Rencontre Jeune Chercheurs
2. Théorie de la consommation (demande)
3ème partie: les filtres
Le multiplexage Réalisé par: Amama Ahmed Bahria Mohamed Amine.
Ordonnancement de tâches
Thierry Molinier > David Fofi >
Soutenance de stage 16 Mai au 5 Août 2011
Antennes-BIE à surface combinée
Equation différentielle de 2ème ordre
DESIGN D’UN CODEUR- DÉCODEUR CHAOTIQUE AUTO-SYNCHRONISANT EN TEMPS RÉEL ET EN PRÉSENCE DE BRUIT Laboratoire d’Automatique et d’Informatique Industrielle-POITIERS.
Monitoring Détection de séquences vidéo en temps réel dans une grande base de données Julien Law-to 23/07/2004.
Les Chiffres Prêts?
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
Partie II: Temps et évolution Energie et mouvements des particules
Introduction à SolidWorks
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Approche Cross layer Dr Mekkakia Maaza Zoulikha Cours M2 SIR
Présentation RFIA janvier 2002
TNS et Analyse Spectrale
TNS et Analyse Spectrale
ANALYSE DES SERIES CHRONOLOGIQUES METHODES ET APPLICATIONS EN HYDROLOGIE Danièle VALDES-LAO
1 Monopalme Projet 4 Info Présentation final LE LAY Olivier MAHE Jocelyn FORM Nicolas HENRY Gurvan BONNIN Thomas BASSAND Guillaume Décembre 2009 MONNIER.
Transcription de la présentation:

0 Grégory PALLONE Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo

1 Objectif de la thèseCinéma (24 images/s) Vidéo (25 images/s) Accélération du son AVEC modification de la hauteur tonale et des formants 20% Accélération du son SANS modification de la hauteur tonale ni des formants Harmoniseur

2 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique

3 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique

4 Problématique liée à la hauteur tonale - Durée T - Fréquence F Dilatation simple - Durée T - Fréquence F/ - Durée T - Fréquence F Transposition-p Dilatation-p

5 Définition Zones de résonance du conduit vocal, faisant partie des caractéristiques du timbre des locuteurs. Le traitement dharmonisation devra compenser laltération de la hauteur tonale et des formants I. Problématique Problématique liée aux formants Expérience illustrant le rôle des formants Inhalation dhélium (c hélium > c air ) Modification des formants (altération du timbre) Conservation hauteur tonale

6 Format sonore multi-HP Dolby Digital 5.1 (Cinéma, DVD) Spatialisation de scènes sonores Canaux indépendants Relations de phases entre canaux I. Problématique Aspect multicanal Traitement synchronisé entre canaux

7 I. Problématique Evaluations sonores Evaluation des algorithmes Appréciation personnelle Tests informels en interne Tests « grandeur nature » en auditorium Difficultés pour évaluer les algorithmes Pas dévaluation automatique Oreille unique juge de la qualité Inexistence de banque de sons spécifique

8 Pas de traitement Modification de hauteur tonale de 4% Modification des formants Traitement par la Lexicon 2400 Entrées/sorties analogiques (coloration, bruit) Pas de possibilité de multicanal Qualité des sons impulsifs peu satisfaisante Problèmes sur certains sons complexes I. Problématique La technologie (non-) disponible

9 Algorithme Machine Qualité sonore Format multicanal EconomiqueTemps-réel Validation sur une banque de sons-test Délai de réalisation Contraintes imposées I. Problématique

10 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique Méthodes temporelles Méthodes fréquentielles

11 II. Classification - Introduction Problèmes abordés depuis longtemps (1928), mais résolus ? Bibliographie : Nombreuses études, chacun sa méthode Nécessité de réaliser une classification Méthodes de dilatation-p et transposition-p

12 II. Classification – Méthodes temporelles Méthodes temporelles « aveugles » Avantage : Simplicité Inconvénient : Discontinuité de désynchronisation duplication [French 28], [Freund 35], [Schuller 44], [Lee 72] Principe : Dupliquer et insérer des segments de durée constante discontinuité

13 Méthodes temporelles « adaptatives » duplication II. Classification – Méthodes temporelles [Malah 79], [Roucos & Wilgus 85], [Verhelst & Roelands 93], [Hejna 92] redoublement de transitoire Principe : Adapter le segment inséré à une période fondamentale Avantage : Haute qualité pour les rapports <20% Inconvénient : Redoublement de transitoire

14 Compromis et hypothèses des méthodes temporelles II. Classification – Méthodes temporelles Compromis sur la durée du segment inséré Segment trop court : Discontinuité de désynchronisation sur BF Segment trop long : Anisochronie (irrégularité rythmique dans tempo) Hypothèse sous-jacente Présence dune période fondamentale Discontinuité sur sons inharmoniques

15 II. Classification – Méthodes fréquentielles Méthodes fréquentielles « aveugles » Vocodeur de phase classique [Schroeder 66], [Flanagan & Golden 66], [Moorer 78], [Portnoff 81], [Dolson 86], [Depalle 91]… =E/L Principe : Espacer les spectres à court terme en modifiant les phases Avantage : Adapté à un contexte musical (taux élevés) Inconvénient : Coloration et réverbération sur sons complexes Etalement des transitoires

16 II. Classification – Méthodes fréquentielles Méthodes fréquentielles « adaptatives » Temps Amplitude Fréquence Amplitude A - Verrouillage de phase ([Puckette 95], [Laroche & Dolson 97]) But: Eviter coloration et réverbération sur des sons complexes Principe: Conservation des phases dans les canaux fréquentiels dun lobe correspondant à un partiel Représentation temporelle Représentation fréquentielle Fourier

17 II. Classification – Méthodes fréquentielles B - Détection de transitoires But : Eviter étalement des transitoires Principe : 1. Conservation des transitoires par segmentation [Settel 95], [Duxbury 02] 2. Conservation des relations de phase originales hors des pics [Bonada 00] Méthodes fréquentielles « adaptatives »

18 II. Classification – Méthodes fréquentielles Compromis temps-fréquence durée de la fenêtre temporelle danalyse bonnemauvaiseRésolution fréquentielle mauvaisebonneRésolution temporelle Fenêtre longueFenêtre courte Adapté aux HF Adapté aux BF Hypothèse sous-jacente Présence dune seule sinusoïde par canal fréquentiel Pas respectée pour sons complexes Pas respectée pour sons impulsifs Compromis et hypothèses des méthodes fréquentielles

19 II. Classification - Récapitulatif Avantages Hypothèse sous-jacente (présence dune période fondamentale) Problème danisochronie Conservation de la forme donde Puissance de calcul modérée Inconvénients Méthodes temporelles Méthodes fréquentielles Bons résultats pour des taux élevés Pas de problème danisochronie Hypothèse sous-jacente (présence dune seule sinusoïde par canal fréquentiel) Puissance de calcul élevée Compromis Courts segments insérés (adapté aux HF, transitoires, évite anisochronie) Longs segments insérés (adapté uniquement aux BF) Courtes fenêtres danalyse (adapté uniquement aux transitoires) Longues fenêtres danalyse (adapté aux BF et sons harmoniques)

20 II. Classification - Conclusion Etat de lart, revisite des méthodes Relations entre techniques existantes (formalisme commun) Expérimentation et évaluation de nombreuses méthodes Aucune des méthodes totalement adaptée au problème Classification à lorigine dinnovations algorithmiques

21 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique Méthodes couplées Méthode temps-fréquence Méthode HARMO

22 III. Innovations – Méthodes couplées A - Décomposition en sous-bandes Combinaison de méthodes temporelles / fréquentielles Décomposition (Fc=500Hz) BF Reconstruction Dilatation par méthode fréquentielle HF Dilatation par méthode temporelle Signal original Signal dilaté Avantage : Evite anisochronie, discontinuités BF Inconvénient : Problèmes de phase à Fc

23 III. Innovations – Méthodes couplées B - Décomposition hybride Dilatation par méthode temporelle Dilatation par méthode fréquentielle Décomposition résidu transitoire Reconstruction Signal original Signal dilaté Combinaison de méthodes temporelles / fréquentielles Avantage : Evite létalement de transitoire Inconvénient : Problèmes de phase à la reconstruction

24 III. Innovations – Méthode temps-fréquence Généralisation de la méthode fréquentielle Analyse fréquentielle adaptée à loreille humaine (Bark) f = constant pour f < 500 Hz : bonne résolution fréquentielle pour BF f/f = constant pour f > 500 Hz : bonne résolution temporelle pour HF Avantage : Améliorations sur - sons complexes - sons transitoires Inconvénient : Qualité insuffisante pour notre application

25 III. Innovations – Méthode HARMO Principe de la méthode HARMO Basée sur une méthode temporelle 3 paramètres principaux : FE : Durée du fondu-enchaîné I : Décalage du point dinsertion K : Durée du segment inséré I K K FE insertion

26 III. Innovations – Méthode HARMO Détermination du paramètre FE Forme du fondu-enchaîné : Adaptée aux signaux corrélés Adaptée aux signaux décorrélés Adaptative Durée du fondu-enchaîné : Adaptative K long (segments similaires) FE long K court (transitoire ou HF) FE court FE Courbes de pondération K

27 III. Innovations – Méthode HARMO Détermination du paramètre I Utilisation de la détection de transitoires Amélioration dans certains cas, mais pas de garantie de succès (échéance dinsertion pas repoussée indéfiniment) Pour I constant : Nécessité de trouver une solution ! I

28 III. Innovations – Méthode HARMO Détermination du paramètre K Estimation de similarité entre 2 segments successifs (détection de la période fondamentale) : Fonction de différence damplitude moyenne Fonctions dautocorrélation Fonctions dautocorrélation normalisée Signaux quasi-stationnaires Avantage : Améliorations sur les très basses fréquences Améliorations sur certains sons inharmoniques Inconvénient : Redoublement de transitoire plus audible Anisochronie plus audible Ajustement des paramètres : Augmentation de K par rapport aux méthodes classiques

29 III. Innovations – Méthode HARMO Détermination du paramètre K 2 critères de stationnarité : Critère de corrélation (seuillage) Critère énergétique (détection de transitoire) Signal considéré stationnaire Insertion dun segment long Signal considéré non-stationnaire Insertion dun segment court Signaux transitoires Avantages : Redoublement moins audible (masquage temporel) Anisochronie diminuée

30 III. Innovations - Conclusion Méthode HARMO Meilleur compromis, satisfaisant les contraintes de qualité sonore temps-réel multicanal économiques Algorithme sélectionné pour implantation sur HARMO Méthodes couplées & méthodes temps-fréquence Résultats encourageants Mais qualité actuellement insuffisante pour lapplication Conclusion

31 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique Matériel Logiciel

32 IV. Conception de lHARMO Processeurs : 2 DSP : « Analog Device SHARC 21065L », 60MHz 1 pour lalgorithme 1 pour lIHM et la communication entre machines DSP Matériel [Deschamps] Rééchantillonnage : Composant spécialisé (SRC) : « Crystal CS8420 » SRC Multicanal: Lien physique synchronisant les paramètres Liens

33 IV. Conception de lHARMO Codage: Mémoire interne limitée : Program Memory (PM) : 36Ko Data Memory (DM) : 32Ko Traitement de l autocorrélation normalisée « au vol » Traitement du fondu-enchaîné « au vol » Optimisation Mise de données en PM pour la Multiplication-Accumulation Certaines routines en assembleur (le reste en C) Logiciel [Monteil, Adam, Pallone] Multicanal: 1 machine « maître », les autres « esclave » ou « indépendant » Création dun signal de référence (respect des relations de phase) Liaison entre machines: Création dun protocole de communication

34 II. Classification des méthodes III. Innovations algorithmiques IV. Conception de lHARMO V. Conclusion et résultats I. Problématique

35 Des contraintes respectées… Algorithme Machine Contrainte de qualité sonore Contrainte de format multicanal Contrainte économique Contrainte temps-réel Validation sur une banque de sons-test Contrainte de délai de réalisation V. Conclusion

36 … et des contributions apportées. Algorithme V. Conclusion Classification des méthodes Innovations algorithmiques Elaboration dune banque de sons-test spécifique

37 Films traités par lHARMO (liste non-exhaustive des films sortis jusquen janvier 2002) V. Conclusion

38 V. Conclusion VOIX Suzanne Vega « Toms diner » MUSIQUE (Voix + accordéon) Jacques Brel « Vesoul » Démonstration temps-réel de lHARMO Dilatation simple (+20%) Transposition-p (+20%) Dilatation-p (+20%) Dilatation-p (-20%) Original Harmonisé Dilatation simple (-20%) Transposition-p (-20%) Original Harmonisé