La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Système de transcription semi-automatique Vers une intégration de la RAP dans le logiciel Transcriber Projet de Master1 31 mai 2007 IUP GMI -Avignon Nicolas.

Présentations similaires


Présentation au sujet: "Système de transcription semi-automatique Vers une intégration de la RAP dans le logiciel Transcriber Projet de Master1 31 mai 2007 IUP GMI -Avignon Nicolas."— Transcription de la présentation:

1 Système de transcription semi-automatique Vers une intégration de la RAP dans le logiciel Transcriber Projet de Master1 31 mai 2007 IUP GMI -Avignon Nicolas BIGOUROUX, Master 1 TAIM – sous la direction de Pascal NOCERA (LIA)

2 Présentation Transcriber est un outil open-source de transcription et dannotation pour les corpus audio. Il est conçu dans le langage de script Tcl/Tk. Speeral, système de reconnaissance automatique de la parole basé sur lalgorithme A* et développé au LIA. Transcriber représente une base logicielle intéressante pour intégrer les résultats de Speeral, dans loptique dune transcription automatique… ou presque. Deux types dintégration sont en fait envisageables

3 1 - Fonctionnalités à implémenter 1.1. Du point de vue de lutilisateur On voudrait importer les résultats de Speeral Facile pour une transcription unique Mais ce sont les hypothèses multiples qui nous intéressent le plus Si Speeral a vu juste, le travail est fini Dans le cas contraire le transcripteur pourrait choisir une autre hypothèse Quelle interface pour ce protocole ? Deux approches possibles A. Le transcripteur est passif, il va corriger les erreurs de Speeral (en espérant quil ny en aura pas !) = Conception statique du workflow B. Speeral est passif, ne proposera des hypothèses quà la demande (le transcripteur hésite, ou devine que la RAP sera assez efficace) = Conception plutôt dynamique Approches non exclusives En fait on aimerait avoir les deux !

4 Fonctionnalités à implémenter 1.2. Du point de vue du développeur Quelles sont les données ? Transcriber utilise un format XML - En externe (formats de fichier) - En interne (= le modèle de données) Les conversions sont possibles à partir de nombreux formats Et redéfinir un convertisseur facile Du côté de Speeral ? On travaille sur les sorties Convertir vers Transcriber facile… …sauf pour les hypothèses multiples > Réinventer une DTD spécifique ? > …ou ne modifier que linterface ? (le but conserver les hypothèses)

5 2 - Organisation du projet 2.1. Répartition du travail pendant lannée - Etude du format des données proposées par Speeral - Réflexion sur le type dinterface à mettre en place Semestre 1 = en binôme - Recherche dun angle dattaque adéquat - Résolution des problèmes sinon > documentation Durant tout le projet, tests sur la base du corpus ESTER Semestre 2 = en solo

6 Organisation du projet 2.2. Divers types de difficultés Langage de script : facile à apprendre Mais pas à déchiffrer… Documentation satisfaisante Mais pas toujours utile pour modif. profonde du logiciel Processus de développement assez laborieux et ingrat… -> planification hasardeuse Données de Speeral : plus difficile à apprendre Mais très simple à déchiffrer Modélisation directe : une hypothèse = une ligne Mais dans Transcriber ? -> on ne fait que choisir une hypothèse en fait

7 3 - Résultats obtenus - Je me suis familiarisé avec Tcl/Tk - et les variables globales de Transcriber Compréhension du code source de Transcriber - Linterface de validation est presque terminée - Impasse pour synchroniser les données internes… Implémentation des fonctionnalités

8 Conclusions Projet très intéressant mais développement ardu Peu adapté à larticulation habituelle des projets de Master… = il faudrait beaucoup coder dabord et ensuite étudier la faisabilité ! Donc ma documentation sera la meilleure contribution au projet Et je continuerai à améliorer Transcriber… et Transreader

9 Système de transcription pas encore automatique Vers une synchronisation des données internes de Transcriber Merci de votre attention !


Télécharger ppt "Système de transcription semi-automatique Vers une intégration de la RAP dans le logiciel Transcriber Projet de Master1 31 mai 2007 IUP GMI -Avignon Nicolas."

Présentations similaires


Annonces Google