La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Graphes d'annotation – une introduction

Présentations similaires


Présentation au sujet: "Graphes d'annotation – une introduction"— Transcription de la présentation:

1 Graphes d'annotation – une introduction
Claude Barras, LIMSI-CNRS figures et exemples de Steven Bird et al., Linguistic Data Consortium University of Pennsylvania

2 Un exemple d'interface de transcription
12/02/2005 C. Barras - Graphes d'annotation

3 Format des données associées
<?xml version="1.0" encoding="ISO "?> <!DOCTYPE Trans SYSTEM "trans-13.dtd"> <Trans scribe="cb" audio_filename="dormeur" version_date="050208"> <Topics><Topic id="to1" desc="Le Dormeur du val"/></Topics> <Speakers><Speaker id="spk1" name="Serge Reggiani"/></Speakers> <Episode> <Section type="report" topic="to1" startTime="0" endTime="74.0"> <Turn speaker="" startTime="0" endTime="7.41"> <Background type="music" level="high" time="0"/> </Turn> <Turn speaker="spk1" startTime="7.41" endTime="74.0"> <Sync time="7.41"/> C'est un trou de verdure où chante une rivière <Sync time="10.891"/> Accrochant follement aux herbes des haillons <Sync time="14.714"/> D'argent : où le soleil, de la montagne fière, <Sync time="19.138"/> Luit : c'est un petit val qui mousse de rayons. <Sync time="24.38"/> Un soldat jeune, bouche ouverte, tête nue, <Sync time="29.671"/> 12/02/2005 C. Barras - Graphes d'annotation

4 Nombreux autres environnements…
BAS Partitur CHILDES/CHAT childes.psy.cmu.edu DAMSL GATE gate.ac.uk LDC (TIMIT, Switchboard, SGML) TEI, CES 12/02/2005 C. Barras - Graphes d'annotation

5 Résultat, un bazar de formats et d'outils
SGML base de données texte tabulé 12/02/2005 C. Barras - Graphes d'annotation

6 Cadre unificateur pour les annotations linguistiques
Problèmes interopérabilité adaptation des données à de nouveaux domaines de recherche développement d'outils flexibles et génériques Diagnostic les différents formats de données masquent des similitudes structurelles dans toutes les annotations linguistiques A formal framework for linguistic annotation, S. Bird & M. Liberman, ICSLP'98/SpeechCom'01 12/02/2005 C. Barras - Graphes d'annotation

7 Annotation linguistique appliquée à des signaux
Il faut préciser Le signal source annoté La région particulière du signal sur laquelle doit porter l'information Le contenu de l'annotation appliquée à cette portion du signal Signal Region Annotation 12/02/2005 C. Barras - Graphes d'annotation

8 Le modèle des graphes d'annotation (AG)
Cas des signaux mono-dimensionnels région = intervalle entre deux nœuds annotation = arc étiqueté entre deux nœuds l'arc porte des champs d'information (couples attributs/valeurs) graphe d'annotation = une collection d'annotations 0.00 1 7.41 2 10.9 3 14.7 15 74.0 speaker:Serge Regianni background: music transcription: C'est un trou de verdure… Accrochant follement… 12/02/2005 C. Barras - Graphes d'annotation

9 Définition des graphes d'annotation
Les nœuds peuvent être ancrés dans le signal i.e. ils sont associés à un instant précis dans le signal pour d'autres cette information est inconnue ou inutile Définition formelle graphe acyclique orienté, étiqueté, et partiellement ou totalement ancré tout nœud est borné par le graphe entre des nœuds ancrés Cadre unificateur séparation du niveau physique et logique pas d'hypothèse a priori sur le sens des étiquettes 1 7.41 2 10.9 1-1 1-2 1-3 W: C' W: est W: un W: trou 12/02/2005 C. Barras - Graphes d'annotation

10 Architecture à 3 couches
Graphes d'annotation texte tabulé 12/02/2005 C. Barras - Graphes d'annotation

11 Caractéristiques des AG
Pas de contrainte dans la structure des graphes chevauchements, discontinuités… Evenements instantanés ? pas de boucle sur un nœud (graphe acyclique) possibilité de créer 2 nœuds renvoyant au même instant Annotations non temporelles utilisation e.g. des conventions Dublin Core /S 1 2 3 je oui 12/02/2005 C. Barras - Graphes d'annotation

12 C. Barras - Graphes d'annotation
Le cas d'un dialogue Il existe des parties de parole superposée comment associer les transcriptions à un locuteur donnée? Hiérarchie implicite structure du graphe regroupe les arcs portés par les mêmes noeuds Hiérarchie explicite classes d'équivalence utilise un identifiant associé aux arcs spk: Client; A trans: Bonjour Monsieur; A trans: Je voudrais des informations sur …; A 1 2 3 4 5 trans: Bonjour Madame; B spk: Agent; B 12/02/2005 C. Barras - Graphes d'annotation

13 C. Barras - Graphes d'annotation
AG Interchange Format <AGSet id="dormeur" version="1.0"> <Metadata> <dc:title>Le dormeur du Val</dc:title> </Metadata> <Timeline id="T1"> <Signal id="S1" mimeClass="audio" mimeType="wav" xlink:href="dormeur.wav"/> </Timeline> <AG id="t1" type="transcription" timeline="T1"> <Anchor id="A0" offset="0.00"/> <Anchor id="A1" offset="7.41"/> <Anchor id="A2" offset="10.89"/> <Anchor id="A3" offset="14.71"/> <Annotation id="Ann1" type="speaker" start="A1" end="A15"> <Feature name="label">Serge Reggiani</Feature> </Annotation> <Annotation id="Ann2" type="transcription" start="A1" end="A2"> <Feature name="label">C'est un trou de verdure où chante une rivière</Feature> <Annotation id="Ann3" type=" transcription" start="A2" end="A3"> <Feature name="label">Accrochant follement aux herbes des haillons</Feature> 12/02/2005 C. Barras - Graphes d'annotation

14 Implémentation par le LDC
code open source sur code en C++, interface avec Tcl/Tk et Python plateformes Unix et Windows support de différents formats de données (xlabel, TIMIT, Penn Treebank, Switchboard, BAS Partitur, CSV, LDC Callhome, AIF level 0) 12/02/2005 C. Barras - Graphes d'annotation

15 C. Barras - Graphes d'annotation
Perspectives et bilan Extensions généralisation à des sources non-linéaires (images, annotations): ATLAS proposé avec le NIST traitement efficace de requêtes dans un graphe d'annotation Bilan sur les graphes d'annotation un cadre formel, simple et clair des librairies logicielles, pas nécessairement un format de données spécifique permet de factoriser l'effort sur la structure de données la signification des annotations reste à la charge de l'application 12/02/2005 C. Barras - Graphes d'annotation


Télécharger ppt "Graphes d'annotation – une introduction"

Présentations similaires


Annonces Google