Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO Colloque International APLIC – 25/26 Juin 2004 – Paris
Colloque International APLIC Paris, Juin Plan 1. Corpus utilisés1. Corpus utilisés 2. Repérage automatique des reprises et reformulations2. Repérage automatique des reprises et reformulations 3. Etiquetage morphosyntaxique3. Etiquetage morphosyntaxique 4. Evolution du langage et ajustement des locuteurs4. Evolution du langage et ajustement des locuteurs 5. Limites de l’automatisation de certaines tâches et « remèdes » possibles5. Limites de l’automatisation de certaines tâches et « remèdes » possibles
Colloque International APLIC Paris, Juin Introduction Corpus d’interactions verbales adulte/enfantCorpus d’interactions verbales adulte/enfant –Enregistrement (K7, DAT, VIDEO) –Transcription (conventions suivant objectifs) –Analyses (grilles, courbes, tableaux) Logiciels et programmes informatiquesLogiciels et programmes informatiques –Correcteur orthographique (syntaxe, grammaire) –Statistique textuelle (lexicométrie, évolution du vocabulaire) –Traitement du signal (phonologie, prosodie)
Colloque International APLIC Paris, Juin Corpus utilisés JulienJulien –3 dialogues de 5 ans 10 mois à 6 ans 4 mois –Transcriptions imprimées et sauvegardées sur disquette –Analyses, grilles, courbes, tableaux MathildeMathilde –3 dialogues de 4 ans 9 mois à 4 ans 11 mois –Transcriptions imprimées et sauvegardées sur disquette –Analyses, grilles, courbes, tableaux
Colloque International APLIC Paris, Juin Extrait d’une transcription d’un autre corpus 1. Corpus
Colloque International APLIC Paris, Juin Extrait d’une grille d’analyse 1. Corpus
Colloque International APLIC Paris, Juin Exemple d’un tableau récapitulatif 1. Corpus
Colloque International APLIC Paris, Juin Exemple d’un graphique d’évolution 1. Corpus
Colloque International APLIC Paris, Juin Repérage automatique Logiciel utilisé :Logiciel utilisé : –Lexico3 (SYLED 2290 – A. Salem, W. Martinez, C. Lamalle, S. Fleury) 3.fr/ilpga/ilpga/tal/lexicoWWW Corpus utilisés :Corpus utilisés : –Julien –Mathilde
Colloque International APLIC Paris, Juin Phases de Préparation du corpus 2. Reprises et Reformulations
Colloque International APLIC Paris, Juin Dictionnaire des formes 2. Reprises et Reformulations
Colloque International APLIC Paris, Juin Carte des énoncés Qui parle Dialogue n° Enoncé n° Forme recherchée 2. Reprises et Reformulations
Colloque International APLIC Paris, Juin Repérage des Feed-back 2. Reprises et Reformulations
Colloque International APLIC Paris, Juin Repérage des tentatives 2. Reprises et Reformulations
Colloque International APLIC Paris, Juin Etiquetage de l’oral Corpus utilisés :Corpus utilisés : –Julien –Mathilde Logiciels utilisés :Logiciels utilisés : –Cordial Université 6 (Synapse Developpement) –MkCorpus (CLA2T/SYLED – S. Fleury)
Colloque International APLIC Paris, Juin Forme-Cat et Lemme-Cat 3. Corpus étiquetés
Colloque International APLIC Paris, Juin Concordance des PREP 3. Corpus étiquetés
Colloque International APLIC Paris, Juin Repérage Subjonctif 3. Corpus étiquetés
Colloque International APLIC Paris, Juin Evolution et Ajustement Enoncés Adulte ad1-2 Enoncés Julien ju1-2 Enoncés Adulte ad1-3 Enoncés Julien ju1-3 JulienMathilde Enoncés Adulte ad2-2 Enoncés Julien ma2-2 Enoncés Adulte ad2-3 Enoncés Julien ma2-3
Colloque International APLIC Paris, Juin Prep+VInf 4. Evolution et Ajustement
Colloque International APLIC Paris, Juin Ajustement du langage 4. Evolution et Ajustement
Colloque International APLIC Paris, Juin Limites de la recherche Peu de corpus et corpus trop petitsPeu de corpus et corpus trop petits Transcriptions et représentationsTranscriptions et représentations Etiquetage automatiqueEtiquetage automatique
Colloque International APLIC Paris, Juin Mots inconnus 5. Limites
Colloque International APLIC Paris, Juin Erreurs d’étiquetage 5. Limites « en fait » a trois étiquetages différents : – en fait_ADV (7 occurrences) uniquement dans le discours de l’adulte ; – en_PREP fait_NCMS (13 occurrences) ; – en_PREP fait_ADJMS (3 occurrences) uniquement en début d’énoncé avec le segment « madame Bodot » à la suite. « pour » : – pour (11 occurrences) en contexte « pour que_SUB » ; – pour_PREP (88 occurrences) dont une en contexte « pour_PREP que_SUB » ; – pour_NCMS (2 occurrences) dans les énoncés suivants : - […] elle l’amena des palmiers pour euh remettre sa / pour - euh on a que cinq doigts dans une main six comme les / pour les six pattes d’un insecte […].
Colloque International APLIC Paris, Juin Merci