Approche lexicométrique de corpus de dialogues adulte-enfant

Slides:



Advertisements
Présentations similaires
Les pronoms objet : Y EN et PRONOMS ACCENTUES
Advertisements

Presenting Les Pronoms.
Le Compléments d’objets directs et indirects.
PPS musical avec Défilement au clic
ADAPTER L'EVALUATION STAGE DEPARTEMENTAL TSL I. Rimbau- P. Maurin
A propos des séances de restitution en classe M Le Lann, enseignante spécialisée (G), et léquipe enseignante de Lille2-Lomme.
École : ________________ Date : _________
Escuela : ……….. Fecha : ………… Les endroits où je joue avec mes amis Apellidos :……………. Nombre : …………….. Grupo : ………………. Grado : ………………. niña niño.
Pourquoi les parents ne peuvent-ils pas envoyer Filomena au collège ? J’observe : la page de couverture la quatrième de couverture Qui sont les trois.
Exploration textuelle dinteractions verbales entre un adulte et un enfant avec Lexico3 Luiggi Sansonetti Université Paris 3 – ILPGA EA2290 – SYLED CLA2T.
Les pronoms “y” et “en”.
Ça ne coûte rien de lire.
Je ne vais pas t'écrire 1 millions de mots
Identité Catherine Pahud Falcy
Nobodys Unpredictable Enquête réalisée par internet auprès de 602 parents ayant au moins un enfant de moins de 3 ans Juin 2009 Les parents et la lecture.
Pronoms dObjet Directs – POD – Pronoms dObjet Indirects – POI - Les Pronoms dObjet.
Les Pronoms.
TEMPS DE LOISIR Leçon 4.
Un jour, un enseignant demanda à ses étudiants d'écrire les nom des autres étudiants dans la classe sur deux feuilles de papier et de laisser un espace.
Cela ne coûte rien de lire Bah....
Les mains de maman....
Écrit, animé et illustré par Sheila CartwrightTraduit par
Perles de Boutchous.
Paquet enveloppé de soie
INTERDIT DE PLEURER !!!! (Allez vous êtes capables ?)
INTERDIT DE PLEURER !!!! (HISTOIRE TRÈS TOUCHANTE)
Comme les six doigts de la main
Bonbon D’amour épisode 13
La subordination complétive
Rencontrer Jésus.
MICROSOFT POWER POINT Fais « Enter » Par Danièle Lippé.
La chaise vide Cliquez pour débuter Cliquez pour débuter.
Prédictions.
Dimanche, le 1 mai 2011 Pasteur Claude Houde
Un jour un petit garçon demande à son père:
Leçon 10.
Enseigner la conjugaison Observation Réfléchie de la Langue
Je ne mange plus de poulet...
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY mes Document daccompagnement des programmes « Le Langage à lEcole Maternelle » mes Document daccompagnement.
Le petit garçon.
Un petit garçon demande à son père:
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
LE DEVELOPPEMENT DU LANGAGE
LEÇON SEIZE—L’ÉCOLE! —Objectif communicatif:
Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW.
Attention, voleur dans la maison !
Ça ne coûte rien de lire.
Commencer l’épisode 15 Amour en Gout épisode 15
Les 10 expressions utilisées par les femmes
Ça ne coûte rien de lire Bah....
Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.
Mais on les adore.
French 103 Chapitre 15. Les Pronoms Démonstratifs Ce, Cet, Cette, Ces : sont des adjectifs Lui, elle, eux, elles : sont des pronoms disjoints Ce + lui.
Clique ici pour commencer
Le dialogue Je m’entraîne Je comprends
Emmanuelle Canut - Asforel
Les petits ont la parole...
LES PRONOMS COMPLÉMENTS
Une belle histoire.
Fait Par : Obedov et Ken Sois bien attentif et écoute bien l’histoire.
Grammaire, orthographe et compréhension
Ça ne coûte rien de lire. Ça ne coûte rien d'essayer !!! à voir....mais bien lire jusqu'en bas Ça ne coûte rien d'essayer !!! à voir....mais bien lire.
Ce Tantra vient du Nord de l'Inde
Un matin le facteur lui a apporté une curieuse boîte en forme d’O. Madame Bodot a poussé un cri en l’ouvrant. C’était un serpent que son fils lui.
Lire, c’est traduire Séance 1
Mots-Outils Tu devrais pouvoir lire ces mots sans devoir faire les sons des lettres. Si tu as de la difficulté, pratique, pratique, pratique!
XML et modules passerelles Un juste compromis Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO – ED268 – Paris 3 Journée ATALA – 12 février 2005 – Paris.
Pour ce Noël 2015 Diaporama de Gi.
LE COMPLÉMENT D’OBJET(CO ) GROUPE 12. DÉFINITION DU COMPLÉMENT D’OBJET(C0) Le CO ou complément du verbe est un complément essentiel qui fait partie du.
Transcription de la présentation:

Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de l’acquisition du langage Luiggi Sansonetti – DEA Sciences du Langage 2001/2002

Plan de l’exposé Hypothèse et objectif de départ Interdisciplinarité de la recherche Phases de préparation Exemples d’analyses Premier bilan Projet de thèse

1. Hypothèse et objectif de départ Suivant une normalisation adaptée, il est possible de procéder à des analyses lexicométriques et statistiques sur des corpus de dialogues dans le cadre de recherches en acquisition du langage. Analyser de façon automatisée des corpus de dialogues adulte-enfant en contexte d’acquisition du langage en appliquant des méthodes quantitatives de statistiques textuelles. Constitution d’une banque de données de corpus de dialogues normalisés Traitement de grands corpus longitudinaux simplifié

2. Interdisciplinarité de la recherche Linguistique de l’acquisition du langage Analyse syntaxique Interaction langagière Traitement Automatique des Langues Statistique textuelle Lexicométrie

2.1 Linguistique de l’acquisition du langage Recherche les processus d’élaboration du fonctionnement cognitivo-langagier, en observant tout particulièrement la syntaxe chez l’enfant, à partir d’interactions verbales entre un adulte et un enfant en situation de dialogues spontanés. Recherche de formes Recherche de constructions syntaxiques Recherche des phénomènes de reprises et reformulations Evolution du langage de l’enfant dans l’étude longitudinale

2.2 Traitement Automatique des Langues Le TAL est l’étude et le traitement de données linguistiques exprimées dans une langue dite naturelle par des moyens informatiques comme des programmes ou des logiciels. Statistique textuelle et lexicométrie (Lexico) Fréquences Concordances Partitions Evolution du vocabulaire Etiquetage morpho-syntaxique (Cordial) Préparation et manipulation (MkCorpus)

3. Phases de préparation Phases de nettoyage Phases de remplacement Commentaires, fiche de présentation, hésitations… Phases de remplacement Estimation, prononciation, majuscule… Phases de balisage Dialogues, locuteurs, énoncés… Phases de présentation Enoncés regroupés par 50 pour avoir sur une ligne l’adulte et en dessous l’enfant

CORPUS Corpus de JULIEN ENREGISTREMENT :Claire T. Date 20/11/99 TRANSCRIPTION : Claire T. Date : 21/11/99 ENFANT : Julien F. Né le 01/01/94 Age : 05 ; 10 ; 19 Corpus N°1 nJ = 68 nA = 69 SITUATION : Julien, âgé de 5 ans, est un garçon francophone : il n’a aucune origine étrangère. Il a un grand frère, Raphaël, qui est son aîné de 3 ans. Ils vivent tous les deux dans un appartement avec leurs parents : les enfants ont chacun leur chambre. Leur père est ingénieur et leur mère est femme au foyer avec un niveau d’études supérieures. Ainsi c’est cette dernière qui s’occupe énormément de Julien et de Raphaël : elle les emmène et va les chercher à l’école et d’autre part, elle emprunte souvent des livres à la bibliothèque municipale, et lit donc beaucoup d’histoires à Julien. Celui-ci et sa famille ont déménagé cet été : les enfants ont donc changé d’école en début d’année. Julien est en dernière année de maternelle. Julien est le fils de ma cousine germaine mais je ne le vois que très rarement. Pour faire ce corpus, j’ai choisi de prendre un livre comme support. J’ai demandé à la maman de Julien de m’apporter deux livres. Puis, avant de commencer l’enregistrement, j’ai demandé à Julien de choisir lui-même entre Crictor et Babar à New York : il a préféré raconter l’histoire de Crictor, de Tomi Ungerer, l’école des loisirs, Collection Lutin Poche, première parution 1980. Pour des raisons de commodité, l’entretien a lieu à 17h30 dans ma chambre contrairement à l’année dernière où cela s’était passé chez lui. Julien est assis sur mon lit et moi par terre pour supprimer toute différence de taille entre l’enfant et moi. D’autre part, nos regards pouvaient directement se croiser. J’ai relu l’histoire tout en tenant lui-même le livre et en tournant les pages. Il n’est pas distrait par le magnétophone dont il a l’habitude. L’enregistrement a duré 19 minutes 35 secondes. Le passage, que j’ai choisi, dure 9 minutes 55 secondes : il correspond au début de l’enregistrement et concerne le livre ; par la suite, Julien raconte abondamment les jeux qu’il fait sur ordinateur. Durant l’enregistrement, Julien est un peu excité : il sortait de son cours de judo. Parfois même, il sautait sur le lit.

TRANSCRIPTION : A1 Alors c’est quoi l’histoire de Crictor ? J1 mm un jour le facteur arrive et donne un mm quand madame Bodot ouv(r)e le pa/quet mm elle va / elle va au zoo A2 Et pourquoi elle va au zoo ? J2 pour voir si c’est pas un / un serpent dang(e)reux (il avale sa salive) A3 Pourquoi le serpent dang(e)reux, il est dans / il était dans l(e) paquet,, que l(e) facteur a apporté ? J3 oui A4 D’accord. J4 et mm un c’était un boa constructeur alors elle l’appela Cric(tor) elle lui donna un [s] / [s] le biberon [s] elle lui apporta des palmiers A5 Et pourquoi elle lui apporta des palmiers ? J5 pour sa propre nature A6 Ah, pour qu’i(l) euh se rappelle. J6 sa nature A7 D’accord. J7 mm elle lui faisa un petit gilet,, elle décida de / de l’em/mener en classe il apprena,, l’alphabet A8 Et euh, en fait elle s’occu, madame Bodot / elle s’occupe du serpent comme un / un petit enfant, en fait ? J mm A9 Et c’est qui qui lui a envoyé le / le serpent ? J8 c’est son / c’est son mari A10 C’est son mari ? J9 il apprena à compter A11 Donc il a / il a appris à / à compter à l’école aussi ? J10 mm mm mm i(l) jouait avec les p(e)tits garçons et aussi les filles A12 Il jouait à quoi avec les garçons ? J11 à / à ça,, toboggan il était très serviable et il montrait comment on faisait les nœuds A13 Il montrait euh à qui,, comment on faisait les nœuds ? J12 ben aux p(e)tits garçons A14 A des garçons, ok.

<dialogue=1> §<adulte=101> $alors $c'$est $quoi $l'$histoire $de $*crictor ? §<adulte=102> $et $pourquoi $elle $va $au $zoo ? §<adulte=103> $pourquoi $le $serpent $dangereux, $il $est $dans $il $était $dans $le $paquet,, $que $le $facteur $a $apporté ? §<adulte=104> $d'$accord. §<adulte=105> $et $pourquoi $elle $lui $apporta $des $palmiers ? §<adulte=106> $eh, $pour $qu'$il $euh $se $rappelle. §<adulte=107> $d'$accord. §<adulte=108> $et $euh, $en $fait $elle $s'$occu, $madame $*bodot $elle $s'$occupe $du $serpent $comme $un $un $petit $enfant, $en $fait ? §<adulte=109> $et $c'$est $qui $qui $lui $a $envoyé $le $le $serpent ? §<adulte=110> $c'$est $son $mari ? §<adulte=111> $conc $il $a $il $a $appris $à $à $compter $à $l'$école $aussi ? §<adulte=112> $il $jouait $à $quoi $avec $les $garçons ? §<adulte=113> $il $montrait $euh $à $qui,, $comment $on $faisait $les $noeuds ? §<adulte=114> $à $des $garçons, $ok. §<adulte=115> $et $euh $le $qui $l'$a $bâillonnée $euh $madame $euh $*bodot ? §<adulte=116> $le $cambrioleur, $d'$accord. $et $qu'$est-$ce $qui $s'$est $passé $par $la $suite ? §<adulte=117> $il $attacha $qui $le $serpent ? §<adulte=118> $le $bandit, $d'$accord. §<adulte=119> $donc $il $a $bien $un $jardin $qui $portait $son $nom ? §<adulte=120> $d'$accord. $Donc $là $c'$était $l'$histoire $du $petit $*crictor. §<adulte=121> $et $pourquoi $tu $aimes $bien $ce $livre ? §<adulte=122> $tu $aimes $bien $les $serpents ? §<adulte=123> $et $pourquoi $tu $avais $envie $de $me $raconter $l'$histoire $de $de $*crictor $le $serpent ? §<adulte=124> $parce $que $c'$était $un $livre $très $court $alors ? §<adulte=125> $et $euh $et $alors $tu $aimes $bien $les $serpents $ou $pas ? §<adulte=126> $ca $te $fait $peur $quand $tu $les $vois ? §<adulte=127> $ou $en $vrai. §<adulte=128> $mais $par $exemple $quand $tu $as $après $que $tu $aies $lu $euh $ce $livre, $maintenant $tu $euh $tu $aimes $bien $les $serpents $ou $un $peu $mieux ? §<adulte=129> $du $fait $que $ce $soit $un $serpent $gentil. §<adulte=130> $c'$est $tout. $et $alors $euh $madame $*bodot $au $départ, $elle $elle $avait $peur $du $serpent ? §<adulte=131> $ouais. $et $euh $et $euh $en $fait, $elle $s'$occupe $du $serpent $comme $un $enfant ?

§<adulte=132> $et $toi, $tu $aurais $fait $pareil $à $sa $place ? §<adulte=133> $tu $aurais $réagi $comment ? §<adulte=134> $et $tu $lui $aurais $tu $lui $aurais $donné $quoi $à $manger ? §<adulte=135> $des $pâtes. §<adulte=136> $pourquoi $à $la $vanille ? §<adulte=137> $pourquoi $au $café ? §<adulte=138> $alors $en $fait, $en $fait $tu $lui $aurais $donné $les $la $même $nourriture $que $toi $tu $manges ? §<adulte=139> $et $euh $tu $voudrais $pas $qu'il $dorme $dans $la $même $chambre $que $toi ? §<adulte=140> $pourquoi ? §<adulte=141> $il $t'$embêterait ? §<adulte=142> $tu $crois ? $qu'$est-$ce $qu'$il $te $ferait ? §<adulte=143> $il $gigoterait $et $toi $ça $t'$embêterait ? §<adulte=144> $parce $que $tu $pourrais $pas $dormir. §<adulte=145> $mais $tu $jouerais $avec $lui ? §<adulte=146> $et $euh, $tu $jouerais $à $quoi ? §<adulte=147> $et $euh $d'$autres $à $d'$autres $jeux ? $comme $quoi ? §<adulte=148> $c'$est $tout ? §<adulte=149> $et $qu'$est-$ce $que $tu $fais $d'$autre $et $qu'$est-$ce $que $tu $ferais $d'$autre $avec $lui ? §<adulte=150> $rien ? $tu $te $t'$amuserais $seulement ? §<enfant=101> mm un jour le facteur arrive et donne un mm quand madame *bodot ouvre le paquet mm elle va elle va au zoo §<enfant=102> pour voir si c'est pas un un serpent dangereux §<enfant=103> oui §<enfant=104> et mm un c'était un boa constructeur alors elle l'appela *crictor elle lui donna un le biberon elle lui apporta des palmiers §<enfant=105> pour sa propre nature §<enfant=106> sa nature §<enfant=107> mm elle lui faisa un petit gilet,, elle décida de de l'emmener en classe il apprena,, l'alphabet §<enfant=000> mm §<enfant=108> c'est son c'est son mari §<enfant=109> il apprena à compter §<enfant=110> mm mm mm il jouait avec les petits garçons et aussi les filles §<enfant=111> à à ça,, toboggan il était très serviable et il montrait comment on faisait les noeuds §<enfant=112> ben aux petits garçons

4. Exemples d’analyses Fréquences des mots Recherches des formes dans les énoncés Graphiques de ventilation des formes Etiquetage morpho-syntaxique Concordances des formes

Extraits du dictionnaire des formes énoncées par l’adulte et par l’enfant dans le corpus longitudinal de Julien (comprenant 3 dialogues) analysé par Lexico3

Recherche portant sur « parce que »

Mise en relation des « parce que » énoncés par l’enfant et des « pourquoi » énoncés par l’adulte dans le corpus longitudinal

Extrait du fichier résultat de l’étiquetage automatique du corpus à l’aide de Cordial N° mot mot lemme Typegram Codegram ==== DEBUT DE PHRASE ==== 0 < 1 dialogue dialogue NCMS Ncms 2 = 3 1 1 NCMIN Ncm. 4 > ===== FIN DE PHRASE ===== 0 \r\r§< 1 adulte adulte ADJSIG Afp.s 3 101 101 NCMIN Ncms 5 $ 6 alors alors ADV Rgp 7 $ 8 c' ce PDS Pd-..n 9 $ 10 est être VINDP3S Vmip3s 11 $ 12 quoi quoi PRI Pr-..- 13 $ 14 l' le DETDFS Da-ms-d 15 $ 16 histoire histoire NCFS Ncfs 17 $ 18 de de PREP Sp 19 $* 20 crictor crictor NCI Nc.. => Erreur orthographique: crictor => cricri 21 ? ? PCTFORTE Yps 22 ? (…)

Manipulation avec MkCorpus du fichier étiqueté pour générer différentes représentations

Fichiers de sortie générés par MkCorpus 1. « cordialCateg.txt » présente les catégories seules : <enfant=102>PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN 2. « cordialForme.txt » présente le texte initial : <enfant=102>pour voir si c' est pas un serpent dangereux 3. « cordialLemm.txt » présente les formes lemmatisées : <enfant=102>pour voir si ce être pas un serpent dangereux 4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée : <enfant=102>pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée : <enfant=102>pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier.

Fichiers de sortie générés par MkCorpus 1. « cordialCateg.txt » présente les catégories seules : <enfant=102>PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN 2. « cordialForme.txt » présente le texte initial : <enfant=102>pour voir si c' est pas un serpent dangereux 3. « cordialLemm.txt » présente les formes lemmatisées : <enfant=102>pour voir si ce être pas un serpent dangereux 4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée : <enfant=102>pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée : <enfant=102>pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier.

Concordance des constructions « Verbe à l’Infinitif »

Graphiques de ventilation de la construction « Préposition + Verbe à l’Infinitif » dans les énoncés de l’adulte et de l’enfant

Evolution de l’emploi des Pronoms Relatifs dans les énoncés de l’enfant et dans ceux de l’adulte avec occurrences dans le corpus

Concordance des constructions « Préposition »

Recherche sur l’emploi du conditionnel par l’enfant comparé à son emploi par l’adulte

Visualisation des occurrences du « conditionnel » dans les énoncés de l’enfant et de l’adulte

5. Premier bilan Avantages Inconvénients Stockage et échange de données Traitement rapide de grands corpus Analyses automatiques « visuelles » Approche quantitative complémentaire Inconvénients Phases de préparation Fiabilité de l’étiquetage automatique Traitement de données orales Repérage d’essais de constructions complexes

6. Projet de thèse Réfléchir sur une apparente incompatibilité entre le modèle informatique qui est un modèle rigide, appliqué à une analyse qualitative de corpus de données orales en contexte particulier d’acquisition du langage, donc sujettes à la variation et à des formes non standardisées ; Résoudre les problèmes liés aux phases de préparation ; Constituer une banque de données de corpus d’acquisition du langage normalisés ; Trouver des applications possibles pour quantifier le développement du langage chez l’enfant, et apporter des méthodes complémentaires.

Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO Septembre 2002 Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de l’acquisition du langage Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO Septembre 2002 MERCI luiggi.sansonetti@noos.fr