Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de l’acquisition du langage Luiggi Sansonetti – DEA Sciences du Langage 2001/2002
Plan de l’exposé Hypothèse et objectif de départ Interdisciplinarité de la recherche Phases de préparation Exemples d’analyses Premier bilan Projet de thèse
1. Hypothèse et objectif de départ Suivant une normalisation adaptée, il est possible de procéder à des analyses lexicométriques et statistiques sur des corpus de dialogues dans le cadre de recherches en acquisition du langage. Analyser de façon automatisée des corpus de dialogues adulte-enfant en contexte d’acquisition du langage en appliquant des méthodes quantitatives de statistiques textuelles. Constitution d’une banque de données de corpus de dialogues normalisés Traitement de grands corpus longitudinaux simplifié
2. Interdisciplinarité de la recherche Linguistique de l’acquisition du langage Analyse syntaxique Interaction langagière Traitement Automatique des Langues Statistique textuelle Lexicométrie
2.1 Linguistique de l’acquisition du langage Recherche les processus d’élaboration du fonctionnement cognitivo-langagier, en observant tout particulièrement la syntaxe chez l’enfant, à partir d’interactions verbales entre un adulte et un enfant en situation de dialogues spontanés. Recherche de formes Recherche de constructions syntaxiques Recherche des phénomènes de reprises et reformulations Evolution du langage de l’enfant dans l’étude longitudinale
2.2 Traitement Automatique des Langues Le TAL est l’étude et le traitement de données linguistiques exprimées dans une langue dite naturelle par des moyens informatiques comme des programmes ou des logiciels. Statistique textuelle et lexicométrie (Lexico) Fréquences Concordances Partitions Evolution du vocabulaire Etiquetage morpho-syntaxique (Cordial) Préparation et manipulation (MkCorpus)
3. Phases de préparation Phases de nettoyage Phases de remplacement Commentaires, fiche de présentation, hésitations… Phases de remplacement Estimation, prononciation, majuscule… Phases de balisage Dialogues, locuteurs, énoncés… Phases de présentation Enoncés regroupés par 50 pour avoir sur une ligne l’adulte et en dessous l’enfant
CORPUS Corpus de JULIEN ENREGISTREMENT :Claire T. Date 20/11/99 TRANSCRIPTION : Claire T. Date : 21/11/99 ENFANT : Julien F. Né le 01/01/94 Age : 05 ; 10 ; 19 Corpus N°1 nJ = 68 nA = 69 SITUATION : Julien, âgé de 5 ans, est un garçon francophone : il n’a aucune origine étrangère. Il a un grand frère, Raphaël, qui est son aîné de 3 ans. Ils vivent tous les deux dans un appartement avec leurs parents : les enfants ont chacun leur chambre. Leur père est ingénieur et leur mère est femme au foyer avec un niveau d’études supérieures. Ainsi c’est cette dernière qui s’occupe énormément de Julien et de Raphaël : elle les emmène et va les chercher à l’école et d’autre part, elle emprunte souvent des livres à la bibliothèque municipale, et lit donc beaucoup d’histoires à Julien. Celui-ci et sa famille ont déménagé cet été : les enfants ont donc changé d’école en début d’année. Julien est en dernière année de maternelle. Julien est le fils de ma cousine germaine mais je ne le vois que très rarement. Pour faire ce corpus, j’ai choisi de prendre un livre comme support. J’ai demandé à la maman de Julien de m’apporter deux livres. Puis, avant de commencer l’enregistrement, j’ai demandé à Julien de choisir lui-même entre Crictor et Babar à New York : il a préféré raconter l’histoire de Crictor, de Tomi Ungerer, l’école des loisirs, Collection Lutin Poche, première parution 1980. Pour des raisons de commodité, l’entretien a lieu à 17h30 dans ma chambre contrairement à l’année dernière où cela s’était passé chez lui. Julien est assis sur mon lit et moi par terre pour supprimer toute différence de taille entre l’enfant et moi. D’autre part, nos regards pouvaient directement se croiser. J’ai relu l’histoire tout en tenant lui-même le livre et en tournant les pages. Il n’est pas distrait par le magnétophone dont il a l’habitude. L’enregistrement a duré 19 minutes 35 secondes. Le passage, que j’ai choisi, dure 9 minutes 55 secondes : il correspond au début de l’enregistrement et concerne le livre ; par la suite, Julien raconte abondamment les jeux qu’il fait sur ordinateur. Durant l’enregistrement, Julien est un peu excité : il sortait de son cours de judo. Parfois même, il sautait sur le lit.
TRANSCRIPTION : A1 Alors c’est quoi l’histoire de Crictor ? J1 mm un jour le facteur arrive et donne un mm quand madame Bodot ouv(r)e le pa/quet mm elle va / elle va au zoo A2 Et pourquoi elle va au zoo ? J2 pour voir si c’est pas un / un serpent dang(e)reux (il avale sa salive) A3 Pourquoi le serpent dang(e)reux, il est dans / il était dans l(e) paquet,, que l(e) facteur a apporté ? J3 oui A4 D’accord. J4 et mm un c’était un boa constructeur alors elle l’appela Cric(tor) elle lui donna un [s] / [s] le biberon [s] elle lui apporta des palmiers A5 Et pourquoi elle lui apporta des palmiers ? J5 pour sa propre nature A6 Ah, pour qu’i(l) euh se rappelle. J6 sa nature A7 D’accord. J7 mm elle lui faisa un petit gilet,, elle décida de / de l’em/mener en classe il apprena,, l’alphabet A8 Et euh, en fait elle s’occu, madame Bodot / elle s’occupe du serpent comme un / un petit enfant, en fait ? J mm A9 Et c’est qui qui lui a envoyé le / le serpent ? J8 c’est son / c’est son mari A10 C’est son mari ? J9 il apprena à compter A11 Donc il a / il a appris à / à compter à l’école aussi ? J10 mm mm mm i(l) jouait avec les p(e)tits garçons et aussi les filles A12 Il jouait à quoi avec les garçons ? J11 à / à ça,, toboggan il était très serviable et il montrait comment on faisait les nœuds A13 Il montrait euh à qui,, comment on faisait les nœuds ? J12 ben aux p(e)tits garçons A14 A des garçons, ok.
<dialogue=1> §<adulte=101> $alors $c'$est $quoi $l'$histoire $de $*crictor ? §<adulte=102> $et $pourquoi $elle $va $au $zoo ? §<adulte=103> $pourquoi $le $serpent $dangereux, $il $est $dans $il $était $dans $le $paquet,, $que $le $facteur $a $apporté ? §<adulte=104> $d'$accord. §<adulte=105> $et $pourquoi $elle $lui $apporta $des $palmiers ? §<adulte=106> $eh, $pour $qu'$il $euh $se $rappelle. §<adulte=107> $d'$accord. §<adulte=108> $et $euh, $en $fait $elle $s'$occu, $madame $*bodot $elle $s'$occupe $du $serpent $comme $un $un $petit $enfant, $en $fait ? §<adulte=109> $et $c'$est $qui $qui $lui $a $envoyé $le $le $serpent ? §<adulte=110> $c'$est $son $mari ? §<adulte=111> $conc $il $a $il $a $appris $à $à $compter $à $l'$école $aussi ? §<adulte=112> $il $jouait $à $quoi $avec $les $garçons ? §<adulte=113> $il $montrait $euh $à $qui,, $comment $on $faisait $les $noeuds ? §<adulte=114> $à $des $garçons, $ok. §<adulte=115> $et $euh $le $qui $l'$a $bâillonnée $euh $madame $euh $*bodot ? §<adulte=116> $le $cambrioleur, $d'$accord. $et $qu'$est-$ce $qui $s'$est $passé $par $la $suite ? §<adulte=117> $il $attacha $qui $le $serpent ? §<adulte=118> $le $bandit, $d'$accord. §<adulte=119> $donc $il $a $bien $un $jardin $qui $portait $son $nom ? §<adulte=120> $d'$accord. $Donc $là $c'$était $l'$histoire $du $petit $*crictor. §<adulte=121> $et $pourquoi $tu $aimes $bien $ce $livre ? §<adulte=122> $tu $aimes $bien $les $serpents ? §<adulte=123> $et $pourquoi $tu $avais $envie $de $me $raconter $l'$histoire $de $de $*crictor $le $serpent ? §<adulte=124> $parce $que $c'$était $un $livre $très $court $alors ? §<adulte=125> $et $euh $et $alors $tu $aimes $bien $les $serpents $ou $pas ? §<adulte=126> $ca $te $fait $peur $quand $tu $les $vois ? §<adulte=127> $ou $en $vrai. §<adulte=128> $mais $par $exemple $quand $tu $as $après $que $tu $aies $lu $euh $ce $livre, $maintenant $tu $euh $tu $aimes $bien $les $serpents $ou $un $peu $mieux ? §<adulte=129> $du $fait $que $ce $soit $un $serpent $gentil. §<adulte=130> $c'$est $tout. $et $alors $euh $madame $*bodot $au $départ, $elle $elle $avait $peur $du $serpent ? §<adulte=131> $ouais. $et $euh $et $euh $en $fait, $elle $s'$occupe $du $serpent $comme $un $enfant ?
§<adulte=132> $et $toi, $tu $aurais $fait $pareil $à $sa $place ? §<adulte=133> $tu $aurais $réagi $comment ? §<adulte=134> $et $tu $lui $aurais $tu $lui $aurais $donné $quoi $à $manger ? §<adulte=135> $des $pâtes. §<adulte=136> $pourquoi $à $la $vanille ? §<adulte=137> $pourquoi $au $café ? §<adulte=138> $alors $en $fait, $en $fait $tu $lui $aurais $donné $les $la $même $nourriture $que $toi $tu $manges ? §<adulte=139> $et $euh $tu $voudrais $pas $qu'il $dorme $dans $la $même $chambre $que $toi ? §<adulte=140> $pourquoi ? §<adulte=141> $il $t'$embêterait ? §<adulte=142> $tu $crois ? $qu'$est-$ce $qu'$il $te $ferait ? §<adulte=143> $il $gigoterait $et $toi $ça $t'$embêterait ? §<adulte=144> $parce $que $tu $pourrais $pas $dormir. §<adulte=145> $mais $tu $jouerais $avec $lui ? §<adulte=146> $et $euh, $tu $jouerais $à $quoi ? §<adulte=147> $et $euh $d'$autres $à $d'$autres $jeux ? $comme $quoi ? §<adulte=148> $c'$est $tout ? §<adulte=149> $et $qu'$est-$ce $que $tu $fais $d'$autre $et $qu'$est-$ce $que $tu $ferais $d'$autre $avec $lui ? §<adulte=150> $rien ? $tu $te $t'$amuserais $seulement ? §<enfant=101> mm un jour le facteur arrive et donne un mm quand madame *bodot ouvre le paquet mm elle va elle va au zoo §<enfant=102> pour voir si c'est pas un un serpent dangereux §<enfant=103> oui §<enfant=104> et mm un c'était un boa constructeur alors elle l'appela *crictor elle lui donna un le biberon elle lui apporta des palmiers §<enfant=105> pour sa propre nature §<enfant=106> sa nature §<enfant=107> mm elle lui faisa un petit gilet,, elle décida de de l'emmener en classe il apprena,, l'alphabet §<enfant=000> mm §<enfant=108> c'est son c'est son mari §<enfant=109> il apprena à compter §<enfant=110> mm mm mm il jouait avec les petits garçons et aussi les filles §<enfant=111> à à ça,, toboggan il était très serviable et il montrait comment on faisait les noeuds §<enfant=112> ben aux petits garçons
4. Exemples d’analyses Fréquences des mots Recherches des formes dans les énoncés Graphiques de ventilation des formes Etiquetage morpho-syntaxique Concordances des formes
Extraits du dictionnaire des formes énoncées par l’adulte et par l’enfant dans le corpus longitudinal de Julien (comprenant 3 dialogues) analysé par Lexico3
Recherche portant sur « parce que »
Mise en relation des « parce que » énoncés par l’enfant et des « pourquoi » énoncés par l’adulte dans le corpus longitudinal
Extrait du fichier résultat de l’étiquetage automatique du corpus à l’aide de Cordial N° mot mot lemme Typegram Codegram ==== DEBUT DE PHRASE ==== 0 < 1 dialogue dialogue NCMS Ncms 2 = 3 1 1 NCMIN Ncm. 4 > ===== FIN DE PHRASE ===== 0 \r\r§< 1 adulte adulte ADJSIG Afp.s 3 101 101 NCMIN Ncms 5 $ 6 alors alors ADV Rgp 7 $ 8 c' ce PDS Pd-..n 9 $ 10 est être VINDP3S Vmip3s 11 $ 12 quoi quoi PRI Pr-..- 13 $ 14 l' le DETDFS Da-ms-d 15 $ 16 histoire histoire NCFS Ncfs 17 $ 18 de de PREP Sp 19 $* 20 crictor crictor NCI Nc.. => Erreur orthographique: crictor => cricri 21 ? ? PCTFORTE Yps 22 ? (…)
Manipulation avec MkCorpus du fichier étiqueté pour générer différentes représentations
Fichiers de sortie générés par MkCorpus 1. « cordialCateg.txt » présente les catégories seules : <enfant=102>PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN 2. « cordialForme.txt » présente le texte initial : <enfant=102>pour voir si c' est pas un serpent dangereux 3. « cordialLemm.txt » présente les formes lemmatisées : <enfant=102>pour voir si ce être pas un serpent dangereux 4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée : <enfant=102>pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée : <enfant=102>pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier.
Fichiers de sortie générés par MkCorpus 1. « cordialCateg.txt » présente les catégories seules : <enfant=102>PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN 2. « cordialForme.txt » présente le texte initial : <enfant=102>pour voir si c' est pas un serpent dangereux 3. « cordialLemm.txt » présente les formes lemmatisées : <enfant=102>pour voir si ce être pas un serpent dangereux 4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée : <enfant=102>pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée : <enfant=102>pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier.
Concordance des constructions « Verbe à l’Infinitif »
Graphiques de ventilation de la construction « Préposition + Verbe à l’Infinitif » dans les énoncés de l’adulte et de l’enfant
Evolution de l’emploi des Pronoms Relatifs dans les énoncés de l’enfant et dans ceux de l’adulte avec occurrences dans le corpus
Concordance des constructions « Préposition »
Recherche sur l’emploi du conditionnel par l’enfant comparé à son emploi par l’adulte
Visualisation des occurrences du « conditionnel » dans les énoncés de l’enfant et de l’adulte
5. Premier bilan Avantages Inconvénients Stockage et échange de données Traitement rapide de grands corpus Analyses automatiques « visuelles » Approche quantitative complémentaire Inconvénients Phases de préparation Fiabilité de l’étiquetage automatique Traitement de données orales Repérage d’essais de constructions complexes
6. Projet de thèse Réfléchir sur une apparente incompatibilité entre le modèle informatique qui est un modèle rigide, appliqué à une analyse qualitative de corpus de données orales en contexte particulier d’acquisition du langage, donc sujettes à la variation et à des formes non standardisées ; Résoudre les problèmes liés aux phases de préparation ; Constituer une banque de données de corpus d’acquisition du langage normalisés ; Trouver des applications possibles pour quantifier le développement du langage chez l’enfant, et apporter des méthodes complémentaires.
Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO Septembre 2002 Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de l’acquisition du langage Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO Septembre 2002 MERCI luiggi.sansonetti@noos.fr