La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de lacquisition du langage Luiggi Sansonetti –

Présentations similaires


Présentation au sujet: "Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de lacquisition du langage Luiggi Sansonetti –"— Transcription de la présentation:

1 Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de lacquisition du langage Luiggi Sansonetti – DEA Sciences du Langage 2001/2002

2 Plan de lexposé 1. Hypothèse et objectif de départ 2. Interdisciplinarité de la recherche 3. Phases de préparation 4. Exemples danalyses 5. Premier bilan 6. Projet de thèse

3 1. Hypothèse et objectif de départ Suivant une normalisation adaptée, il est possible de procéder à des analyses lexicométriques et statistiques sur des corpus de dialogues dans le cadre de recherches en acquisition du langage. Analyser de façon automatisée des corpus de dialogues adulte-enfant en contexte dacquisition du langage en appliquant des méthodes quantitatives de statistiques textuelles. Constitution dune banque de données de corpus de dialogues normalisés Traitement de grands corpus longitudinaux simplifié

4 2. Interdisciplinarité de la recherche Linguistique de lacquisition du langage Analyse syntaxique Interaction langagière Traitement Automatique des Langues Statistique textuelle Lexicométrie

5 2.1 Linguistique de lacquisition du langage Recherche les processus délaboration du fonctionnement cognitivo-langagier, en observant tout particulièrement la syntaxe chez lenfant, à partir dinteractions verbales entre un adulte et un enfant en situation de dialogues spontanés. Recherche de formes Recherche de constructions syntaxiques Recherche des phénomènes de reprises et reformulations Evolution du langage de lenfant dans létude longitudinale

6 2.2 Traitement Automatique des Langues Le TAL est létude et le traitement de données linguistiques exprimées dans une langue dite naturelle par des moyens informatiques comme des programmes ou des logiciels. Statistique textuelle et lexicométrie (Lexico) Fréquences Concordances Partitions Evolution du vocabulaire Etiquetage morpho-syntaxique (Cordial) Préparation et manipulation (MkCorpus)

7 3. Phases de préparation Phases de nettoyage Commentaires, fiche de présentation, hésitations… Phases de remplacement Estimation, prononciation, majuscule… Phases de balisage Dialogues, locuteurs, énoncés… Phases de présentation Enoncés regroupés par 50 pour avoir sur une ligne ladulte et en dessous lenfant

8 CORPUS Corpus de JULIEN ENREGISTREMENT :Claire T. Date 20/11/99 TRANSCRIPTION : Claire T. Date : 21/11/99 ENFANT : Julien F. Né le 01/01/94 Age : 05 ; 10 ; 19 Corpus N°1 nJ = 68 nA = 69 SITUATION : Julien, âgé de 5 ans, est un garçon francophone : il na aucune origine étrangère. Il a un grand frère, Raphaël, qui est son aîné de 3 ans. Ils vivent tous les deux dans un appartement avec leurs parents : les enfants ont chacun leur chambre. Leur père est ingénieur et leur mère est femme au foyer avec un niveau détudes supérieures. Ainsi cest cette dernière qui soccupe énormément de Julien et de Raphaël : elle les emmène et va les chercher à lécole et dautre part, elle emprunte souvent des livres à la bibliothèque municipale, et lit donc beaucoup dhistoires à Julien. Celui-ci et sa famille ont déménagé cet été : les enfants ont donc changé décole en début dannée. Julien est en dernière année de maternelle. Julien est le fils de ma cousine germaine mais je ne le vois que très rarement. Pour faire ce corpus, jai choisi de prendre un livre comme support. Jai demandé à la maman de Julien de mapporter deux livres. Puis, avant de commencer lenregistrement, jai demandé à Julien de choisir lui-même entre Crictor et Babar à New York : il a préféré raconter lhistoire de Crictor, de Tomi Ungerer, lécole des loisirs, Collection Lutin Poche, première parution Pour des raisons de commodité, lentretien a lieu à 17h30 dans ma chambre contrairement à lannée dernière où cela sétait passé chez lui. Julien est assis sur mon lit et moi par terre pour supprimer toute différence de taille entre lenfant et moi. Dautre part, nos regards pouvaient directement se croiser. Jai relu lhistoire tout en tenant lui-même le livre et en tournant les pages. Il nest pas distrait par le magnétophone dont il a lhabitude. Lenregistrement a duré 19 minutes 35 secondes. Le passage, que jai choisi, dure 9 minutes 55 secondes : il correspond au début de lenregistrement et concerne le livre ; par la suite, Julien raconte abondamment les jeux quil fait sur ordinateur. Durant lenregistrement, Julien est un peu excité : il sortait de son cours de judo. Parfois même, il sautait sur le lit.

9 TRANSCRIPTION : A1 Alors cest quoi lhistoire de Crictor ? J1 mm un jour le facteur arrive et donne un mm quand madame Bodot ouv(r)e le pa/quet mm elle va / elle va au zoo A2 Et pourquoi elle va au zoo ? J2 pour voir si cest pas un / un serpent dang(e)reux (il avale sa salive) A3 Pourquoi le serpent dang(e)reux, il est dans / il était dans l(e) paquet,, que l(e) facteur a apporté ? J3 oui A4 Daccord. J4 et mm un cétait un boa constructeur alors elle lappela Cric(tor) elle lui donna un [s] / [s] le biberon [s] elle lui apporta des palmiers A5 Et pourquoi elle lui apporta des palmiers ? J5 pour sa propre nature A6 Ah, pour qui(l) euh se rappelle. J6 sa nature A7 Daccord. J7 mm elle lui faisa un petit gilet,, elle décida de / de lem/mener en classe il apprena,, lalphabet A8 Et euh, en fait elle soccu, madame Bodot / elle soccupe du serpent comme un / un petit enfant, en fait ? J mm A9 Et cest qui qui lui a envoyé le / le serpent ? J8 cest son / cest son mari A10 Cest son mari ? J9 il apprena à compter A11 Donc il a / il a appris à / à compter à lécole aussi ? J10 mm mm mm i(l) jouait avec les p(e)tits garçons et aussi les filles A12 Il jouait à quoi avec les garçons ? J11 à / à ça,, toboggan il était très serviable et il montrait comment on faisait les nœuds A13 Il montrait euh à qui,, comment on faisait les nœuds ? J12 ben aux p(e)tits garçons A14 A des garçons, ok.

10 § $alors $c'$est $quoi $l'$histoire $de $*crictor ? § $et $pourquoi $elle $va $au $zoo ? § $pourquoi $le $serpent $dangereux, $il $est $dans $il $était $dans $le $paquet,, $que $le $facteur $a $apporté ? § $d'$accord. § $et $pourquoi $elle $lui $apporta $des $palmiers ? § $eh, $pour $qu'$il $euh $se $rappelle. § $d'$accord. § $et $euh, $en $fait $elle $s'$occu, $madame $*bodot $elle $s'$occupe $du $serpent $comme $un $un $petit $enfant, $en $fait ? § $et $c'$est $qui $qui $lui $a $envoyé $le $le $serpent ? § $c'$est $son $mari ? § $conc $il $a $il $a $appris $à $à $compter $à $l'$école $aussi ? § $il $jouait $à $quoi $avec $les $garçons ? § $il $montrait $euh $à $qui,, $comment $on $faisait $les $noeuds ? § $à $des $garçons, $ok. § $et $euh $le $qui $l'$a $bâillonnée $euh $madame $euh $*bodot ? § $le $cambrioleur, $d'$accord. $et $qu'$est-$ce $qui $s'$est $passé $par $la $suite ? § $il $attacha $qui $le $serpent ? § $le $bandit, $d'$accord. § $donc $il $a $bien $un $jardin $qui $portait $son $nom ? § $d'$accord. $Donc $là $c'$était $l'$histoire $du $petit $*crictor. § $et $pourquoi $tu $aimes $bien $ce $livre ? § $tu $aimes $bien $les $serpents ? § $et $pourquoi $tu $avais $envie $de $me $raconter $l'$histoire $de $de $*crictor $le $serpent ? § $parce $que $c'$était $un $livre $très $court $alors ? § $et $euh $et $alors $tu $aimes $bien $les $serpents $ou $pas ? § $ca $te $fait $peur $quand $tu $les $vois ? § $ou $en $vrai. § $mais $par $exemple $quand $tu $as $après $que $tu $aies $lu $euh $ce $livre, $maintenant $tu $euh $tu $aimes $bien $les $serpents $ou $un $peu $mieux ? § $du $fait $que $ce $soit $un $serpent $gentil. § $c'$est $tout. $et $alors $euh $madame $*bodot $au $départ, $elle $elle $avait $peur $du $serpent ? § $ouais. $et $euh $et $euh $en $fait, $elle $s'$occupe $du $serpent $comme $un $enfant ?

11 § $et $toi, $tu $aurais $fait $pareil $à $sa $place ? § $tu $aurais $réagi $comment ? § $et $tu $lui $aurais $tu $lui $aurais $donné $quoi $à $manger ? § $des $pâtes. § $pourquoi $à $la $vanille ? § $pourquoi $au $café ? § $alors $en $fait, $en $fait $tu $lui $aurais $donné $les $la $même $nourriture $que $toi $tu $manges ? § $et $euh $tu $voudrais $pas $qu'il $dorme $dans $la $même $chambre $que $toi ? § $pourquoi ? § $il $t'$embêterait ? § $tu $crois ? $qu'$est-$ce $qu'$il $te $ferait ? § $il $gigoterait $et $toi $ça $t'$embêterait ? § $parce $que $tu $pourrais $pas $dormir. § $mais $tu $jouerais $avec $lui ? § $et $euh, $tu $jouerais $à $quoi ? § $et $euh $d'$autres $à $d'$autres $jeux ? $comme $quoi ? § $c'$est $tout ? § $et $qu'$est-$ce $que $tu $fais $d'$autre $et $qu'$est-$ce $que $tu $ferais $d'$autre $avec $lui ? § $rien ? $tu $te $t'$amuserais $seulement ? § mm un jour le facteur arrive et donne un mm quand madame *bodot ouvre le paquet mm elle va elle va au zoo § pour voir si c'est pas un un serpent dangereux § oui § et mm un c'était un boa constructeur alors elle l'appela *crictor elle lui donna un le biberon elle lui apporta des palmiers § pour sa propre nature § sa nature § mm elle lui faisa un petit gilet,, elle décida de de l'emmener en classe il apprena,, l'alphabet § mm § c'est son c'est son mari § il apprena à compter § mm mm mm il jouait avec les petits garçons et aussi les filles § à à ça,, toboggan il était très serviable et il montrait comment on faisait les noeuds § ben aux petits garçons

12 4. Exemples danalyses Fréquences des mots Recherches des formes dans les énoncés Graphiques de ventilation des formes Etiquetage morpho-syntaxique Concordances des formes

13 Extraits du dictionnaire des formes énoncées par ladulte et par lenfant dans le corpus longitudinal de Julien (comprenant 3 dialogues) analysé par Lexico3

14 Recherche portant sur « parce que »

15 Mise en relation des « parce que » énoncés par lenfant et des « pourquoi » énoncés par ladulte dans le corpus longitudinal

16 Extrait du fichier résultat de létiquetage automatique du corpus à laide de Cordial N° motmotlemmeTypegramCodegram ==== DEBUT DE PHRASE ==== 0< 1dialoguedialogueNCMSNcms 2= 311NCMINNcm. 4> ===== FIN DE PHRASE ===== ==== DEBUT DE PHRASE ==== 0\r\r§< 1adulteadulteADJSIGAfp.s 2= NCMINNcms 4> 5$ 6alorsalorsADVRgp 7$ 8c'cePDSPd-..n 9$ 10estêtreVINDP3SVmip3s 11$ 12quoiquoiPRIPr $ 14l'leDETDFSDa-ms-d 15$ 16histoirehistoireNCFSNcfs 17$ 18dedePREPSp 19$* 20crictorcrictorNCINc..=> Erreur orthographique: crictor => cricri 21??PCTFORTEYps 22? ===== FIN DE PHRASE ===== (…)

17 Manipulation avec MkCorpus du fichier étiqueté pour générer différentes représentations

18 1. « cordialCateg.txt » présente les catégories seules : PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN 2. « cordialForme.txt » présente le texte initial : pour voir si c' est pas un serpent dangereux 3. « cordialLemm.txt » présente les formes lemmatisées : pour voir si ce être pas un serpent dangereux 4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée : pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée : pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier. Fichiers de sortie générés par MkCorpus

19 1. « cordialCateg.txt » présente les catégories seules : PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN 2. « cordialForme.txt » présente le texte initial : pour voir si c' est pas un serpent dangereux 3. « cordialLemm.txt » présente les formes lemmatisées : pour voir si ce être pas un serpent dangereux 4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée : pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée : pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN 6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier. Fichiers de sortie générés par MkCorpus

20 Concordance des constructions « Verbe à lInfinitif »

21 Graphiques de ventilation de la construction « Préposition + Verbe à lInfinitif » dans les énoncés de ladulte et de lenfant

22 Evolution de lemploi des Pronoms Relatifs dans les énoncés de lenfant et dans ceux de ladulte avec occurrences dans le corpus

23 Concordance des constructions « Préposition »

24 Recherche sur lemploi du conditionnel par lenfant comparé à son emploi par ladulte

25 Visualisation des occurrences du « conditionnel » dans les énoncés de lenfant et de ladulte

26 5. Premier bilan Avantages Stockage et échange de données Traitement rapide de grands corpus Analyses automatiques « visuelles » Approche quantitative complémentaire Inconvénients Phases de préparation Fiabilité de létiquetage automatique Traitement de données orales Repérage dessais de constructions complexes

27 6. Projet de thèse Réfléchir sur une apparente incompatibilité entre le modèle informatique qui est un modèle rigide, appliqué à une analyse qualitative de corpus de données orales en contexte particulier dacquisition du langage, donc sujettes à la variation et à des formes non standardisées ; Résoudre les problèmes liés aux phases de préparation ; Constituer une banque de données de corpus dacquisition du langage normalisés ; Trouver des applications possibles pour quantifier le développement du langage chez lenfant, et apporter des méthodes complémentaires.

28 Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de lacquisition du langage Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO Septembre 2002 MERCI


Télécharger ppt "Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de lacquisition du langage Luiggi Sansonetti –"

Présentations similaires


Annonces Google