La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre.

Présentations similaires


Présentation au sujet: "U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre."— Transcription de la présentation:

1

2 U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre

3 T ÉLÉCHARGEMENTS Elan: Présentation des données en partitions, codage des gestes, des interactions et représentation temporelle fine des données Clan: Codage textuel complet du langage oral (en particulier acquisition du langage). Présentation textuelles avec données secondaires. Commandes annexes. Transcriber: Codage textuel des interactions. Transcription au kilomètre. Pas de données secondaires. Praat: Logiciel de traitement et affichage de sons. Excel ou LibreOffice: Logiciels de manipulation de tableau de données R: Le logiciel libre de statistique, de traitement de corpus, de création de graphiques TXM: Un logiciel de textométrie permettant limport de multiples fichiers textes Le Trameur: Un autre logiciel de textométrie possédant des caractéristiques différentes (seulement sous Windows) Jedit, Notepad++, TextWrangler Editeurs de texte brut permettant de modifier et de corriger semi-automatiquement les corpus de texte ou les tableaux en texte séparés par des tabulations ou des virgules

4 U TILISATION DE TABLEUR, DE LOGICIELS DE TEXTOMÉTRIE (TXM), DE STATISTIQUES (R), AVEC DES CORPUS DE LANGAGE ORAL Plan du cours Extraction depuis des corpus: Vers du texte en lignes et colonnes (pour tableur) Vers du texte –avec des séparateurs– (pour textométrie) Vers des fichiers structurés (XML simplifié) Utilisation de logiciel de textométrie Lexique Concordances Cooccurrences Autres fonctions Utilisation avec un tableur Codage Passage vers un logiciel de statistiques Retour vers un logiciel de transcription

5 E XPORTATIONS

6 E XTRACTION DE CORPUS La plupart des logiciels dalignement de corpus ont des outils permettant lexport vers des formats textes ou csv (données séparées par des virgules ou des tabulations) Cette exportation permet de travailler avec des outils de statistiques, de textométrie, ou des tableurs. Il est parfois nécessaire, selon loutil que lon va utiliser de faire des ajustements sur les fichiers obtenus Changement dencodage (format des accents) Insertion dentete de fichiers Insertion ou modification des formats de lignes ou de mots La conversion peut être loccasion dutiliser doutils (analyse syntaxique par exemple)

7 E XEMPLES DE CORPUS Le tutoriel est basé sur des exemples de corpus de plusieurs origines et formats: Transcriber: Corpus du français parlé parisien (http://cfpp2000.univ-paris3.fr/ )http://cfpp2000.univ-paris3.fr/ Clan: Corpus de Madeleine (Morgenstern – Paris corpus : Childes – )http://childes.psy.cmu.edu

8 C ONVERSION DEPUIS T RANSCRIBER Les conversions de Transcriber vers du format texte peuvent se faire facilement en passant par ELAN ou par CLAN. TXM permet aussi limport direct depuis Transcriber. ELAN ne permet toutefois pas le traitement de multiples fichiers Transcriber Fichiers à convertir un par un Passer de Transcriber à Clan Un outil est disponible (à télécharger sur la page du workshop : Conversion.jar – attention nécessite Java) Il permet une conversion vers Clan de répertoires complets

9 C ONVERSIONS. JAR ( NÉCESSITE J AVA ) Cliquer sur: Convertir de Transcriber Vers CLAN Choisir dossier ou fichiers Convertir !

10 C ONVERSION DEPUIS CLAN Les conversions depuis CLAN se réalisent à laide des commandes de CLAN CLAN permet de traiter en une seule fois tout un ensemble de fichiers CLAN permet de choisir les parties à extraire Il est aussi possible de nettoyer les corpus des codes spécifiques CHAT quils peuvent contenir et mettre les énoncés dans une seule ligne (ou paragraphe) Les commandes CLAN permet aussi une conversion vers un format TABLEUR

11 C OMMANDES CLAN D EXTRACTION DE T EXTE FLO crée une ligne secondaire %flo contenant la transcription orthographique sans les codes spécifiques de CHAT Loption -d supprime la ligne principale et la remplace par la ligne sans code Loption -cm filtre la ligne principale de manière parallèle à la ligne %mor: LONGTIER crée un fichier CLAN sans retour à la ligne (tous les tiers sont mis sur une seule ligne) – cette option facilite le traitement par certains logiciels KWAL permet dextraire certaines parties dun corpus selon ses besoins

12 E NCHAINEMENT DES COMMANDES CLAN CLAN permet denchainer plusieurs commandes de suite Dabord FLO, puis LONGTIER, puis KWAL Chaque commande traite tous les fichiers et crée un nouveau fichier avec le résultat Soit crée un nouveau fichier avec une nouvelle extension Soit remplace lancien fichier (attention à avoir fait une copie !). Par exemple: Andre-Morange.cha … puis après FLO Andre-Morange.flo.cex … puis après LONGTIER Andre-Morange.flo.longtr.cex … puis après KWAL Andre-Morange.flo.longtr.kwal.cex

13 C OMMANDE KWAL La commande kwal est la commande fondamentale pour extraire des données au format texte depuis des fichiers CLAN. Elle est utilisée pour le texte et pour linsertion dans un tableur. Elle possède 18 paramètres dont 3 sont fondamentaux pour lexportation: +dvaleur : paramètre réglant le format de sortie +d sortie au format texte brut +d4 sortie au format tableur +tvaleur : spécifie les champs à rechercher et afficher +t*NOM cherche les lignes principales du locuteur NOM +t%tier cherche les lignes secondaires de nom %tier -t*NOM cherche les lignes principales sauf celles du locuteur NOM -t%tier cherche les lignes secondaires sauf celles de nom %tier

14 C OMMANDE K WAL : SUITE +ovaleur : spécifie les champs à produire en dehors de ceux concernés par +t +o*MOT produit le locuteur MOT même sil nest pas recherché par +t +o%sit produit les lignes secondaires %sit même si elles ne sont pas recherchées par +t +smotif : spécifie un motif à rechercher dans les éléments indiqués par +t/-t permet de nextraire quune partie des données +u combine tous les fichiers en un seul +wx -wx produit des énoncés avant ou après les éléments recherchés +xCNT produit seulement les énoncés de C(><=)N(nombre)T(w,c,m) contenant un nombre de mots, caractères, morphèmes, inférieur, supérieur ou égal au nombre demandé Exemple: +x<3w seulement les énoncés de moins de trois mots

15 E XEMPLES CLAN Extraire tous les énoncés de ladulte flo +d *.cha kwal -t*CHI +d +f *.flo.cex longtier *.flo.kwal.cex chstring -w +s"+" "-" +y +1 *.cex remplace les + par des - Extraire les énoncés de lenfant et les lignes phonétiques pour utilisation dans un tableur flo +d *.cha kwal +t*CHI +t%pho +d4 +f *.flo.cex

16 C ONVERSION DEPUIS ELAN VERS DES FICHIERS TEXTES Les conversions en masse (tout un ensemble de fichier dun domaine) vers les logiciels tels que les tableurs (Excel, LibreOffice) et les logiciels de textométrie ou statistiques (Le Trameur, Lexico 3, TXM, R) se font par lintermédiaire de fichiers texte. ELAN propose les options suivantes Texte séparé par des tabulations Les temps de début et de fin + Le contenu des acteurs + Le nom des fichiers Liste dannotations Le contenu des acteurs Liste de mots Le lexique (avec choix des séparateurs de mots) Principes communs On doit sélectionner quels acteurs on veut récupérer et on génère un fichier en mentionnant son encodage (UTF8 recommandé)

17 E XPORT VERS UN TABLEUR Sélectionner : « exporter fichiers multiples en tant que » puis « texte délimité par des tabulations … » Choisir un nom de domaine comme pour une recherche Attention: tous les fichiers iront un seul document résultat pour traiter les fichiers un par un passer par « exporter vers » Choisir les acteurs et tiers que lon veut exporter On peut cocher un par un Choisir uniquement dans les acteurs racine Sélectionner des acteurs: par nom de tiers par nom de type par nom de participant par nom dannotateurs

18 F ENÊTRE DE CHOIX DU FORMAT DE SORTIE On peut limiter lintervalle de temps exporté On peut inclure le temps du média principal (pour les décalages et les synchronisations) On peut exclure les noms de tiers ou des participants ou avoir une colonne séparée par piste: les tiers ayant les mêmes débuts et fins sont mis sur la même ligne On peut choisir le type dinformation temporelle fournie

19 E XEMPLE D INSERTION DANS EXCEL On extrait un seul fichier (Madeleine ) et seulement les données de CHI On choisi de ne pas exclure les noms des participants et tiers On prend toutes les informations temporelles On met en UTF8 dans le fichier mad1.txt

20 R ÉSULTAT

21 A VEC LES CHAMPS SUPERPOSÉS SUR UNE MÊME LIGNE ( SUR DES COLONNES DIFFÉRENTES )

22 I NSERTION DANS E XCEL Créer une feuille vierge dans Excel Aller dans « Données » et « à partir du texte » Choisir le fichier Choisir lencodage (UTF8) Choisir délimité par des tabulations seulement Insérer dans la fenêtre courante

23 I NSERTION DANS E XCEL

24 I NSERTION DANS L IBRE O FFICE Equivalent gratuit de Excel (Calc) Moins de fonction mais gratuit et na pas de bugs dans la gestion des codepages (accents). Aussi efficace que CLAN pour la saisie et la mise en forme Ouvrir le fichier.csv ou.xls dans LibreOffice Attention ne fonctionne pas pour les fichiers.txt, car LibreOffice croit que cest un fichier Document de type Word(il faut alors le renommer avec une extension.csv) Utiliser lutilitaire dimportation de texte pour choisir: Le codepage (UTF8) Les délimiteurs (tabulation et autres) Le type de chaque colonne

25 E DITION DE TEXTE Tous les extractions de texte brut sont lisibles et peuvent être éditées par des logiciels dits dédition de texte brut comme: Notepad++ (windows) JEdit (Windows, Mac, Linux) TextWrangler (Mac) Notepad++ et TextWrangler permettent de modifier le codepage (la gestion des accents) pour corriger des incompatibilités apparaissant avec les autres logiciels Si les fichiers sont au format tableur avec une séparation de colonnes réalisée avec une tabulation, alors il est possible de faire directement des copier-coller vers les tableurs (et inversement) Ils permettent des modifications rapides et systématiques avec des macros (Notepad++, JEdit).

26 UTILISATION DE TXM

27 U TILISATION DE LOGICIELS DE TEXTOMÉTRIE Avantages: Conçus pour analyser des grandes quantités de texte. Permettent de construire des lexiques, dutiliser des concordanciers, de chercher des cooccurrences, danalyser les textes et dans certains cas de faire le lien avec des logiciels de statistiques. Inconvénients: Pas toujours conçus pour travailler sur les interactions ou nécessite une adaptation des données. Lutilisation de fichiers structurés ou danalyse syntaxique nécessite souvent une mise au point semi- manuelle.

28 I NSTALLATION DE TXM TXM sinstalle de façon simple et automatique. Seule linstallation de TreeTagger doit se faire séparément à la main pour des raisons de droit de licence (TreeTagger est limité à lutilisation non commerciale, ce qui nest pas le cas de TXM). Voir Trois étapes: Installer le programme dans un répertoire de votre choix Télécharger et dézipper Installer les fichiers paramètres linguistiques (les données de lanalyseur) Télécharger et dézipper Aller dans TXM, Préférences, TXM, Advanced, NLP, TreeTagger et préciser les emplacements ou vous avez dézippé le programme et les données Il est possible dutiliser lapprentissage de TreeTagger spécifique pour loral développé à Nancy:

29 C HARGEMENT DEPUIS TXM TXM permet une importation simple depuis un ensemble de fichiers texte On va créer deux corpus, un contenant les productions de lenfant, lautre celles des personnes qui entourent lenfant Corpus de Madeleine (Paris Corpus, CHILDES) flo -d *.cha kwal +t*CHI +d +fchi *.flo.cex kwal -t*CHI +d +fadu *.flo.cex longtier *.flo.chi.cex longtier *.flo.adu.cex Renommer tous les fichiers dans une extension.txt Peut se faire avec les commandes de clan: ren *.flo.chi.longtr.cex *_chi.txt +tTEXT ren *.flo.adu.longtr.cex *_adu.txt +tTEXT chstring -w +s"+" "-" +y +1 *.txt remplace les + par des - Résultat: 35 fichiers *_chi.txt et 35 fichiers *_adu.txt

30 I MPORTATION DEPUIS TXM TXM importe tous les fichiers dun répertoire en une seule passe. Il faut donc organiser les données en fonction de limportation désirée. On peut plus tard créer dans TXM des sous-corpus. Plusieurs formats sont possibles: Texte brut XML/w (fichier contenant des balises ) Transcriber A limportation il est possible dindiquer: Le codepage, la langue (nécessaire !) La manière de découper en mots (valeurs pour les espaces, les ponctuations, les élisions, les fins dénoncés) Il est possible de joindre des métadonnées

31

32 U TILISATION DE TXM Lespace de travail est divisé en trois zones Corpus Présentation des données Console (information, notification des erreurs)

33 F ONCTIONS PRINCIPALES DE TXM Accessible en faisant un clic droit de la souris sur le nom dun corpus dans la partie gauche Variable selon les commandes possibles pour un corpus Description Lexique Index Concordance Cooccurrences

34 D ESCRIPTION Indications générales sur le nombre de mots ou dunité. Permet de contrôler les structures gérées par TXM.

35 L EXIQUE Affichage de lensemble des mots du corpus ou sous-corpus Trier par ordre alphabétique ou fréquence Filtrer par niveau de fréquence Déterminer la quantité de mots affichés par page Cliquer sur une ligne amène à loutil Concordances

36 L EXIQUE : AUTRES ÉLÉMENTS Le lexique peut être généré à partir dautres éléments (cliquer sur edit) Catégories part of speech Lemmes Mots

37 I NDEX Même type daffichage que « lexique » mais se construit à partir dun requête quelconque Combinaison de propriétés Cliquer sur « Editer » Sélectionner les propriétés à gauche pour les mettre à droite et les organiser en hiérarchie. Requêtes CQL [frlemma="pouvoir"]

38 R EQUÊTES I NDEX

39 C ONCORDANCES Les fenêtres de concordances affichent des items et leurs contextes gauches et droits On peut y accéder en faisant une requête directement dans une visualisation de lexique ou dindex Clic droit de la souris Choisir concordance On peut ouvrir directement une fenêtre de concordances dans le menu corpus

40 C ONCORDANCES Requête CQL Forme cible Contexte gauche Contexte droit

41 C ONCORDANCES Formes cible Choix des propriétés Eléments de tri Trier !

42 C OOCCURRENCES On ouvre directement une fenêtre de concordances dans le menu corpus et on fait une requête CQL (sur un mot simple ou une requête complexe) Requête Mot pivot Requête Mot pivot Cooccurrents Propriétés Taille du contexte Distance entre pivot et mot

43 P ARAMÈTRES DES COOCCURRENCES Fréquences du mot contexte et de la cooccurrence Fréquence cooccurrent Co-fréquence

44 P ARAMÈTRES DES COOCCURRENCES Taille du contexte gauche et droit Distance entre pivot et cooccurrence à gauche Accéder aux cooccurrences Distance entre pivot et cooccurrence à droite

45 A FFICHAGE DES CONCORDANCES DE COOCCURRENCE

46 R EQUÊTES CQL Ces requêtes sont utilisées pour toutes les commandes de recherche de TXM (CQL = Corpus Query Language) Requête de base: Un seul mot sans autre indication ! Requête avancée: Une propriété et une valeur [word="autre"] Plusieurs valeurs de suite [word="autre"][word="fois"] [frpos="DET:pos"][frpos="NOM"] [frpos="det:pos"%c][frpos="nom"%c] la même chose sans tenir compte de la casse Expressions régulières [word="au.*"] mots commençant par au et de fin quelconque [word="au."] mots commençant par au suivis dune seule lettre [word="au.?"] mots commençant par au suivis de une ou zéro lettre

47 R EQUÊTES CQL ou | paix|guerre paix ou guerre [frpos="NAM|NOM"] catégorie NAM ou NOM et & [frlemma="pouvoir" & frpos="NOM"]

48 R EQUÊTES CQL SUR PLUSIEURS MOTS [frlemma="il"][][frlemma="avoir"] [frlemma="un"] Un mot quelconque entre « il » et « avoir un » [frlemma="il"][]?[frlemma="avoir"] [frlemma="un"] Un mot quelconque ou rien entre « il » et « avoir un » [frlemma="il"][][][][frlemma="avoir"] [frlemma="un"] Trois mots quelconques entre « il » et « avoir un » [frlemma="il"][]{0,3}[frlemma="avoir"] [frlemma="un"] Un mot quelconque entre « il » et « avoir un »

49

50

51

52

53 F RENCH T REE T AGGER P ART - OF -S PEECH T AGS -- A CHIM S TEIN, A PRIL 2003 ABR abreviationPRO:DEM demonstrative pronoun VER:cond verb conditional ADJadjectivePRO:IND indefinite pronoun VER:futuverb futur ADVadverbPRO:PER personal pronoun VER:impeverb imperative DET:ARTarticlePRO:POS possessive pronoun (mien, tien,...) VER:impfverb imperfect DET:POS possessive pronoun (ma, ta,...) PRO:RELrelative pronounVER:infiverb infinitive INTinterjectionPRPprepositionVER:pper verb past participle KONconjunctionPRP:det preposition plus article (au,du,aux,des) VER:ppre verb present participle NAMproper namePUNpunctuationVER:presverb present NOMnounPUN:cit punctuation citation VER:simpverb simple past NUMnumeralSENTsentence tagVER:subi verb subjunctive imperfect PROpronounSYMsymbolVER:subp verb subjunctive present

54 A UTRES FONCTIONS AVANCÉES DE TXM Progression Graphique montrant la progression des occurrences dans un texte À appeler depuis Lexique ou le menu principal Cumulatif ou non cumulatif

55 P ROGRESSION CHEZ L ENFANT

56 P ROGRESSION CHEZ L ADULTE

57 A UTRES FONCTIONS ( SUITE ) Spécificités Différences entre une partie de corpus et le reste du corpus Spécificité pour le sous-corpus Enfant (obtenu en sélectionnant seulement les transcriptions de lenfant) et le reste du corpus de Madeleine A utiliser à partir du menu clic droit depuis le sous-corpus

58 A UTRES FONCTIONS ( SUITE ) Références Génère toutes les fréquences pour les différents résultats dune requête Partitions Création de partitions à partir déléments structurels AFC: analyse factorielle des correspondances dune partition Classification hiérarchique Nécessite une AFC et une partition Table lexicale Unité lexicale dune partition

59 E XPORTS Il est possible dexporter les résultats de TXM dans plusieurs formats selon le cas: CSV (résultats) SVG (graphiques) XML (résultats pour réaffichage dans TXM) Utiliser clic droit de la souris dans les objets de gauche ou cliquer sur les icones en haut à gauche (présents en fonction du contexte)

60 E DITION DES CORPUS À L AIDE D OUTILS AUTOMATIQUES OU SEMI - AUTOMATIQUES

61 A LLER PLUS LOIN Pour de nombreux outils, les formats standards issus des conversions depuis les logiciels dannotation ne suffisent pas. Par TXM tire parti de la structuration de Transcriber mais ne le fait pas pour CLAN et ELAN, ou pour des fichiers textes. Il est possible de manipuler et éditer des textes en utilisant des langages de programmation adaptés: R, Perl, Python, AWK Il est possible de faire certaines manipulations systématiques avec des éditeurs de texte disposant de macros.

62 E XEMPLE : STRUCTURE DES MOTS DANS TXM Il est intéressant de rajouter de la structure de mots dans TXM pour créer par exemple un corpus mélangeant ladulte et lenfant, et pouvoir accéder aux différents âges. Lidée est dajouter à chaque mot linformation du locuteur et de lâge de lenfant. Le format passe de.txt à.xml Les mots deviennent, par exemple: chat Une ligne complète devient: *CHI: cest des épinards. c'est des épinards.

63 P ROGRAMMATION DANS R T RAITEMENT D UN FICHIER PAR : TOXML ( NOMFICHIER, NOM - REFERENCE, AGE ) toxml <- function(fn, nom, age) { d <- scan(fn, what='char', sep="\n") cat( " \n" ) cat( " \n", sep="" ) for (l in d) { ws <- unlist(strsplit(l, "\\s")) loc <- substr(ws[1], 2, nchar(ws[1])-1) cat( " ", sep="" ) for (k in ws[2:length(ws)]) { cat( " ", k, " ", sep="" ) } cat(" \n") } cat(" \n") }

64 L ANCEMENT DANS R setwd('/corpusoraux/madeleine_all/') files <- list.files(pattern="*.txt") for (f in files) { newfn <- substr(f,1,nchar(f)-4) age <- substr(f,14,nchar(f)-4) fnout <- paste(newfn, ".xml", sep="") sink(fnout) toxml(f, newfn, age) sink() }

65 D ÉPART

66 R ÉSULTAT U TILISATION DE XML/ W POUR L IMPORTATION DES DONNÉES

67 P ERMET DE CAPTURER DES INFORMATIONS PLUS PRÉCISES DANS TXM: MOT + L OCUTEUR + AGE

68 E N SPÉCIFIANT L ENFANT

69 E N INTERDISANT L ENFANT

70 D AUTRES POSSIBILITÉS Utiliser les structures dénoncés inscrites dans le format xml : Facilite la tâche pour faire des sous-corpus ou partitions Permet dutiliser les limites de lénoncés dans les recherches [word="je"][]*[word="que"] Recherche de toutes les parties du corpus allant dun je à un que, y compris à travers des frontières dénoncés [word="je"][]*[word="que"] within s Recherche de toutes les parties du corpus allant dun je à un que, mais en limitant à lintérieur dun énoncé

71

72 C RÉATION DE SOUS - CORPUS OU DE PARTITIONS Choisir une structure et la valeur de sa propriété Le résultat est une partie de corpus sur lequel on peut travailler sans spécifier le locuteur Index, concordances, etc.

73 UTILISATION DE TABLEUR

74 I MPORTATION DEPUIS EXCEL ( FICHIER AVEC DES TABULATIONS ) Partir dune feuille de tableur on peut avoir des colonnes avec des indications temporelles des noms dacteurs ou de tiers des valeurs dannotation Elan permet de fixer la valeur de chaque colonne lors de limportation Attention le fichier importé doit être en UTF8

75 U TILISATION DE TABLEUR Lextraction de données de textes permet de travailler directement dans un tableur: Permet de coder des données plus complexes que dans certains logiciels de transcription Selon les préférences individuelles on utilisera lun ou lautre

76 U TILISATION DE TABLEUR POUR LE CODAGE Avantages: On peut utiliser des contrôles de données (vocabulaire, type de données, intervalles) assez complexes. On peut générer des données complémentaires On peut réaliser des statistiques de base On peut facilement exporter les résultats vers des logiciels de statistiques Inconvénients: Sauf adaptation spéciale, on ne peut plus accéder au sons ou vidéos originales Il est complexe de repartir des données de tableur et de reconstruire des transcriptions classiques

77 E XEMPLE DE MACROS EXCEL POUR ACCÉDER AUX VIDÉOS Si on dispose du nom du film et du nombre de seconde correspondant à un énoncé (ce format peut être obtenu avec Elan à condition déditer le fichier résultat), on peut utiliser un outil vidéo pour jouer directement la vidéo ou le son. Conditions: Première colonne de Excel donne le nom du fichier média Deuxième colonne de Excel donne le nombre de secondes correspondant à la scène Fichier de type excel.xlsm permettant lusage des macros et macros autorisées (voir fichier exemple utilisation_excel.xlsm à utiliser comme base dans la quelle ajouter les nouvelles informations)

78 C ONTENU DE LA MACRO Public Sub affvideo() ActiveCell.EntireRow.Select ActiveCell.Offset(0, 1).Select ActiveCell.Offset(0, -1).Select f = ActiveCell.Value ActiveCell.Offset(0, 1).Select l = ActiveCell.Value #If Mac Then chemin = Replace(ActiveWorkbook.Path, ":", "/") p = "do shell script ""/Applications/VLC.app/Contents/MacOS/VLC " & "\""VOLUMES/" & chemin & "/" & f & "\"" --start-time=" & l & " --video-on-top --aspect-ratio 16:9""" MacScript (p) #Else p = "C:\Program Files (x86)\VideoLAN\VLC\vlc.exe """ & ActiveWorkbook.Path & "\" & f & """ --start-time=" & l & " --video-on-top --aspect-ratio 16:9" Shell (p) #End If End Sub

79 E XEMPLE DE CODAGE ET D UTILISATION Etude de la structure argumentale sur 6 verbes Codage: Verbe Forme grammaticale Temps Personne Argument Nombre darguments

80 E XEMPLE DE CALCUL STATISTIQUE DESCRIPTIF C RÉATION D UNE TABLE DE DONNÉE Analyse descriptive Décrire et compter les données en fonction de différentes catégories Exemple du fichier arguments.xlsx Feuille Enfants-6verbes Créer un tableau croisé dynamique (cliquer sur licone tableau croisé dynamique dans insertion ou données) Oter les variables positionnées par défaut pour démarrer sur un tableau vide

81 M ETTRE DES VARIABLES DANS LE TABLEAU enfant en étiquettes de lignes verbe en étiquettes de colonnes verbe en somme de valeurs (NB: nombre) Remplacer verbe par P (personnes) et nbargs (nombre darguments) 147 verbes à la première personne et avec 2 arguments NB sur verbeÉtiquettes de colonnes Étiquettes de lignesattendrediredonnerenlevermettretenirTotal léonard madeleine théophile Total NB sur verbeÉtiquettes de colonnes 1Somme 12Somme 23Somme 3 Étiquettes de lignes léonard madeleine théophile Total

82 R APPORTS ENTRE PERSONNE ET NOMBRE D ARGUMENTS P (personne) en étiquettes de lignes nbargs en étiquettes de colonnes NB sur verbeÉtiquettes de colonnes Étiquettes de lignes01234Total (vide) Total

83 POUR LES TROIS ENFANTS Mettre une variable (enfant) en filtre de la totalité du tableau Choisir Léonard Choisir Madeleine Choisir Théophile NB sur verbeÉtiquettes de colonnes Étiquettes de lignes0123Total (vide)3418 Total NB sur verbeÉtiquettes de colonnes Étiquettes de lignes01234Total (vide) Total NB sur verbeÉtiquettes de colonnes Étiquettes de lignes0123Total (vide)11 Total

84 P LUS GRAND EXEMPLE Corpus de Rhapsodie (http://projet-rhapsodie.fr/ )http://projet-rhapsodie.fr/ Téléchargement possible des fichiers textGrid (Praat), sons, et autres. Tous ces fichiers peuvent être convertis en EAF (ELAN) puis exportés en fichier séparé par des tabulations par ELAN. Ce fichier (.csv) peut être directement importé dans Excel.

85 L E TABLEAU CONTIENT ÉLÉMENTS ( LE NOMBRE D OBJETS P RAAT DE L ENSEMBLE DU CORPUS )

86 O N PEUT UTILISER LES TABLEAUX CROISÉS SUR LES LIGNES POUR FAIRE DES STATISTIQUES

87 I NSERTION DANS R Un des avantages majeurs de lutilisation de tableurs est de préparer les données pour leur utilisation dans un logiciel de statistiques Enregistrer une feuille en texte (séparateur: tabulation).txt

88 L OADING DATA WITH R R has a lot of functions that are just build to deal with tables: read.table, write.table table, prop.table, xtabs, … Computing statistical measures Drawing graphics setwd('/corpusoraux/workshop-2013/') t <- read.delim("arguments-enfants.txt") table(t$P, t$nbargs) Same as before with Excel

89 Q UELQUES STATISTIQUES > table(t$enfant,t$nbargs) résultats bruts leonard madeleine theophile > round(prop.table(table(t$enfant,t$nbargs),1),2)*100 pourcentages leonard madeleine theophile > chisq.test(c(65,35,51,19),c(257,129,265,104)) pas de différence entre léonard Pearson's Chi-squared test et madeleine data: c(65, 35, 51, 19) and c(257, 129, 265, 104) X-squared = 12, df = 9, p-value = > chisq.test(c(65,35,51,19),c(38,23,48,7)) pas de différence entre léonar d Pearson's Chi-squared test et théophile data: c(65, 35, 51, 19) and c(38, 23, 48, 7) X-squared = 12, df = 9, p-value = > chisq.test(c(257,129,265,104),c(38,23,48,7)) pas de différence entre madeleine Pearson's Chi-squared test et théophile data: c(257, 129, 265, 104) and c(38, 23, 48, 7) X-squared = 12, df = 9, p-value =

90 E T UN GRAPHIQUE > barplot(prop.table(table(t$enfant,t$nbargs),1), beside=T, legend=c('leonard','madeleine','theophile)

91 Editer le fichier tableur et exporter la feuille Convertir le format si nécessaire Choisir le format de chaque colonne Résultat dans ELAN I MPORTER DE E XCEL VERS E LAN

92 A UTRES IMPORTATIONS Il est possible dimporter depuis Transcriber (fichier de transcription), depuis Praat, depuis CLAN. Les importations depuis des CSV (fichiers séparés par des tabulations) peuvent être répétées successivement en tirant parti de la fonction « Fusionner les transcriptions » (menu Fichier) elle permet de superposer deux transcriptions et de mettre le résultat dans un nouveau fichier ce qui permet de faire plusieurs traitements ou transcriptions successives


Télécharger ppt "U TILISATION DE CORPUS DE LANGAGE ORAL AVEC D AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre."

Présentations similaires


Annonces Google