Le logiciel HYPERBASE-LATIN :

Slides:



Advertisements
Présentations similaires
Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Advertisements

Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6.
Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
Utilisation du logiciel EduStat © Distribution de fréquences simples Les compilations.
Cycle élémentaire Année scolaire Classe de 6 e Discipline : Français Professeur : Andressa Bitar.
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
2 Outils de l’analyse textuelle « CORENLP » Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Ibn Khaldoun – Tiaret faculté.
10. Le groupe verbal.
IRaMuTeQ : Fondements et applications
RobEcolo Conception de Robots industriels à base de matériaux à faible impact Ecologique LIMBHA IRCCyN Clément Boudaud1, Sébastien Briot², Lila Kaci²,
Valeurs de toutes les différences observables sous H0
Utiliser la vidéoprojection en SES

Session 1 6 mars 2017 Plateforme ICONICS Justine Guégan
Les écolabels Ecolabel français Ecolabel européen.
Reprise du cours ( ) Aujourd’hui :
Présentation générale de la réforme
Activités algorithmiques
corpus spéciale et spécialisée
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
Apprendre des mots au cycle 2 Quelle progression ?
Utiliser des caractéristiques de position et de dispersion
Techniques du Data Mining
E.DUVELSON, Y. BOUNOUARA, D. LEGROS
Windev.
3 MOIS DE FORMATION 1 MOIS DE STAGE EN ENTREPRISE prÉsentation …
Stabilité des porteurs horizontaux (Poutres)
Pourquoi étudier la statistique ?
Formation sur les bases de données relationnelles.
Techniques du Data Mining
Évaluation Adresse de connexion à l’application web académique
Chapitre 3 : Caractéristiques de tendance centrale
Atelier sous régional sur l'intégration des données administratives, des données de masse et des informations géospatiales pour la compilation des indicateurs.
Programmation Android Première application Android
Thèmes de convergence 10/11/2018.
L1 Technique informatique
LES TERRITOIRES ULTRAMARINS DANS LES PROGRAMMES DU SECONDAIRE
Programme financé par l’Union européenne
Claire Marbot Catherine Pollak DREES Journées EMOIS 2015
Enseignement d’exploration
LES TRACES ECRITES Explorer le monde, enseigner les sciences à la maternelle Dakar du 11 au 13 avril 2018.
May 4th – 5th 2009, Rabat, Morocco
Introduction à l’utilisation des corpus
Les indices simples Définition
Langages de programmation TP11
De Scratch à Python : une transition douce… COMMUNICATION
Prévalence du cancer - méthodologie
STAT D103 Esteban Callejas Perez H.4.145
Le code de Huffman: est une méthode de compression statistique de données qui permet de réduire la longueur du codage d'un alphabet. Le code de Huffman.
La recherche avancée.
chapitre 3 Les Statistiques
Le « soin » pensé au nom des personnes handicapées
Chapitre 8 : Organisation et gestion de données
Jean-Sébastien Provençal
Mathématiques.
Réforme du lycée Objectif général :
Elles contiennent des informations autre que géométriques
Daniel Leduc Lise Pouliot Sylvain Bourdeau
Le bachibac ? Qu’est-ce que c’est ?
Enseignement de spécialité
ReSAKSS Country eAtlases
DIABETE GESTATIONNEL: DEVENIR EN POST-PARTUM Y. Driouich; S. El Aziz; S. Bensbaa; A. Chadli * Service d’ Endocrinologie, Diabétologie et Maladies.
Sigle optionnel en français FBD
Présentation projet de fin d’études
Variables statistiques discrètes
I. Aouichak, I. Elfeki, Y. Raingeaud, J.-C. Le Bunetel
Observation Réfléchie de la Langue.
Les données structurées et leur traitement
spécialité mathématiques Première
Transcription de la présentation:

Le logiciel HYPERBASE-LATIN : Un outil de traitement automatique des textes latins lemmatisés et étiquetés Sylvie Mellet

Le logiciel HYPERBASE-LATIN Logiciel HYPERBASE, d’exploration documentaire et de traitement quantitatif des grands corpus textuels : initialement conçu pour le français par É. Brunet au sein de l’UMR 6039 BCL (“Bases, Corpus et Langage”, Nice). Adaptation aux textes de la littérature latine classique : conçue et coordonnée par S. Mellet, BCL - UMR 6039. Fichiers latins : numérisés et lemmatisés au Laboratoire d’Analyse Statistique des Langues Anciennes (LASLA) de l’Univ. de Liège (J. Denooz, G. Purnelle).

Plan Les atouts de la lemmatisation pour la recherche documentaire Les traitements quantitatifs et les calculs statistiques - calculs de spécificités - graphiques de distribution - constitution et exploitation de listes La structuration de la base de données - deux contraintes - essai de compensation Conclusion

1. Les atouts de la lemmatisation pour la recherche documentaire Regroupement de toutes les formes graphiques relevant d’un même lemme (fero, tuli, latum) Levée d’homonymie (dico1 = dicare ; dico2 = dicere) et désambiguïsation de la catégorie grammaticale (ad1 = adverbe ; ad2 = préposition) Recherche en contexte de catégories grammaticales et de structures syntaxiques Possibilité de croiser les critères lexicaux et grammaticaux

1.1. Regroupement de toutes les formes graphiques relevant d’un même lemme (fero)

1. 2. Levée d’homonymie (dico, dicere vs 1.2. Levée d’homonymie (dico, dicere vs. dico, dicare; ad préposition vs. ad adverbe)

1.3. Recherche en contexte de catégories grammaticales et de structures syntaxiques Exemple de requête : pronom relatif + pronom réfléchi + verbe

1.3. Recherche en contexte de catégories grammaticales et de structures syntaxiques : résultats de la requête précédente

1.4. Croisement de critères : le lemme tandem dans la structure adverbe interrogatif + adverbe

2. Les traitements quantitatifs 2.1. Les calculs de spécificités sur codes grammaticaux: l’exemple des Annales de Tacite

2. Les traitements quantitatifs 2.2. Les graphiques: l’exemple de la distribution du subjonctif à travers le corpus

2. Les traitements quantitatifs 2. 3. Proximité des textes selon leur emploi des modes verbaux

Statistique linguistique et traitement des catégories grammaticales Des caractéristiques distributionnelles spécifiques - les catégories grammaticales majeures sont toujours largement représentées dans tous les textes - une catégorie à très faible effectif peut présenter des écarts particulièrement pertinents L’outil TAL devient un aiguillon méthodologique à valeur heuristique - calculer les distances textuelles sur les écarts de fréquence et non pas sur le ratio présence / absence de la variable - calculer les distances textuelles à partir d’un classement ordinal des textes effectué en fonction de la densité de la variable dans chacun d’eux Référence : Luong X. & Mellet S., 2003. « Mesures de distance grammaticale entre les textes », Corpus 2 : 141-166.

3. L’organisation de la base textuelle Deux contraintes : La propriété intellectuelle du LASLA qui fournit un corpus clos, non manipulable, difficile à personnaliser et à enrichir en raison de la lourdeur du codage morpho-syntaxique Le fonctionnement du logiciel HYPERBASE qui travaille sur des données numériques prétraitées, ce qui suppose : un corpus de référence fixe une partition préalable du corpus Essai de compensation : La multiplicité des bases La fonction « choix du corpus »

4. Conclusion Un logiciel performant qui a bénéficié de : - 40 ans de travail de lemmatisation au LASLA - 10 ans de développement logiciel à Nice Dont les performances les plus spécifiques sont : - d’associer les traitements quantitatifs aux recherches documentaires et même de les imbriquer étroitement - d’appliquer tous ses programmes aussi bien aux formes graphiques qu’aux lemmes et aux codes morpho-syntaxiques Mais qui a aussi des limites : - le caractère figé des corpus - l’unicité du support (PC sous Windows)