Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.

Slides:



Advertisements
Présentations similaires
Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.
Advertisements

Accueil du public Déficient visuel. Quel est sa déficience visuelle ? Quelles solutions techniques ? - Quel est son niveau en informatique ? - Quelles.
Aides logicielles à l'écriture
Echanges de Données Informatisées LABOratoires-commanditaires
Echanges de Données Informatisées LABOratoires-commanditaires
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Niveau Intermédiaire 12/01/ Visualiser votre groupe de TD ( Visualiser mon emploi du temps) 12/01/
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
06 Juillet 2009 Projet Checker daccessibilité de fichiers SVG Rami BALI Toufic HADDAD Aroussia MAADI Encadrants Annie DANZART Christine POTIER Jérôme HUGUES.
Domaines nominaux XSLT
version Beta Marie Calberg Ninni Louhelainen SLFN7
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Travaux pratiques sur Nooj
Plateforme de revues et d’articles en sciences humaines et sociales
ASA Algerian scientific Abstracts المستخلصات العلمية الجزائرية
Vue générale de Sharpdesk
C. FORESTIER Journée d'étude sur les Archives Ouvertes Couperin 21 mai 2007 THESES EN LIGNE : comment faire simple !
Appel doffres DAFPEN
CDI Lycée Marguerite Yourcenar La recherche d’information
COPIL SINP 28/03/2014 PRÉSENTATION DES APPLICATIONS OGAM (WEB ET NOMADE)
Annotations sémantiques pour le domaine des biopuces
Plate-forme d’enseignement Moodle
- Projet LO43 - Médiathèque
© Nuance Communications, Inc. Tous droits réservés. Page 1 OmniPage Ultimate mai 2013.
26 situations simples autour d'un texte court
CALENDRIER DE CONSERVATION ET COURRIELS MRCI ET RÉSEAU DES WEBMESTRES VENDREDI, LE 20 SEPTEMBRE 2002 JEUDI, LE 26 SEPTEMBRE 2002 MICHEL LÉVESQUE.
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le projet de terminologie
OPTIMA, 6 novembre 2008, BnF 1 un outil daide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d I nformatique, T raitement.
Projet TEMPUS-ISTMAG Archives institutionnelles des universités maghrébines LRHOUL Hanae Coordinatrice nationale du projet ISTeMag Maroc
SUDOC (le catalogue des ouvrages, des thèses et des périodiques des bibliothèques françaises) Contenu Le catalogue du Système Universitaire de DOCumentation.
La veille numérique : un outil pour s'informer intelligemment &
TRAITEMENT INSTRUMENTÉ DE CORPUS
Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.
Date : Juillet 2014 Formation : TAI Formateur : Tayeb BENDJELTI
Plateforme L’Harmathèque Se connecter pour se faire reconnaître comme membre de l’UniNE via Vpn ou webaccess, ou en utilisant.
CONTRÔLE DES COMPTABILITÉS INFORMATISÉES
Ressources Internet liées à la CIB
Présenté par : Jabli Mohamed Amine Brahim Raddaoui
English as a Second Language PROGRAMME DE FORMATION DE L’ÉCOLE QUÉBÉCOISE Faits saillants.
QUAND LES ÉLÈVES RACONTENT L’HISTOIRE NATIONALE QUESTIONS À L’ENSEIGNEMENT Questions de méthode Valérie Fontanieu, Ifé-ENS Françoise Lantheaume, ECP, Lyon.
France Bilodeau et Catherine Lamy 17 octobre 2014 La recherche dans les bases de données Repère, Cairn, Érudit et Google Scholar.
Bordeaux - Juin HAL – Le contenu / Les acteurs
Centre d’archivage des documents traduits
Les archives en ligne et l'histoire
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Bureautique M1 Mise en forme évoluée 2.
Méthodes et techniques
Dominique LAURENT Patrick SEGUELA
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
1 PAM – HTML5 - Sémantique. 2 Contexte Groupe IHE-PAM-Fr publie annuellement au format Pdf l’annexe française du profil PAM. Ce document contient la spécification.
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
La Mission Multimédia La revue Caravelle Le XML.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Dreamweaver Séance 1.
Introduction au HTML Qu’est ce que le HTML ?
1 er séance SI28 A2004 YIN Lei Emmanuel Eugene. Plan de l’exposé  Introduction au HTML  Le HTML dans le bloc-notes (notepad)  Présentation de Dreamweaver.
Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Transcription de la présentation:

Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université de Rouen Laboratoire DySoLa (Dynamiques Sociales et Langagières) mahfoud.mahtout@yahoo.fr

Processus d’informatisation du Dictionnaire français-kabyle(1902-1903) de Gustave Huyghe Numérisation Récupération des données textuelles Structuration des données Constitution d’une base de donnée interrogeable

Notre étude Objectifs de l’étude Proposer une méthodologie de structuration de corpus lexicographiques bilingues Accès libre à une ressource linguistique difficilement consultable Valorisation du patrimoine écrits franco-algérien Constitution d’une base de données lexicales au service des recherches fondamentales Pourquoi le choix du dictionnaire bilingue de Huyghe Il n’existe aucune tentative d’informatisation de dictionnaires bilingues anciens Le dictionnaire français-kabyle foisonne d’exemples qu’il était souhaitable d’interroger séparément du texte Il est représentatif de l’idéologie véhiculée par le pouvoir colonial Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

Caractéristiques du projet Un projet pluridisciplinaire faisant coopérer: Informaticiens (INSA de Rouen) Numérisation du dictionnaire papier au format électronique Extraction de données textuelles Structuration et gestion XML des données Constitution d’une base de données lexicales Linguistes Analyser et décrire la structure linguistique des articles du dictionnaire Annoter les informations microstructurelles Découper les articles en différents champs: vedettes, informations grammaticales, traduction, marques d’usages, exemples, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

Numérisation et récupération des données textuelles Numérisation par la bibliothèque universitaire de Grenoble (SICD 2) Document scanné au format PDF-image Reconnaissance optique de caractères Conversion du format PDF-image en format texte Utilisation du logiciel OCR Omnipage 18 Vérification et contrôle du texte Relecture et correction des erreurs de reconnaissance Préservation des caractéristiques typographiques du texte original Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

Structuration des données Codage du document textuel en XML Codage automatique Spécification typographique Vedettes (Bookman Old Style, gras, 14) Marques d’usage (h. [habitude], p. ou pl. [pluriel], litt. [littéralement], etc.) Exemples (Ex.: ) Tournures (Tourn.) Remarques (Rem.) Expressions (Expr.), Limites des articles, etc. Usage d’expressions régulières Annotation et pose de balises Conversion au format XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

Structuration des données Codage semi-automatique Utilisation d’un éditeur XML (Adobe FrameMaker) Compléter le fichier XML issu du premier traitement Insérer des balises et marqueurs aux endroits voulus Balisage des éléments restants Blocs sémantiques Indicateurs sémantiques Contexte d’usage Vérification et validation du document XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

L’interface utilisateur Trois modes de consultation Recherche simple S’effectue sur une entrée de la nomenclature Donne accès à l’article lui correspondant Recherche plein texte S’effectue dans le texte intégral Trouve toutes les occurrences du mot recherché Affiche à l’écran la liste des résultats trouvés Recherche avancée Effectuer des recherches expertes ciblées au moyen de critères multiples Possibilité de combiner plusieurs critères catégories grammaticales Exemples Expressions Equivalents kabyles Forme d’habitude, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

Conclusion Ressources informatisées pour les langues africaines Base de données lexicales importantes du point de vue historique et patrimonial Soutien précieux aux recherches fondamentales, notamment en métalexicographie Accès au grand public à une ressource peu disponible Valorisation des langues peu dotées en ressources informatisées Possibilité d’actualisation des ressources lexicales anciennes pour constituer des outils lexicographiques modernes Beaussier De Foucauld Dallet

Merci de votre attention