Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCampion Jacquot Modifié depuis plus de 10 années
1
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université de Rouen Laboratoire DySoLa (Dynamiques Sociales et Langagières)
2
Processus d’informatisation du Dictionnaire français-kabyle(1902-1903) de Gustave Huyghe
Numérisation Récupération des données textuelles Structuration des données Constitution d’une base de donnée interrogeable
3
Notre étude Objectifs de l’étude
Proposer une méthodologie de structuration de corpus lexicographiques bilingues Accès libre à une ressource linguistique difficilement consultable Valorisation du patrimoine écrits franco-algérien Constitution d’une base de données lexicales au service des recherches fondamentales Pourquoi le choix du dictionnaire bilingue de Huyghe Il n’existe aucune tentative d’informatisation de dictionnaires bilingues anciens Le dictionnaire français-kabyle foisonne d’exemples qu’il était souhaitable d’interroger séparément du texte Il est représentatif de l’idéologie véhiculée par le pouvoir colonial Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
4
Caractéristiques du projet
Un projet pluridisciplinaire faisant coopérer: Informaticiens (INSA de Rouen) Numérisation du dictionnaire papier au format électronique Extraction de données textuelles Structuration et gestion XML des données Constitution d’une base de données lexicales Linguistes Analyser et décrire la structure linguistique des articles du dictionnaire Annoter les informations microstructurelles Découper les articles en différents champs: vedettes, informations grammaticales, traduction, marques d’usages, exemples, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
5
Numérisation et récupération des données textuelles
Numérisation par la bibliothèque universitaire de Grenoble (SICD 2) Document scanné au format PDF-image Reconnaissance optique de caractères Conversion du format PDF-image en format texte Utilisation du logiciel OCR Omnipage 18 Vérification et contrôle du texte Relecture et correction des erreurs de reconnaissance Préservation des caractéristiques typographiques du texte original Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
6
Structuration des données
Codage du document textuel en XML Codage automatique Spécification typographique Vedettes (Bookman Old Style, gras, 14) Marques d’usage (h. [habitude], p. ou pl. [pluriel], litt. [littéralement], etc.) Exemples (Ex.: ) Tournures (Tourn.) Remarques (Rem.) Expressions (Expr.), Limites des articles, etc. Usage d’expressions régulières Annotation et pose de balises Conversion au format XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
7
Structuration des données
Codage semi-automatique Utilisation d’un éditeur XML (Adobe FrameMaker) Compléter le fichier XML issu du premier traitement Insérer des balises et marqueurs aux endroits voulus Balisage des éléments restants Blocs sémantiques Indicateurs sémantiques Contexte d’usage Vérification et validation du document XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
8
L’interface utilisateur
Trois modes de consultation Recherche simple S’effectue sur une entrée de la nomenclature Donne accès à l’article lui correspondant Recherche plein texte S’effectue dans le texte intégral Trouve toutes les occurrences du mot recherché Affiche à l’écran la liste des résultats trouvés Recherche avancée Effectuer des recherches expertes ciblées au moyen de critères multiples Possibilité de combiner plusieurs critères catégories grammaticales Exemples Expressions Equivalents kabyles Forme d’habitude, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
9
Conclusion Ressources informatisées pour les langues africaines
Base de données lexicales importantes du point de vue historique et patrimonial Soutien précieux aux recherches fondamentales, notamment en métalexicographie Accès au grand public à une ressource peu disponible Valorisation des langues peu dotées en ressources informatisées Possibilité d’actualisation des ressources lexicales anciennes pour constituer des outils lexicographiques modernes Beaussier De Foucauld Dallet
10
Merci de votre attention
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.