La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL.

Présentations similaires


Présentation au sujet: "Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL."— Transcription de la présentation:

1 Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL

2 Objectifs Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus : –Forme des titres (avec différents niveaux de détail) –Niveau de hiérarchie –Reprises (occurrences et position)

3 Etapes du travail Constitution d'un corpus de départ Extraction des titres (Perl) Extraction des informations sur les titres (Perl) Extraction des reprises (Perl) Conditionnement des données extraites pour Access Fabrication et remplissage de la base

4 Corpus de départ Constitué de 2 textes : –L'HDR de C. Jacquemin (138120 mots) –Le chapitre E/A de P. Rigaux (6315 mots) Format des textes : balisage XML

5 Perl (1) Programmes pour extraire les informations des textes : –Utilisation d'expressions régulières –Utilisation des balises pour le repérage et l'extraction des titres et de leur niveau de hiérarchie –Repérage et extraction des reprises totales et des mots composant les titres

6 Perl (2) Stockage dans des fichiers "texte brut" Mise en forme des information pour automatiser le renseignement de la base de données : Information 1Information 2Information 3 Tab etc. La tabulation servira à séparer les différents champs dans la table

7 La base de données Composée de tables, de requêtes et de formulaires Les tables contiennent toutes les informations extraites par les programmes perl Les enregistrements sont créés à partir des tables et servent à organiser les informations d'une ou plusieurs tables ou d'autres requêtes Les formulaires permettent de présenter les informations ou de faciliter l'entrée de nouvelles informations dans la base

8 Les tables La base contient 11 tables : –La table Titres qui contient 6 champs : texteniveauoccurrencerepriseformeN° Id –La table Reprise qui contient 6 champs : occurrencereprisepositionposition chiffréetypeN° Id –La table Corpus qui contient 6 champs : corpustextetailletypegenreN° Id –8 tables Forme (SN, SP, SV, SAdj, Formel, >Syntagme, Phrase, PropSub) : Ex : Forme_SN : texteoccurrencetype de SNN° Id

9 Les requêtes Les tables et les requêtes sont liées entre elles Les requêtes permettent d'organiser les informations de la base Exemple : Requête pour savoir combien de SN introduits par un article défini sont présents dans chaque texte du corpus

10 Les formulaires Ils permettent de mettre en forme et de présenter les informations de la table Ils permettent aussi de rentrer de nouvelles informations dans la table

11 Objectifs (ce qu'il reste à faire) Renseigner la "position chiffrée" dans la base pour les reprises Inclure dans la base les annonces de titre Inclure dans la base les reprises anaphoriques Adapter la base aux besoins du projet Ajouter des textes au corpus Analyser la base


Télécharger ppt "Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL."

Présentations similaires


Annonces Google