La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La base textuelle FRANTEXT

Présentations similaires


Présentation au sujet: "La base textuelle FRANTEXT"— Transcription de la présentation:

1 La base textuelle FRANTEXT
INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

2 Denitsa Daynovska, décembre 2009
Présentation Un important corpus de textes français, du XVI ème au XX ème siècle, saisis sur support informatique. Environ 3500 œuvres 80% d'oeuvres littéraires 20% d'ouvrages techniques de diverses disciplines scientifiques. Un logiciel de consultation. Denitsa Daynovska, décembre 2009

3 Denitsa Daynovska, décembre 2009
Pourquoi Frantext? Recherches utiles pour l’analyse linguistique Par exemple: étude des emplois du verbe sortir, étude des emplois du verbe sortir suivi d’une préposition, étude de la construction [Verbe + Préposition + Nom] etc. Recherches utiles pour l’analyse littéraire Chercher les passages où Balzac parle d’amour paternel dans « le Père Goriot » Denitsa Daynovska, décembre 2009

4 Présentation de Frantext
Version catégorisée moins de textes (1940 textes), étiquettes de catégories: nom, adjectif, adverbe, verbe, préposition… Version non catégorisée (Frantext intégral) Plus de 3 952 textes (avril 2009), Sans étiquetage. Denitsa Daynovska, décembre 2009

5 Présentation de Frantext
Denitsa Daynovska, décembre 2009

6 Denitsa Daynovska, décembre 2009
Le corpus de recherche Définir son corpus de travail, c'est choisir sur quels textes vous voulez travailler. Un choix selon les critères suivants: Auteurs, Titres, Date, Genre littéraire. Vous pouvez à tout moment: modifier le choix de textes, visualiser le détail de la bibliographie. Denitsa Daynovska, décembre 2009

7 Denitsa Daynovska, décembre 2009
Notion de session Lorsque vous ouvrez FRANTEXT, vous avez initialisé une session de travail. La session sera fermée et les fichiers seront effacés au bout de douze heures à compter du début de la session; Si vous revenez à la page d'accueil et cliquez à nouveau sur "ACTIVATION DE FRANTEXT", vous initialisez alors une nouvelle session. Vous êtes alors considéré comme un nouvel utilisateur, et les fichiers que vous avez créés dans la session précédente deviennent inaccessibles; Il est conseillé de ne pas ouvrir Frantext dans plusieurs fenêtres pendant une même session. Denitsa Daynovska, décembre 2009

8 Définir le corpus de recherche
Denitsa Daynovska, décembre 2009

9 Avec ou sans Menus déroulants?
Denitsa Daynovska, décembre 2009

10 Sans « Menus déroulants »
Denitsa Daynovska, décembre 2009

11 Recherche dans le corpus (avec « Menus déroulants »)
Denitsa Daynovska, décembre 2009

12 Recherche dans le corpus
Une graphie simple maison blanche Un verbe conjugué (toutes ses formes) &c &caimer Substantif ou adjectif fléchi (toutes ses formes) &m &mfleur &mvert Denitsa Daynovska, décembre 2009

13 Recherche dans le corpus
Denitsa Daynovska, décembre 2009

14 Co-occurrence de séquences
Denitsa Daynovska, décembre 2009

15 Recherche d’une expression
Une expression de choix: maison ( blanche | bleue) (maison|palais)d'un(blanc(immaculé|sale)|bleu(d'azur|profond)) [maison d'un blanc immaculé, palais d'un blanc immaculé, maison d'un blanc sale, palais d'un blanc sale, maison d'un bleu d'azur, palais d'un bleu d'azur, maison d'un bleu profond, palais d'un bleu profond ] Expression optionnelle &? un &?grand homme un (homme | grand homme) [un homme, un grand homme] Denitsa Daynovska, décembre 2009

16 Recherche d’une expression
une ou plusieurs fois &+ un &+très grand homme zéro ou plusieurs fois &* un &*très grand homme zéro ou une fois &? négation ^ un ^très grand homme Denitsa Daynovska, décembre 2009

17 Recherche d’une expression
0, 1 ou plusieurs mots quelconques &q(n1,n2) [n1 ≥0, n2> n1, n2-n1≤7] un &q(0,2) homme (0, 1 ou 2 mots entre un et homme) [un homme, un grand homme, un très petit homme,…] un &q homme un &q(1,1) homme (1 mot entre un et homme) [un grand homme, un jeune homme,…] Denitsa Daynovska, décembre 2009

18 Denitsa Daynovska, décembre 2009
Entités catégorisées Uniquement dans la version catégorisée Recherche d’une catégorie: &e(g=XX) &e(g!=XX) Recherche de contenu textuel dans une catégorie &e(c=XX) &e(c!=XX) Denitsa Daynovska, décembre 2009

19 Denitsa Daynovska, décembre 2009
Entités catégorisées 2 Quelques codes de catégories: A adjectif (sauf cas Aca, Apr, Aps) Adv Adverbe Cc Conjonction coordination Cs Conjonction subordination D Déterminant (sauf cas Dca, Dg) Dca car. dét (cardinal ayant le rôle d'un déterminant : deux pigeons s'aimaient) Dg amalgamés (au/aux/du/des) Inf infinitif Np Nom propre P Pronom (sauf cas Per, X) Per Pronom personnel Pp Préposition S Substantif V Verbe (sauf participes et infinitif) Denitsa Daynovska, décembre 2009

20 Exemple de recherche de mot catégorisé
&e(g=A) &e(g=A) &e(g=A) &e(g=S) Cherche la suite Adj Adj Adj Nom [RESULTATS: pauvre chère petite enfant, mauvaise petite vieille maison, pauvre petit jeune homme, etc.] &e(g!=A) [RESULTATS: tout ce qui N’EST pas adjectif!!!] &e(c=tire-) [RESULTATS: tire-bouchon, tire-jus, tire-ligne] Denitsa Daynovska, décembre 2009

21 Étude du voisinage d’un mot
Denitsa Daynovska, décembre 2009

22 Denitsa Daynovska, décembre 2009
Calcul de fréquences Fréquence absolue: le nombre d'occurrences de cette forme dans le corpus. Fréquence relative: la fréquence absolue de cette forme divisée par la somme des fréquences absolues de toutes les formes graphiques du corpus. Denitsa Daynovska, décembre 2009

23 Denitsa Daynovska, décembre 2009
Définition de listes Créer une liste manuellement. Créer une liste automatiquement: Création d'une liste par flexion d'un lemme Création d'une liste à partir des graphies du corpus de travail Appel d’une liste dans la recherche &l Denitsa Daynovska, décembre 2009

24 Définition de grammaires
Une grammaire a un nom: XXX Elle comporte des règles YYY Une règle a la forme suivante: Nom: Expression à chercher Appel d’une règle &r &rYYY,XXX Denitsa Daynovska, décembre 2009

25 Denitsa Daynovska, décembre 2009
Exemple de grammaire Chercher les dates dans un texte (du type: 1 janvier 2005): jour: 1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18| 19|20|21|22|23|24|25|26|27|28|29|30|32 mois: janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre annee: (1|2)(0|1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9) date: &rjour &rmois &rannee Denitsa Daynovska, décembre 2009

26 Denitsa Daynovska, décembre 2009
Sauvegarder Sauvegarder les résultats d’une recherche Sauvegarder une liste Sauvegarder une grammaire Denitsa Daynovska, décembre 2009

27 Denitsa Daynovska, décembre 2009
Exercices 1 Définir un corpus de travail (après 1950) Chercher les emplois du verbe filer, conjugué, dans n’importe quelle forme. Chercher le verbe filer et le mot coton dans le contexte de la même phrase. Créer une liste de déterminants (le, des, un, deux, mon, …) Chercher les constructions V dans Déterminant N par exemple entrer dans la chambre Denitsa Daynovska, décembre 2009

28 Denitsa Daynovska, décembre 2009
Exercices 2 Créer une grammaire qui cherche des dates du format mardi, 5 janvier 1999 dans les textes. Chercher combien de fois on trouve le mot amour dans « Le père Goriot » de Balzac. Etudier le voisinage du mot amour dans dans « Le père Goriot » de Balzac (contexte: 1 mot avant et 1 mot après). Denitsa Daynovska, décembre 2009

29 Merci de votre attention!
FIN Merci de votre attention! Contact: 02/


Télécharger ppt "La base textuelle FRANTEXT"

Présentations similaires


Annonces Google