La base textuelle FRANTEXT www.frantext.fr INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009
Denitsa Daynovska, décembre 2009 Présentation Un important corpus de textes français, du XVI ème au XX ème siècle, saisis sur support informatique. Environ 3500 œuvres 80% d'oeuvres littéraires 20% d'ouvrages techniques de diverses disciplines scientifiques. Un logiciel de consultation. Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Pourquoi Frantext? Recherches utiles pour l’analyse linguistique Par exemple: étude des emplois du verbe sortir, étude des emplois du verbe sortir suivi d’une préposition, étude de la construction [Verbe + Préposition + Nom] etc. Recherches utiles pour l’analyse littéraire Chercher les passages où Balzac parle d’amour paternel dans « le Père Goriot » Denitsa Daynovska, décembre 2009
Présentation de Frantext Version catégorisée moins de textes (1940 textes), étiquettes de catégories: nom, adjectif, adverbe, verbe, préposition… Version non catégorisée (Frantext intégral) Plus de 3 952 textes (avril 2009), Sans étiquetage. Denitsa Daynovska, décembre 2009
Présentation de Frantext Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Le corpus de recherche Définir son corpus de travail, c'est choisir sur quels textes vous voulez travailler. Un choix selon les critères suivants: Auteurs, Titres, Date, Genre littéraire. Vous pouvez à tout moment: modifier le choix de textes, visualiser le détail de la bibliographie. Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Notion de session Lorsque vous ouvrez FRANTEXT, vous avez initialisé une session de travail. La session sera fermée et les fichiers seront effacés au bout de douze heures à compter du début de la session; Si vous revenez à la page d'accueil et cliquez à nouveau sur "ACTIVATION DE FRANTEXT", vous initialisez alors une nouvelle session. Vous êtes alors considéré comme un nouvel utilisateur, et les fichiers que vous avez créés dans la session précédente deviennent inaccessibles; Il est conseillé de ne pas ouvrir Frantext dans plusieurs fenêtres pendant une même session. Denitsa Daynovska, décembre 2009
Définir le corpus de recherche Denitsa Daynovska, décembre 2009
Avec ou sans Menus déroulants? Denitsa Daynovska, décembre 2009
Sans « Menus déroulants » Denitsa Daynovska, décembre 2009
Recherche dans le corpus (avec « Menus déroulants ») Denitsa Daynovska, décembre 2009
Recherche dans le corpus Une graphie simple maison blanche Un verbe conjugué (toutes ses formes) &c &caimer Substantif ou adjectif fléchi (toutes ses formes) &m &mfleur &mvert Denitsa Daynovska, décembre 2009
Recherche dans le corpus Denitsa Daynovska, décembre 2009
Co-occurrence de séquences Denitsa Daynovska, décembre 2009
Recherche d’une expression Une expression de choix: maison ( blanche | bleue) (maison|palais)d'un(blanc(immaculé|sale)|bleu(d'azur|profond)) [maison d'un blanc immaculé, palais d'un blanc immaculé, maison d'un blanc sale, palais d'un blanc sale, maison d'un bleu d'azur, palais d'un bleu d'azur, maison d'un bleu profond, palais d'un bleu profond ] Expression optionnelle &? un &?grand homme un (homme | grand homme) [un homme, un grand homme] Denitsa Daynovska, décembre 2009
Recherche d’une expression une ou plusieurs fois &+ un &+très grand homme zéro ou plusieurs fois &* un &*très grand homme zéro ou une fois &? négation ^ un ^très grand homme Denitsa Daynovska, décembre 2009
Recherche d’une expression 0, 1 ou plusieurs mots quelconques &q(n1,n2) [n1 ≥0, n2> n1, n2-n1≤7] un &q(0,2) homme (0, 1 ou 2 mots entre un et homme) [un homme, un grand homme, un très petit homme,…] un &q homme un &q(1,1) homme (1 mot entre un et homme) [un grand homme, un jeune homme,…] Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Entités catégorisées Uniquement dans la version catégorisée Recherche d’une catégorie: &e(g=XX) &e(g!=XX) Recherche de contenu textuel dans une catégorie &e(c=XX) &e(c!=XX) Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Entités catégorisées 2 Quelques codes de catégories: A adjectif (sauf cas Aca, Apr, Aps) Adv Adverbe Cc Conjonction coordination Cs Conjonction subordination D Déterminant (sauf cas Dca, Dg) Dca car. dét (cardinal ayant le rôle d'un déterminant : deux pigeons s'aimaient) Dg amalgamés (au/aux/du/des) Inf infinitif Np Nom propre P Pronom (sauf cas Per, X) Per Pronom personnel Pp Préposition S Substantif V Verbe (sauf participes et infinitif) Denitsa Daynovska, décembre 2009
Exemple de recherche de mot catégorisé &e(g=A) &e(g=A) &e(g=A) &e(g=S) Cherche la suite Adj Adj Adj Nom [RESULTATS: pauvre chère petite enfant, mauvaise petite vieille maison, pauvre petit jeune homme, etc.] &e(g!=A) [RESULTATS: tout ce qui N’EST pas adjectif!!!] &e(c=tire-) [RESULTATS: tire-bouchon, tire-jus, tire-ligne] Denitsa Daynovska, décembre 2009
Étude du voisinage d’un mot Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Calcul de fréquences Fréquence absolue: le nombre d'occurrences de cette forme dans le corpus. Fréquence relative: la fréquence absolue de cette forme divisée par la somme des fréquences absolues de toutes les formes graphiques du corpus. Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Définition de listes Créer une liste manuellement. Créer une liste automatiquement: Création d'une liste par flexion d'un lemme Création d'une liste à partir des graphies du corpus de travail Appel d’une liste dans la recherche &l Denitsa Daynovska, décembre 2009
Définition de grammaires Une grammaire a un nom: XXX Elle comporte des règles YYY Une règle a la forme suivante: Nom: Expression à chercher Appel d’une règle &r &rYYY,XXX Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Exemple de grammaire Chercher les dates dans un texte (du type: 1 janvier 2005): jour: 1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18| 19|20|21|22|23|24|25|26|27|28|29|30|32 mois: janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre annee: (1|2)(0|1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9) date: &rjour &rmois &rannee Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Sauvegarder Sauvegarder les résultats d’une recherche Sauvegarder une liste Sauvegarder une grammaire Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Exercices 1 Définir un corpus de travail (après 1950) Chercher les emplois du verbe filer, conjugué, dans n’importe quelle forme. Chercher le verbe filer et le mot coton dans le contexte de la même phrase. Créer une liste de déterminants (le, des, un, deux, mon, …) Chercher les constructions V dans Déterminant N par exemple entrer dans la chambre Denitsa Daynovska, décembre 2009
Denitsa Daynovska, décembre 2009 Exercices 2 Créer une grammaire qui cherche des dates du format mardi, 5 janvier 1999 dans les textes. Chercher combien de fois on trouve le mot amour dans « Le père Goriot » de Balzac. Etudier le voisinage du mot amour dans dans « Le père Goriot » de Balzac (contexte: 1 mot avant et 1 mot après). Denitsa Daynovska, décembre 2009
Merci de votre attention! FIN Merci de votre attention! Contact: denitsa.daynovska@auf.org, 02/9461075