Présentation de la base Frantext 1. Base catégorisée vs. base non catégorisée : Les deux bases ne contiennent pas le même nombre de textes (base non catégorisée plus importante que la base catégorisée). Base non catégorisée idéale pour une recherche sur un mot (ex : le mot cœur) à condition que ce mot ne possède pas une forme homographe appartenant à une autre catégorie grammaticale (ex : pouvoir n.m. vs pouvoir v.inf). Idéale également pour une recherche sur une séquence lexicalisée (ex : faire peur). Base catégorisée à privilégier pour une recherche sur une construction dans laquelle on spécifie la catégorie grammaticale de chaque terme. Exemple : pour une recherche sur la construction transitive indirecte du verbe user : quelqu’un use de son autorité N1 + V<user> + DE + Det. poss. + N2 Accès à la base non catégorisée (abonnement privé) : http://www.frantext.fr/frtpass.htm Accès à la base catégorisée (abonnement privé) : http://www.frantext.fr/frtcategpass.htm
2. Menu de Frantext : Pour les deux bases de Frantext, le menu se présente de la même manière : Remarque : Attention de bien utiliser l’icone de votre navigateur ou le lien pour ne pas perdre les informations déjà enregistrées.
Définir un corpus de travail sur Frantext 1. Formulaire : On accède au formulaire permettant de définir le corpus de travail depuis le menu :
On dispose de plusieurs critères (auteur , date, œuvre et type de texte) qui peuvent être croisés. Exemple : formulaire pour une recherche dans les romans de Balzac publiés entre 1830 et 1840 ATTENTION : Ne pas oublier de cocher ici sinon la sélection par date n’est pas prise en compte Après avoir enregistré le formulaire (« Enregistrer la sélection »), on obtient le nombre de textes correspondant aux critères (5 textes pour le présent exemple).
2. Visualisation du corpus de travail : Toujours depuis le menu défilant, 2 types d’informations sont disponibles : a- Affichage du nombre de mots (très utile lorsque l’on veut intégrer des données statistiques à une étude) :
b- Affichage détaillé de la bibliographie :
Utiliser les outils de calculs de fréquences Le calcul des fréquences est particulièrement utile lorsque l’on mène une étude lexicale sur une œuvre, un auteur ou une période. Frantext propose plusieurs outils permettant de calculer les fréquences d’un mot ou d’une liste de mots dans un corpus donné. 2 types de fréquences sont calculées : Fréquence absolue = nombre d’occurrences du ou des mots dans le corpus Fréquence relative = rapport entre le nombre d’occurrences de ce ou ces mots et le nombre total de mots du corpus Exemple : La fréquence relative du mot âme dans les romans de Zola vs. la fréquence relative mot âme dans les romans de Stendhal
1ère étape : calcul de la fréquence du mot âme dans les romans de Stendhal 1. Définition du corpus de travail 7 textes 828 279 mots
2. Formulaire calcul de fréquence On accède au formulaire depuis le menu : Pour cet exemple, on travaille sur un mot mais on pourrait lancer une recherche sur une liste de mots préalablement définie Les choix dépendent de l’objectif de l’étude (axée sur une œuvre, une période ou un auteur).
Avec les options sélectionnées ici, on obtient le résultat suivant : C’est ce chiffre qui est important pour la comparaison avec la fréquence d’utilisation du mot dans l’œuvre romanesque de Zola
2ème étape : calcul de la fréquence du mot âme dans les romans de Zola 1. Définition du corpus de travail 22 textes 3 574 732 mots
2. Formulaire calcul de fréquence (même procédure que pour Stendhal) On obtient le résultat suivant : Conclusion : le mot âme est beaucoup plus utilisé dans les romans de Stendhal que dans ceux de Zola (entre 9 et 10 fois plus)
Créer une liste de mots On peut créer une liste de mots pour ensuite calculer la fréquence globale de l’ensemble des mots de cette liste dans le corpus de travail. Cela permet notamment de comparer l’utilisation de champs lexicaux dans différentes œuvres ou chez différents auteurs. On accède au formulaire de création d’une liste de mots depuis le menu :
Après la définition du corpus de travail, cette liste doit être spécifiée dans le cadre 1 du formulaire de calcul de fréquence :
Exercice d’application Créez une liste contenant les mots : faim – froid – misère – travail – argent 2. Calculez la fréquence relative de cette liste dans : Les romans de Chateaubriand Les romans de Flaubert publiés entre 1850 et 1870 Les romans de Zola publiés entre 1870 et 1890 Réponse Fréquence relative de la liste dans : Les romans de Chateaubriand : 207 Les romans de Flaubert publiés entre 1850 et 1870 : 701 Les romans de Zola publiés entre 1870 et 1890 : 1035