La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

03/12/2003 GEREC-F Classification automatique de textes Pascal Vaillant GEREC-F / DEMOLI (Groupe d’Études et de Recherches en Espace Créolophone et Francophone,

Présentations similaires


Présentation au sujet: "03/12/2003 GEREC-F Classification automatique de textes Pascal Vaillant GEREC-F / DEMOLI (Groupe d’Études et de Recherches en Espace Créolophone et Francophone,"— Transcription de la présentation:

1 03/12/2003 GEREC-F Classification automatique de textes Pascal Vaillant GEREC-F / DEMOLI (Groupe d’Études et de Recherches en Espace Créolophone et Francophone, équipe Description et Modélisation Linguistique) Université des Antilles et de la Guyane B.P Schœlcher Martinique

2 03/12/2003 GEREC-F Classification automatique La classification automatique de textes consiste à attribuer une catégorie à chaque texte.

3 03/12/2003 GEREC-F Textes et catégories L’ensemble des textes est donné, au moins en partie ; L’ensemble des catégories peut être ou ne pas être donné. Quand l’ensemble des catégories n’est pas donné au départ, il s’agit de le créer en regroupant les textes en classes qui possédent un certain degré de cohérence interne On parle alors de clustering

4 03/12/2003 GEREC-F Clustering Exemple fictif (2 variables) :

5 03/12/2003 GEREC-F Catégories connues Dans le cas où on connaît à l’avance les catégories : Contraintes possibles : – un texte peut appartenir à plusieurs catégories à la fois (ex. rubriques thématiques d’un index de bibliothèque) ; –... ou un texte doit appartenir à une catégorie et une seule (ex. rubriques de classement Dewey d’une bibliothèque).

6 03/12/2003 GEREC-F Cas de figure de base On traite en général comme cas de figure de base le second cas (une seule catégorie par texte) ;... en effet le premier cas peut s’y ramener : on peut traiter la question « à quelles catégories (parmi l’ensemble {C 1...C n }) appartient ce texte ? » comme la combinaison de n questions binaires : « ce texte appartient-il à la catégorie C k ou non (i.e. ou à sa catégorie complémentaire C k ) ? »

7 03/12/2003 GEREC-F Catégorisation déterministe ou floue On peut également souhaiter dans certains cas : – avoir une réponse définitive pour chaque texte (oui ou non, le texte t i appartient à la catégorie C k ) ; –... ou avoir simplement une évaluation des catégories les plus adéquates — dans l’ordre — pour y classer le texte t i Certaines méthodes (qui évaluent une distance d’un texte à une catégorie) permettent facilement le deuxième type de classement, d’autres pas.

8 03/12/2003 GEREC-F Comment classer ? Il faut fournir à l’ordinateur une fonction lui permettant d’associer une catégorie à un texte Il faut d’abord déterminer les variables pertinentes Puis un type de fonctions de classement : – règles de décision – arbres de décision – classificateurs linéaires – autres fonctions...

9 03/12/2003 GEREC-F Quelles variables ? (1) N’importe quel paramètre observable du document peut constituer une variable. On peut compter le nombre d’occurrences : – de caractères, combinaisons de 2, de 3 caractères... – de mots, combinaisons de 2 mots, 3 mots... – d’étiquettes morphologiques (N,V,Adj...) – de combinaisons mot + étiquette morphologique... Ou compter des co-occurrences de ces différentes choses

10 03/12/2003 GEREC-F Quelles variables ? (2) On peut normaliser ces données : – fréquence d’occurrence de tel ou tel mot, caractère... – fréquence de co-occurrence de tel mot avec tel autre... On peut rapporter à un corpus plus vaste pour obtenir des paramètres plus spécifiques : – fréquence d’occurrence de tel mot divisée par sa fréquence globale ; – fréquence de co-occurrence du mot m 1 avec le mot m 2 divisée par la fréquence d’occurrence de m 1...

11 03/12/2003 GEREC-F Quelles fonctions ?

12 03/12/2003 GEREC-F Règles de décision Si (x=1) et (y=0) alors C 1 Si (x=1) et (y=1) alors C 2 Si ((x=0) et (y=1)) ou ((x=0) et (z=1)) alors C 3 etc. Avantage : forme de fonction de décision la plus interprétable par des humains

13 03/12/2003 GEREC-F Arbres de décision x < 2 x > 2 –1 < y < –½ –½ < y < +½ z = 0z = 1+½ < y < +1 C1C1 C2C2 C3C3 C2C2 C4C4

14 03/12/2003 GEREC-F Classificateurs linéaires (1) Inconvénient des règles ou arbres de décision : on ne peut prendre que des décisions binaires Classificateurs linéaires : a 1x x+a 1y y+a 1z z pour la catégorie C1 a 2x x+a 2y y+a 2z z pour la catégorie C2... La réponse n’est pas forcément 0 ou 1, elle est intermédiaire (quand la fonction est normalisée)

15 03/12/2003 GEREC-F Classificateurs linéaires (2) Le classificateur linéaire crée un hyperplan (i.e. coupe l’espace en deux) : d’un côté, ce qui est dans la catégorie, de l’autre côté, ce qui n’y est pas. Modélisation simpliste mais facile (et rapide) à calculer par une machine. Les coefficients ne sont en revanche pas interprétables « intuitivement » par des humains.

16 03/12/2003 GEREC-F Classificateurs bayésiens Fondés sur l’idée qu’on peut estimer la probabilité qu’un document appartient à une catégorie en connaissant la probabilité qu’une catégorie corresponde à ce document. Formule de Bayes : P(C i |d j ) = P(C i ).P(d j |C i ) P(d j )

17 03/12/2003 GEREC-F Réseaux neuronaux « Boîte noire » constituée d’éléments extrêmement simples (neurones) se comportant comme des fonctions de seuil ; Chaque neurone prend en entrée une combinaison des signaux de sortie de plusieurs autres neurones, affectés de coefficients (les poids) ; La combinatoire des combinaisons linéaires et des fonctions de seuil appliquées récursivement donne un classificateur complexe.

18 03/12/2003 GEREC-F Méthodes géométriques Méthode du centroïde : on calcule le centroïde de chaque catégorie, puis on attribue à chaque document la catégorie du centroïde le plus proche. Méthode des « k plus proches voisins » : on attibue à chaque document la catégorie majoritaire parmi les k documents les plus proches dont la catégorie est déjà connue.

19 03/12/2003 GEREC-F Méthodes géométriques

20 03/12/2003 GEREC-F Comment déterminer la fonction ? Dans tous ces cas de figure, il faut déterminer les paramètres de la fonction de classement utilisée : – Règles dans les règles de décision – Conditions et branchements dans les arbres de décision – Coefficients dans les classificateurs linéaires – Distributions de probabilité dans les classificateurs probabilistes – Poids dans les réseaux de neurones … Seules les deux premières approches se prêtent à une modélisation « manuelle » (faite par un expert).

21 03/12/2003 GEREC-F Apprentissage automatique (1) Mais l’approche manuelle est coûteuse en temps de travail, peu générique, et relativement peu efficace. L’autre solution consiste à faire apprendre automatiquement à l’ordinateur, sur la base d’un corpus de textes qui servent d’exemple, les paramètres de la fonction.

22 03/12/2003 GEREC-F Apprentissage automatique (2) Pour cela, on constitue un corpus d’apprentissage, qui va servir d’entrée à un algorithme d’apprentissage. On sélectionne un autre corpus qui sert pour l’évaluation (corpus de test) On infère, à partir des données, et par des méthodes mathématiques complexes, les paramètres des fonctions de classement.

23 03/12/2003 GEREC-F Apprentissage automatique (3) On se fonde sur la connaissance préalable des bonnes catégories pour les documents du corpus d’apprentissage (apprentissage supervisé). Le clustering est un cas d’apprentissage non supervisé. En outre, il existe des méthodes pour combiner les résultats de classifieurs simples (et pas très bons) pour donner des classifieurs plus complexes (et bien meilleurs) : – Procédures de vote – Boosting

24 03/12/2003 GEREC-F Applications Classification de documents en catégories thématiques … Lorsque ceci se déroule en ligne, analyse de flots de données comme : dépêches d’agence de presse, messages de courrier électronique (filtres de spam), pages web … Indexation automatique sur des catégories d’index de bibliothèques.

25 03/12/2003 GEREC-F Autres applications en recherche Identification de langue (linguistique) ; Identification d’auteurs de textes d’origine douteuse ou inconnue (recherches littéraires) ; Moteurs de recherche ; Notation automatique des copies d’étudiants …

26 03/12/2003 GEREC-F Retour de connaissance Les paramètres qui ont été appris automatiquement fournissent des connaissances utiles sur la nature exacte des catégories connues auparavant intuitivement.


Télécharger ppt "03/12/2003 GEREC-F Classification automatique de textes Pascal Vaillant GEREC-F / DEMOLI (Groupe d’Études et de Recherches en Espace Créolophone et Francophone,"

Présentations similaires


Annonces Google