La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Profilage de textes Pierre Luc Carrier IFT6010. Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue.

Présentations similaires


Présentation au sujet: "Profilage de textes Pierre Luc Carrier IFT6010. Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue."— Transcription de la présentation:

1 Profilage de textes Pierre Luc Carrier IFT6010

2 Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue Etc.

3 Problèmes typiques (suite) Reconnaissance et vérification d’auteurs Évaluation de documents historiques Détection de cas de plagiats Etc.

4 Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

5 Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

6 Méthodes traditionnelles 1. Extraction de caractéristiques à partir des documents 2. Entraînement d’un classifieur sur les caractéristiques extraîtes

7 Extraction de caractéristiques Caractéristiques « token-level » Caractéristiques syntaxiques Richesse du vocabulaire Fréquences relatives de mots usuels Catégorisation inspirée de E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

8 Extraction de caractéristiques Caractéristiques « token-level » Mesures élémentaires relatives aux mots et signes de ponctuation présent dans le texte. Souvent simples et rapides à calculer Largement utilisées

9 Extraction de caractéristiques Caractéristiques « token-level » Exemples Nombre de mots Nombre de phrases Longueur moyenne des mots Nombre moyen de mots par phrases Nombre et fréquences des signes de ponctuation Etc.

10 Extraction de caractéristiques Caractéristiques syntaxiques Caractéristiques relatives à la structure des phrases Souvent complexes à obtenir Requièrent généralement l'utilisation d'un POS-tagger ou davantage Il n’est pas toujours possible de les extraire de façon fiable à partir d’un texte avec les outils actuels

11 Extraction de caractéristiques Caractéristiques syntaxiques Exemples Fréquences de catégories syntaxiques (noms, verbes, adjectifs, etc.) Proportion de phrases passives/actives Fréquence de nominalisations Ex : « Rouge est une couleur » Etc.

12 Extraction de caractéristiques Richesse du vocabulaire Correspond à la diversité du vocabulaire d'un texte Généralement peu coûteux à calculer Plusieurs métriques différentes, proposées par divers auteurs

13 Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Yule (1944) Mesure proposée par Honoré (1979)

14 Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Brunet (1978) Mesure proposée par Sichel (1975)

15 Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Simson (1949) Toutefois, richesse du vocabulaire peu utilisée en pratique car mesures peu fiables pour des textes < 1000 mots. 1 1. M. Lustrek, Overview of Automatic Genre Identification. 2007.

16 Extraction de caractéristiques Fréquences relatives de mots usuels Calcul simple et rapide La difficulté tient dans la sélection des mots appropriés Grand nombre de mots possibles Les mots appropriés pour un type de texte ne le sont pas nécessairement pour un autre L'utilisation d'une PCA sur les fréquences des mots les plus fréquent donne de bons résultats

17 (PCA : Principal Component Analysis… Permet, pour un ensemble d’observations corrélées, d’obtenir les vecteur composantes principales. Utilité : – Réduction de dimensionnalité – Décorrélation des composantes des observations Bref, plus facile d'apprendre un classifieur

18 ...PCA : Principal Component Analysis) Exemple 1 : 1. http://en.wikipedia.org/wiki/File:GaussianScatterPCA.png

19 Extraction de caractéristiques Caractéristiques d'analyse Introduites par E. Stamatatos 1 Représentent la façon dont un texte a été traité par un chunker 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

20 (Article de E. Stamatatos 1... Propose un ensemble de caractéristiques pouvant être utilisé pour classifier un texte selon l'auteur et/ou le genre Cherche à tirer parti de la façon dont un texte est analysé (pas seulement le résultat de l'analyse) 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

21 ...Article de Stamatatos 1... 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

22 ...Article de Stamatatos 1... Utilisation du chunker SCBD Sentence and Chunk Boundaries Detector Analyse le texte en 5 itérations Les premières permettent d'analyser les éléments les plus simples Les dernières traitent les éléments les plus complexes 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

23 ...Article de Stamatatos 1... Caractéristiques utilisées « Token-level » Nb phrases / Nb mots Nb signes de ponctuation / Nb mots Nb phrases / Nb débuts de phrase possibles Syntaxiques Nb de {NP, VP, AP, PP, CON} / Nb chunks Nb moyen de mots par {NP, VP, AP, PP, CON} 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

24 ...Article de Stamatatos 1... Mesures utilisées (suite) Mesures d'analyse Nb mots clef / Nb mots Nb mots spéciaux / Nb mots Nb descriptions morphologiques assignées / Nb mots Nb moyen de descriptions morphologiques assignées à des chunks / Nb chunk Nb mots non-analysés après {1,2,3,4,5} passes d'analyse 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

25 ...Article de Stamatatos 1... Classifieurs employés Basé sur une régression multiple Analyse discriminante 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

26 ...Article de Stamatatos 1... Résultats L'analyse discriminante obtient généralement de meilleurs résultats que la régression multiple Caractéristiques les plus importantes Selon les valeurs absolues des coefficients obtenus pour la régression multiple En général, « Token-level » > Analyse > Syntaxiques pour détection de genre et reconnaissance d'auteur 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

27 ...Article de E. Stamatatos 1 ) Résultats (suite) L'approche proposée a également été comparée à d'autres approches Utilisation des fréquences des {30,50} mots les plus fréquent de la langue Utilisation de 5 formules différentes pour calculer la richesse du vocabulaire Toutefois, ces approches sont trop simples pour évaluer objectivement les gains obtenus. 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

28 Entraînement d’un classifieur Classifieur souvent utilisés dans la littérature 1 Arbres de décision Réseaux bayesiens naïfs Machine à vecteurs de support Analyse discriminante KNN Etc. 1. M. Lustrek, Overview of Automatic Genre Identification. 2007.

29 Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

30 Méthodes basées sur les caractères Un texte est rien de plus qu’une séquence de caractères Intéressant pour les langages sans délimitation entre les mots (chinois, japonais, …) 1 Indépendance vis-à-vis la langue du texte 1. M. Lustrek, Overview of Automatic Genre Identification. 2007.

31 Méthodes basées sur les caractères Exemple : Entraîner un modèle n-gramme pour chaque catégorie de texte Un texte peut ensuite à assigné à une classe selon : Probabilité d’appartenance à chaque classe 1 Cross-entropie avec chaque classe 2 Etc. 1. F. Peng, Language and Task Independent Text Categorization with Simple Language Models. 2003. 2. W. Teahan, Text Classification and Segmentation Using Minimum Cross- Entropy. 2000

32 Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

33 Méthodes se concentrant sur l’apparence d’un document plutôt que sur son contenu Utilisées pour les documents disponibles sous forme d’image (documents numérisés, etc.) Peu d’informations semblent disponibles dans la littérature

34 Méthodes visuelles Méthode de Bagdanow et Worring 1 Séparer un document en zones de texte Construire un graphe décrivant la structure du document Un nœud par zone de texte avec attributs tels que position, taille et police de caractère Relations entre les nœuds associés à des zones de texte voisines 1. A. D. Bagdanow et M. Worring, Content-Free Document Genre Classification Using First Order Random Graphs. 2001.

35 Méthodes visuelles Méthode de Bagdanow et Worring 1 Pour chaque classe à reconnaître, généraliser les graphes des documents de cette classe en un seul. Classification d’un document selon la ressemblance entre son graphe et les graphes associées à chacune des classes. 1. A. D. Bagdanow et M. Worring, Content-Free Document Genre Classification Using First Order Random Graphs. 2001.

36 Questions?


Télécharger ppt "Profilage de textes Pierre Luc Carrier IFT6010. Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue."

Présentations similaires


Annonces Google