Profilage de textes Pierre Luc Carrier IFT6010. Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue.

Slides:



Advertisements
Présentations similaires
LES FRANÇAIS ET L’ONU. © Harris Interactive 2 SOMMAIRE > Méthodologie d’enquêteP.3 > Regard général sur l’ONUP.4 > Perception de l’action de l’ONU et.
Advertisements

M. Bétrancourt et C. Rebetez - Méthodologie expérimentale Diplôme MALTT Année La méthodologie expérimentale Fondements et bases d’application.
RÉNOVATION BTS Comptabilité et Gestion 2015 Atelier situations professionnelles & PGI Cas Jupiter Média Chantal Bricard Jean-Marie Duplan.
ABF Améliorer nos formations pour une microfinance plus sociale.
Enseignement des fonctions Objectif : Concevoir une activité introduisant la résolution des équations du second degré Connaissances de l’élève à utiliser.
G. Botti Service de l ’Information Médicale Pr M. Fieschi Hôpital Timone-adultesMarseille le 13 novembre 2000 Référentiels Notion de classification Structure.
Création d’un site WEB 1 – Un site WEB c’est quoi ? 2 – Questions à se poser avant la construction d’un site WEB 3 – Principes de fonctionnement d’un site.
1) Qu’est-ce que BCDI? BCDI est un logiciel informatique de recherche documentaire : C’est le catalogue informatique du CDI. Au collège on travaille principalement.
MSN 21 Représenter des figures planes à l’aide de croquis (triangle, carré, rectangle, cercle) Le croquis est à considérer comme support de réflexion Reconnaître.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 5 Support de cours rédigé par Bernard COFFIN Université.
Міністерство освіти і науки, молоді та спорту України Дніпропетровський Національний Університет ім. Олеся Гончара Контрольна модульна робота з курсу «Теоретична.
Prendre des notes en classe: Savoir écouter, comprendre et écrire Part 1.
1 Les bases de données Séance 7 Les fonctions avancées : Opérateurs ensemblistes, Sous-requêtes et transactions.
Comment écrire un article scientifique Olivier MIMOZ DAR.
Maths en Jean : Nager dans le brouillard. Présentation du sujet Une personne part du bord de la plage et nage 500 mètres en ligne droite dans une direction.
Bloodcurdling movies and measures of coagulation: Fear Factor crossover trial BMJ Noël 2015 Article thématique du 26/01/2016 André Gillibert Banne Nemeth.
Paramétrisation adaptative pour l’estimation des paramètres hydrodynamiques dans un milieu poreux non saturé MOMAS-Thème E: Problèmes inverses et analyse.
LCA UFR SMBH (DCEM)1 Analyse critique d ’articles évaluant l ’intérêt de nouveaux tests à visée diagnostique Alain Venot UFR SMBH Campus virtuel SMBH
1 PréAO LMD - Support de cours. 2 Qu'est un logiciel de PréAO ? Outil de création de présentation Multimédia –Texte –Image / Photo –Son –Vidéo –Autres.
Evaluation diagnostique J. Coste Unité de biostatistique et d’épidémiologie, Hôtel Dieu, Université Paris Descartes.
Géomatique Systèmes de projection Types de données Applications Qu’est-ce qu’un SIG ? Présentation de la géomatique La géomatique regroupe l'ensemble des.
LECON 3 Question d’éducation. Les devoirs: Corrections et questions.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 1 Support de cours rédigé par Bernard COFFIN Université.
G. Botti Service de l ’Information Médicale Pr M. Fieschi Hôpital Timone-adultesMarseille le 13 novembre 2000 Problématique du codage Langage, communication,
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 6 Support de cours rédigé par Bernard COFFIN Université.
Un usage de la notion d’O.M. pour la préparation de l’épreuve sur dossier du CAPES.
La vidéo en classe de fle. La vidéo est un support attractif. Son utilisation, suppose une variation des exercices proposés, afin d’éviter des habitudes.
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
3. Exemple détaillé: Estimation des émissions de N 2 0 Aurore Philibert Doctorante en statistique appliquée à l’agronomie Oracle Kick-off Meeting
Les « enquêtes d’analyse critique » en études sociales sur
Un outil spécifique à Moodle pour le calcul des indicateurs d’interaction Présenté par : Tarek DJOUAD Laboratoire LIRIS, Lyon1 Équipe SILEX
Du panier à la commande client Créer un panier Identification Validation de la commande Paiement Formulaire de création de compte Etats de la commande.
Introduction à la Programmation Orientée Objet H.GATI.
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
Douleur obstétricale: l'échelle visuelle analogique et échelle numérique sont corrélées mais l’échelle numérique a une meilleure capacité à déterminer.
ANALYSE SUJETS BAC COMMUNICATION ET GRH PARTIE PRATIQUE L’ETUDE.
Rappel de la méthode :  Choisir un Etat de la technique le plus proche.  Définir le problème technique à résoudre à partir de cet Etat de la technique.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 7 Support de cours rédigé par Bernard COFFIN Université.
Chapitre 5 Interprétation des données d’enquête 1.
Nouveaux programmes de mathématiques cycles 3 et 4
1 A. Cornuéjols Introduction à l’intelligence artificielle Introduction à l’Intelligence Artificielle (Cours n°2) Recherche non informée dans les graphes.
On the analysis of CMMN expressiveness: revisiting workflow patterns Renata Carvalho Hafedh Mili.
Les limites de l’UML Présenté par : Samah Dekhil 1.
SURVOL DE LA SEGMENTATION IFT 501 Recherche d'information et forage de données Chapitre 8 : Classification automatique Section
Évaluation – Panorama 16 À l’étude…. Unité 16.1 Tu dois être capable de déterminer le caractère étudié d’une recherche de données :  qualitatif  quantitatif.
UQÀM DDL-8430 didactique de la grammaire Analyse de matériel didactique Nouvelle grammaire pratique : 2ème année du 1 er cycle du secondaire Myriam Laporte.
GESTION DE PORTEFEUILLE chapitre n° 6 Risque diversifié et risque diversifiable Le MEDAF.
Prochaine évolution de nos modèles bibliographiques : FRBR-LRM Pat Riva Présidente, FRBR Consolidation Editorial Group Séminaire.
Mesures de tendance centrale et mesures de dispersion.
Compétences: Capacité d’analyse et de recherche Présentation/Discussion Adjoints des commissions des finances - WAAPAC.
IUFM d'Aquitaine,JLM. Formation continue 1 enseigner les sciences à l'école primaire L ’ enseignement des sciences à l ’ école primaire Le rôle de l ’
Présenté par  Samira BELHORMA  Imane ZEHHAF. Introduction I. Définitions II. Quand et comment évaluer une compétence? III. Le contexte d’évaluation.
Les Statistiques.
Paramètres S Rappels de théorie des circuits
Service des programmes et du développement pédagogique, Collège Ahuntsic Des objectifs-standards aux plans de cours.
II. Les variables quantitatives
Christine Raymond - Promotion LE POSTER DE RECHERCHE un poster qui est une manière de valoriser un travail de recherche en affichant les résultats.
Médias éducatifs : modèles théoriques des médias et représentations d’étudiants et d’enseignants Un levier pour comprendre et faire évoluer les pratiques.
1 Initiation aux bases de données et à la programmation événementielle Construction d’un état Support de TD rédigé par Bernard COFFIN Université Paris.
Section 1 : Le Conseil de l’Europe et les langues Section 2 : Le Centre européen pour les langues vivantes Section 3 : Justification de l’Appel et aperçu.
Chapitre 5 Interprétation des données d’enquête 1.
Eléments de correction. Exercice 1. Méthodes d’interpolation et cartes de températures (7 points) Présentation de la carte et des enjeux de la représentation.
AUTOMATISME Chapitre 2: Le GRAFCET.
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
Compétences langagières II séance du 9 / 20 mai 2016.
Modèle de présentation projets/thèses Spécialité TitreDate Nom Titre Nom.
Un projet pour tous, un engagement pour chacun Cette épreuve de « compte est bon » permet à tous les élèves, quel que soit leur compétence, de participer.
Section 4 : Analyse descriptive. En 1901, Karl Pearson publie son papier sur l’Analyse en Composante Principale dans : “On lines and planes of closest.
SPI Pédagogie différenciée1 Différencier Faire des différences Varier ses propositions Reconnaître les différences Mieux les ajuster Les prendre en compte.
Sigle optionnel en français FBD
Transcription de la présentation:

Profilage de textes Pierre Luc Carrier IFT6010

Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue Etc.

Problèmes typiques (suite) Reconnaissance et vérification d’auteurs Évaluation de documents historiques Détection de cas de plagiats Etc.

Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

Méthodes traditionnelles 1. Extraction de caractéristiques à partir des documents 2. Entraînement d’un classifieur sur les caractéristiques extraîtes

Extraction de caractéristiques Caractéristiques « token-level » Caractéristiques syntaxiques Richesse du vocabulaire Fréquences relatives de mots usuels Catégorisation inspirée de E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

Extraction de caractéristiques Caractéristiques « token-level » Mesures élémentaires relatives aux mots et signes de ponctuation présent dans le texte. Souvent simples et rapides à calculer Largement utilisées

Extraction de caractéristiques Caractéristiques « token-level » Exemples Nombre de mots Nombre de phrases Longueur moyenne des mots Nombre moyen de mots par phrases Nombre et fréquences des signes de ponctuation Etc.

Extraction de caractéristiques Caractéristiques syntaxiques Caractéristiques relatives à la structure des phrases Souvent complexes à obtenir Requièrent généralement l'utilisation d'un POS-tagger ou davantage Il n’est pas toujours possible de les extraire de façon fiable à partir d’un texte avec les outils actuels

Extraction de caractéristiques Caractéristiques syntaxiques Exemples Fréquences de catégories syntaxiques (noms, verbes, adjectifs, etc.) Proportion de phrases passives/actives Fréquence de nominalisations Ex : « Rouge est une couleur » Etc.

Extraction de caractéristiques Richesse du vocabulaire Correspond à la diversité du vocabulaire d'un texte Généralement peu coûteux à calculer Plusieurs métriques différentes, proposées par divers auteurs

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Yule (1944) Mesure proposée par Honoré (1979)

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Brunet (1978) Mesure proposée par Sichel (1975)

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Simson (1949) Toutefois, richesse du vocabulaire peu utilisée en pratique car mesures peu fiables pour des textes < 1000 mots M. Lustrek, Overview of Automatic Genre Identification

Extraction de caractéristiques Fréquences relatives de mots usuels Calcul simple et rapide La difficulté tient dans la sélection des mots appropriés Grand nombre de mots possibles Les mots appropriés pour un type de texte ne le sont pas nécessairement pour un autre L'utilisation d'une PCA sur les fréquences des mots les plus fréquent donne de bons résultats

(PCA : Principal Component Analysis… Permet, pour un ensemble d’observations corrélées, d’obtenir les vecteur composantes principales. Utilité : – Réduction de dimensionnalité – Décorrélation des composantes des observations Bref, plus facile d'apprendre un classifieur

...PCA : Principal Component Analysis) Exemple 1 : 1.

Extraction de caractéristiques Caractéristiques d'analyse Introduites par E. Stamatatos 1 Représentent la façon dont un texte a été traité par un chunker 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

(Article de E. Stamatatos 1... Propose un ensemble de caractéristiques pouvant être utilisé pour classifier un texte selon l'auteur et/ou le genre Cherche à tirer parti de la façon dont un texte est analysé (pas seulement le résultat de l'analyse) 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

...Article de Stamatatos E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

...Article de Stamatatos 1... Utilisation du chunker SCBD Sentence and Chunk Boundaries Detector Analyse le texte en 5 itérations Les premières permettent d'analyser les éléments les plus simples Les dernières traitent les éléments les plus complexes 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

...Article de Stamatatos 1... Caractéristiques utilisées « Token-level » Nb phrases / Nb mots Nb signes de ponctuation / Nb mots Nb phrases / Nb débuts de phrase possibles Syntaxiques Nb de {NP, VP, AP, PP, CON} / Nb chunks Nb moyen de mots par {NP, VP, AP, PP, CON} 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

...Article de Stamatatos 1... Mesures utilisées (suite) Mesures d'analyse Nb mots clef / Nb mots Nb mots spéciaux / Nb mots Nb descriptions morphologiques assignées / Nb mots Nb moyen de descriptions morphologiques assignées à des chunks / Nb chunk Nb mots non-analysés après {1,2,3,4,5} passes d'analyse 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

...Article de Stamatatos 1... Classifieurs employés Basé sur une régression multiple Analyse discriminante 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

...Article de Stamatatos 1... Résultats L'analyse discriminante obtient généralement de meilleurs résultats que la régression multiple Caractéristiques les plus importantes Selon les valeurs absolues des coefficients obtenus pour la régression multiple En général, « Token-level » > Analyse > Syntaxiques pour détection de genre et reconnaissance d'auteur 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

...Article de E. Stamatatos 1 ) Résultats (suite) L'approche proposée a également été comparée à d'autres approches Utilisation des fréquences des {30,50} mots les plus fréquent de la langue Utilisation de 5 formules différentes pour calculer la richesse du vocabulaire Toutefois, ces approches sont trop simples pour évaluer objectivement les gains obtenus. 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author

Entraînement d’un classifieur Classifieur souvent utilisés dans la littérature 1 Arbres de décision Réseaux bayesiens naïfs Machine à vecteurs de support Analyse discriminante KNN Etc. 1. M. Lustrek, Overview of Automatic Genre Identification

Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

Méthodes basées sur les caractères Un texte est rien de plus qu’une séquence de caractères Intéressant pour les langages sans délimitation entre les mots (chinois, japonais, …) 1 Indépendance vis-à-vis la langue du texte 1. M. Lustrek, Overview of Automatic Genre Identification

Méthodes basées sur les caractères Exemple : Entraîner un modèle n-gramme pour chaque catégorie de texte Un texte peut ensuite à assigné à une classe selon : Probabilité d’appartenance à chaque classe 1 Cross-entropie avec chaque classe 2 Etc. 1. F. Peng, Language and Task Independent Text Categorization with Simple Language Models W. Teahan, Text Classification and Segmentation Using Minimum Cross- Entropy. 2000

Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

Méthodes se concentrant sur l’apparence d’un document plutôt que sur son contenu Utilisées pour les documents disponibles sous forme d’image (documents numérisés, etc.) Peu d’informations semblent disponibles dans la littérature

Méthodes visuelles Méthode de Bagdanow et Worring 1 Séparer un document en zones de texte Construire un graphe décrivant la structure du document Un nœud par zone de texte avec attributs tels que position, taille et police de caractère Relations entre les nœuds associés à des zones de texte voisines 1. A. D. Bagdanow et M. Worring, Content-Free Document Genre Classification Using First Order Random Graphs

Méthodes visuelles Méthode de Bagdanow et Worring 1 Pour chaque classe à reconnaître, généraliser les graphes des documents de cette classe en un seul. Classification d’un document selon la ressemblance entre son graphe et les graphes associées à chacune des classes. 1. A. D. Bagdanow et M. Worring, Content-Free Document Genre Classification Using First Order Random Graphs

Questions?