Algorithme pour le web Géraldine Schneider

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

Le dossier documentaire
TOUQUET Arnaud ▪ GI05 BLONDEEL Igor ▪ GM05
Le developpement web  Préparé par : ASSAL Lamiae JAMALI Zakarya
Cours n° 8 Conception et Programmation à Objets
Ontologie, Méta-données, Sémiotiques
Analyse et structuration thématiques
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Le référencement des pages web
Reconnaissance de la parole
Quest-ce quun lien ?. Exemple à partir du site du ministère de léducation nationale A la page daccueil, vous y trouvez du texte et … des liens vers dautres.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Quelques règles à respecter pour concevoir une présentation dynamique et sobre Dans un cadre scolaire D. G. Formation APEP
Concepts avancés en mathématiques et informatique appliquées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Présentation de la séquence de cours sur les interactions HTML-javascript Laure Walser, 11 juin 2010.
Excel Introduction.
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Méthode des k plus proches voisins
Construction de modèles visuels
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Bases de données lexicales
Recherche Documentaire et traitement de l’information
Comment optimiser la visibilité de vos contenus sur les principaux moteurs de recherches ? Rédaction de contenus SEO friendly Publication on-line.
Référencement Que peut faire baisser votre classement ?
2/11/2005 Utilisation des TIC en maternelle dans le REP de Noyon Utilisation des TIC en maternelle- REP de Noyon - 17/11/2005.
MOT Éditeur de modèles de connaissances par objets typés
Définir des caractéristiques chercher de linformation? sur un support électronique? Élaborer un cadre théorique pour comprendre les enjeux et proposer.
Reconnaissance Vocale
Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Web dynamique PhP + MySQL AYARI Mejdi 2006
LE TABLEUR Généralité Organisation Manipulation Les formules Graphisme
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Interprétation automatique
Les techniques des moteurs de recherche
La veille numérique : un outil pour s'informer intelligemment &
Classification automatique de textes
WIKIPEDIA ZHE DONG. Sommaire INTRODUCTION Bref historique Fonctionnement et concepts Wikimedia Foundation Projets publics Projets internes CONCLUSION.
Classification : objectifs
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
QRA, partie II: gestion des données Trousse de formation 2: le suivi de l'abus des drogues: politiques et pratiques.
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
1 PHP 5 Notions fondamentales (niveau 1 cours #4) Formation continue – Cégep de Sainte-Foy.
Des activités à ritualiser
Présentation RFIA janvier 2002
PLAN 1. Introduction 1.1. Sites de presse actuels 1.2. Objectif de notre site 2. Description du modèle 3. Outils utilisés 3.1. SVG 3.2. PHP et MySQL 4.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Introduction et Généralités sur l’Algorithmique
SVM machine à vecteurs de support ou séparateur à vaste marge
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
TEXT MINING Fouille de textes
Didactique(s) Introduction
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
GPA-779 Application des systèmes experts et des réseaux de neurones.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Les Systèmes de Gestion de Contenu (CMS) Allirand Maud Chabord Grégoire Massart Anne-Sophie 24 novembre 2006.
Classification automatique des messages électroniques
Traitement d’images Semaine 09 v.A15.
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
Dreamweaver Séance 1.
Dreamweaver MX Jauneau Marie Claude-Antoine Zarate.
Démarche d’enseignement de l’APL : analyser
DREAMWEAVER SEANCE 1 Axel JACQUET GM05 – Julien VAN MOORLEGHEM GM05 A2008 Écriture interactive & multimédia Présentation Dreamweaver 8.
Rédiger un rapport scientifique Mathieu Hébert Institut d’Optique - 2A St-Etienne
1 Tableur Excel. 2 Introduction Un tableur est un logiciel permettant de manipuler des données numériques et d'effectuer automatiquement des calculs sur.
Ecriture Cycle 3 Programmes 2015
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
1 Philippe TRIGANO - Université de Technologie de Compiègne - FRANCE Philippe TRIGANO INGÉNIERIE MULTIMÉDIA PÉDAGOGIQUE.
Transcription de la présentation:

Algorithme pour le web Géraldine Schneider Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet Romain Vinot, Natalia Grabar, Mathieu Valette École Nationale Supérieure des Télécommunications Centre de Recherche en Ingénierie Multilingue - INALCO

Sommaire Introduction Constitution du corpus Description des algorithmes Résultats & Discussions Conclusion

Introduction Définition du problème Internet Grande quantité d’informations Manque de maîtrise des contenus Plusieurs méthodes développées pour pallier ce problème

Introduction 2 approches développées Filtrage des informations par liste noire liste d’URLs constituée au préalable simple blocage des URL des sites indésirables par mots clef liste de mots clef constituée au préalable simple blocage des pages contenant les mots clef indésirables

Introduction Filtrage par liste noire simple blocage des URL des sites considérés comme racistes LIMITES: méthode statique, pas intelligente pour une validité de la méthode, besoin de mettre à jour très régulièrement la liste car le web est en constante évolution

Introduction Filtrage par liste de mots clef simple blocage des sites contenant au moins un des mots clef de la liste LIMITES: méthode statique pour une validité de la méthode, besoin de mettre à jour très régulièrement la liste car la langue évolue blocage sans connaître le contexte du mot, possibilité de traiter du racisme dans un texte sans avoir de propos raciste variabilité du contenu: utilisation de mots neutres avec sous-entendus

Introduction 2 approches peu pertinentes si elles ne sont pas accompagnées d’une analyse linguistique du document Combinaison d’indices venant de plusieurs niveaux d’unités linguistiques Caractères Morphèmes Catégories syntaxiques Expressions complexes Isotopies sémantiques Code HTML …

Introduction Méthode proposée dans l’article Apprentissage automatique pour classifier de manière automatique des textes selon 2 catégories Raciste Non raciste

CONSTITUTION DU CORPUS Classification automatique sur des pages du web corpus différents des corpus habituels web utilisé comme corpus: en particulier, corpus basé sur les moteurs de recherche combinés à des mots clefs dits sensibles Expériences présentées 739 documents 286 pages racistes, 444 611 occurrences, 43 sites 453 pages antiracistes, 941 007 occ., 81 sites

CONSTITUTION DU CORPUS 2 étapes pour la constitution du corpus Collecte massive de documents en interrogeant manuellement ou automatiquement les sites Classification manuelle des pages selon 6 catégories raciste antiraciste révisionniste antirévisionniste non pertinent indécidable

DESCRIPTION DES ALGORITHMES Intervention des algorithmes au niveau lexical avec manipulation des tokens des documents comme unités descriptives 3 étapes: Choix du type de document Représentation vectorielle des documents Choix de l’algorithme de classification

DESCRIPTION DES ALGORITHMES Choix du type de document Classification basée sur du texte brut: suppression de tous les caractères non alphabétique (chiffres, ponctuation) du texte avec considération des nombres du texte avec considération du code HTML Influence des nombres et source HTML dans la performance de la classification des documents?

DESCRIPTION DES ALGORITHMES Représentation vectorielle des documents appelée sac à mots Pour classifier ou comparer des documents, on peut utiliser une représentation vectorielle de documents, puis des mesures de distances et de similarité Un document est une suite de mots (ou d'étiquettes, de lettres,etc…) Un vecteur est une suite de chiffres Valeurs traitées dans un dernier temps par l’algorithme de classification

DESCRIPTION DES ALGORITHMES Exemple (représentation vectorielle) 4 documents à 2 dimensions (lexique constitué de 2 mots) Doc1 = je je vais ; Doc2 = je je je je vais vais ; Doc3 = je vais vais ; Doc4 = vais vais 4 vecteurs tirés des documents V1 = {2,1} ; V2 = {4,2} ; V3 = {1,2} ; V4 = {0,2}

DESCRIPTION DES ALGORITHMES Choix de l’algorithme de classification 3 algorithmes proposés et traités Rocchio K plus proches voisins (k-PPV) Support Vector Machine (SVM)

DESCRIPTION DES ALGORITHMES Algorithme ROCCHIO un des plus vieux algorithme de classification (1971) méthode probabiliste, simple permet de construire un vecteur représentatif d'une catégorie à partir des documents pertinents pour cette catégorie traitement des données construction d’un vecteur de classe

DESCRIPTION DES ALGORITHMES Construction des vecteurs normalisation des vecteurs même méthode que pour la représentation vectorielle barycentre des exemples: coefficient positif pour les exemples de la classe et négatif pour les autres

DESCRIPTION DES ALGORITHMES Construction du vecteur de la classe à partir des vecteurs des documents jugés pertinents pour cette classe. Classement des documents: calcul de la distance euclidienne entre la représentation vectorielle du document et celle de chacune des classes.  document classé dans classe la plus proche

DESCRIPTION DES ALGORITHMES Algorithme k-PPV algorithme de reconnaissance des formes apprentissage: stockage d’exemples étiquettés classement: calcul de la distance euclidienne entre la représentation vectorielle du document et celle des exemples du corpus Les k-éléments les plus proches sont sélectionnés et le document est assigné à la classe majoritaire

DESCRIPTION DES ALGORITHMES Algorithme SVM grande performance pour la classification textuelle (1995) pour 2 classes d’exemples donnés, but: trouver un classificateur pour séparer les données et maximiser la distance entre les 2 classes. classificateur linéaire: hyperplan

DESCRIPTION DES ALGORITHMES Plusieurs notions Hyperplan: sépare les 2 ensembles de points (de documents) Vecteurs de support: points les plus proches qui déterminent l’hyperplan Marge: hyperplan dont la distance minimale aux exemples est maximale

RESULTATS & DISCUSSION Performances des algorithmes Rocchio: 0.89 10-PPV: 0.94 SVM: 0.95 Performance SVM > 10-PPV > Rocchio Très bonnes performances pour les 3 algorithmes: supérieure à 0.9

RESULTATS & DISCUSSION Erreurs de classification: textes antiracistes mal classés textes littéraires: pas le style argumentatif de l’antiracisme textes à fin réthorique avec antiphrases et citations en abondance textes racistes mal classés textes idéologiques et politiques euphémismes en abondance

RESULTATS & DISCUSSION Remarques discours antiraciste: homogène discours raciste: varié, exprimé dans des styles variés + facile de classer un texte antiraciste textes racistes jamais exprimés de manière explicite, recours aux euphémismes et termes neutres

RESULTATS & DISCUSSION Influence des nombres et code HTML Légère amélioration de la performance des algorithmes avec considération des nombres et code HTML Texte brut Avec nombres Avec HTML Rocchio 0.89 0.94 10-PPV 0.95 SVM 0.96 Amélioration de la performance plus pertinente sur les 30-PPV 0.92 sur texte brut 0.96 avec code HTML

RESULTATS & DISCUSSION Explications de ces influences [Nombres] caractéristiques racistes dates récentes: référence à de nombreux faits divers, lien avec la réalité actuelle peu de référence historique

RESULTATS & DISCUSSION Explications de ces influences [HTML] caractéristiques racistes balise pics: affichage images, dessins, bannières, … balise meta: notation de liste de mots clef police arial et verdana caractéristiques antiracistes balise class: utilisation de Javascript

CONCLUSION Algorithme de classification automatique Difficultés Fonctionne sur le même principe que le filtrage des mots clef Actualisation plus facile: réapprentissage automatique Difficultés trouver la partie caractéristique du racisme: partie infime d’un document propos racistes implicites, euphémisation trop forte