Un système de calcul des thèmes de l'actualité à partir des sites de presse de l'internet Jacques Vergne GREYC - Université de Caen

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
1. ami 2. compagnon 3. amant 4. frère 5. père 6. maître 7. éducateur 8
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Classe : …………… Nom : …………………………………… Date : ………………..
Les numéros 70 –
Les numéros
Les identités remarquables
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Travaux pratiques sur Nooj
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
COTE DIVOIRE IMAGES DES ATROCITES COMMISES PAR ALASSANE DRAMANE OUATARA, SORO GUILAUMES ET LEURS HOMMES 1.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
-17 Anticipations économiques en Europe Septembre 2013 Indicateur > +20 Indicateur 0 a +20 Indicateur 0 a -20 Indicateur < -20 Union européenne total:
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Titre : Implémentation des éléments finis sous Matlab
INDUSTRIE sa Tel : 0033(0) Fax : Projet: SKIP CAPSULES – v.1 Client: CARDIVAL HEALTH.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
1 INETOP
Les Nombres 0 – 100 en français.
Veuillez trouver ci-joint
Observatoire de lUFR, janvier 2011 (Master SPI, GI, 1 ère année ) 1 PROFIL DES ETUDIANTS Responsables de la formation: Emmanuel CAILLAUD, Bertrand.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Aire d’une figure par encadrement
Comment rendre une femme heureuse…
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Nom:____________ Prénom: ___________
Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen TALN 2003 atelier.
CALENDRIER-PLAYBOY 2020.
Exercice de vérification 1 p
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Jacques Vergne GREYC - Université de Caen
Transcription de la présentation:

Un système de calcul des thèmes de l'actualité à partir des sites de presse de l'internet Jacques Vergne GREYC - Université de Caen Journées Francophones de la Toile 2003

2/7/2003© Jacques Vergne JFT' sites de presse --- système ---> revues de presse utilisateurs : journalistes, internautes "de quoi et de qui est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?" inversion de la problématique des moteurs de recherche mots-clés (thèmes) ---> documents espace de recherche ---> thèmes principaux de l'actualité revue de presse les "Unes" des sites de presse ---> hyperliens : URL et code source des "textes" des hyperliens la "Une" du Monde le système (1)

2/7/2003© Jacques Vergne JFT' "textes" des hyperliens des "Unes" : un choix éditorial des journalistes des sites de presse "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites ---> graphe de termes nœuds = termes pondérés (sites - articles) arcs = relations pondérées entre termes (co-occurrences de 2 termes dans un même texte de lien) l'utilisateur navigue dans ce graphe de terme en terme et accède à des textes de liens et à des articles la "Une" du Monde le système (2)

2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général

2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général

2/7/2003© Jacques Vergne JFT' télécharger et analyser la "Une" de chaque site Un projet de Constitution pour l'Europe élargie Après plus de quinze mois de travaux, la Convention sur l'avenir de l'Europe est parvenue à un accord, vendredi, sur un projet de Constitution pour l'Europe élargie. Il sera présenté au Conseil européen de Thessalonique, du 19 au 22 juin. Des référendums de ratification sur la future Constitution européenne devraient être organisés dans chaque Etat de l'UE le 13 juin 2004, date prévue pour les prochaines élections européennes. Un projet de Constitution pour l'Europe élargie Après plus de quinze mois de travaux, la Convention sur l'avenir de l'Europe est parvenue à un accord, vendredi, sur un projet de Constitution pour l'Europe élargie. Il sera présenté au Conseil européen de Thessalonique, du 19 au 22 juin. Des référendums de ratification sur la future Constitution européenne devraient être organisés dans chaque Etat de l'UE le 13 juin 2004, date prévue pour les prochaines élections européennes. rendu source URL de l'article texte du lien vers l'article

2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général

2/7/2003© Jacques Vergne JFT' corpus des "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites centrer les termes sur des mots pleins --> repérer les mots vides et les mots pleins même très fréquents (guerre, war ) sans analyse syntaxique, ni dictionnaire, ni stoplist dans un corpus multilingue ( à mots) de langues alphabétiques, non diagnostiquées extraire les termes

2/7/2003© Jacques Vergne JFT' méthodes d'André Salem, Helena Ahonen, François Rousselot : - recherche de motifs répétés en utilisant des algorithmes extrapolés de l'algorithme glouton (recherche des n-grammes à partir des n-1-grammes) - les motifs les plus répétés sont les mots vides de la langue traitée - pour éviter de les prendre comme termes, ces méthodes ont, en entrée, les mots vides de la langue traitée (stopword-list) l'existant : motifs répétés

2/7/2003© Jacques Vergne JFT' sans stoplist mais : seuil sur l'effectif des mots => silence sur les mots pleins fréquents Zipf : "the principle of least effort" plus un mot est fréquent, plus il est court les mots courts et fréquents sont les mots vides Saussure : "dans la langue, il n'y a que des différences" => se servir des différences de longueur et d'effectif de 2 mots contigus pas d'autre ressource que le corpus traité lui-même comment poser le problème

2/7/2003© Jacques Vergne JFT' ) Étudier le corpus pour en extraire les mots vides 2) Générer les termes candidats autour des mots pleins extraire les termes : processus (0)

2/7/2003© Jacques Vergne JFT' ) Étudier le corpus pour en extraire les mots vides segmenter le corpus sur les limites de textes de liens et sur les ponctuations --> virgulots pour chaque virgulot, rechercher les séquences : Plein | vide | Plein Plein | vide vide | Plein à partir des différences de longueur et d'effectif extraire les termes : processus (1)

2/7/2003© Jacques Vergne JFT' différences Plein vide 1 < 10 effectifs +rare +fréquent pour chaque virgulot, rechercher les séquences PvP et PvvP Manifestazioni per la pace in tutto il mondo 14 > 3 longueurs +long +court extraire les termes : processus (2) différence Pv (a, b) = longueur(a)>longueur(b) & effectif(a)<effectif(b) différence vP (a, b) = longueur(a) effectif(b) 2 < 4 +court +long 207 > 2 +fréquent +rare vide Plein 5 > 2 +long +court 3 < 19 +rare +fréquent Plein vide < 5 +long > 3 +rare Plein

2/7/2003© Jacques Vergne JFT' ) Générer les termes candidats autour des mots pleins selon les motifs : P+ Manifestazioni pace tutto mondo P+ v+P+ Manifestazioni per la pace pace in tutto tutto il mondo P+ v+P+ v+P+ Manifestazioni per la pace in tutto pace in tutto il mondo extraire les termes : processus (3)

2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général

2/7/2003© Jacques Vergne JFT' pour chaque terme, calculer sa liste de sites et sa liste d'articles Irak (14 sites - 29 articles) : guerre (8 sites - 11 articles) : terme : 1 nœud du graphe, pondéré par le nombre de sites (au moins 2 sites)

2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général

2/7/2003© Jacques Vergne JFT' calculer les relations entre termes (1) 2-41http:// Irak : George Bush presse l'ONU, les débats font rage en Europe Le président américain exige du Conseil de sécurité qu'il "tienne parole". La marche vers la guerre divise les dirigeants européens et les met aussi en difficulté dans leurs pays respectifs http:// Lire les articles ON VOUS EN DIT PLUS L'ARME DU RIRE Alors que le monde attend la guerre en Irak, les spectacles des humoristes, les comédies et les films comiques font recette. De tous temps, les hommes ont tenté d'exorciser leurs peurs en s'en moquant. Et de se défendre en riant. En 1940, Charlie Chaplin singeait Hitler dans son film "Le Dictateur" et, en 1963, le "Docteur Folamour", de Stanley Kubrick, tournait en dérision la Guerre froide alors à son paroxysme. De nos jours, la recette n'a pas changé et, alors que des bruits de bottes se font entendre du côté de l'Irak, on tente de les oublier en riant. (Photo P. JAMES) Saddam Hussein fabrique en secret des armes de destruction massive, accusent Washington et le président Bush. Ce que tentent de vérifier en Irak les inspecteurs en désarmement, emmenés par Hans Blix, ancien diplomate suédois. Les USA préparent la guerre. L'Europe, dans sa majorité, attend une décision de l'ONU. relation entre 2 termes = leur co-occurrence dans le même texte de lien

2/7/2003© Jacques Vergne JFT' calculer les relations entre termes (2) Irak (14 sites - 29 articles) : guerre (8 sites - 11 articles) : Irak guerre (3 sites - 3 articles) : <--- intersection des 2 listes 1 relation entre 2 termes : 1 arc du graphe, pondéré par le nombre de liens où les 2 termes sont co-occurrents

2/7/2003© Jacques Vergne JFT' quelques caractéristiques d'un graphe de termes 612 nœuds (les termes) arcs non orientés (relations de co-occurrences entre termes) (612 * 612) / = arcs potentiels densité du graphe : / = 1,49 %

2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général

2/7/2003© Jacques Vergne JFT' regrouper les termes fortement reliés pourquoi ? on obtient plusieurs centaines de termes on veut les présenter à l'utilisateur par groupes "thématiques" se servir des relations de co-occurrence et de leurs poids => pas besoin des algorithmes sur les graphes non pondérés : - composantes connexes - cliques maximales algorithme : parcours de la liste des couples de termes reliés, par poids décroissants on place le couple a-b dans un groupe avec les 2 règles suivantes : - si aucun groupe ne contient a ou b, créer un nouveau groupe et y mettre a et b - si un groupe existant contient a ou b ou les 2, placer a et b dans ce groupe (si a et b sont déjà dans 2 groupes différents, ne rien faire)

2/7/2003© Jacques Vergne JFT' regrouper les termes fortement reliés santé jeunes santé milieu scolaire jeunes milieu scolaire gouvernement santé gouvernement jeunes gouvernement milieu scolaire santé Sciences école milieu scolaire santé école santé santé des jeunes jeunes école santé Sciences et santé santé alcool santé tabac Sciences Sciences et santé milieu scolaire tabac milieu scolaire santé des jeunes jeunes tabac jeunes alcool école alcool jeunes santé des jeunes santé jeunes milieu scolaire Sciences école Sciences et santé alcool santé des jeunes gouvernement tabac groupe 3 groupe 8 Irak guerre France Conseil sécurité missiles Raffarin députés Conseil de sécurité guerre en Irak Parlement guerre gouvernement gouvernement tabac

2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général

2/7/2003© Jacques Vergne JFT' interface utilisateur santé école été alcool suivi loi gouvernement jeunes milieu scolaire santé des jeunes naviguer dans le graphe de terme en terme

2/7/2003© Jacques Vergne JFT' conclusion méthode minimale : - on ne se sert que des "Unes" : 1 seul document à télécharger par site - calcul des termes : sans autre ressource que le corpus des textes de liens - calculs indépendants des langues calcul d'un graphe de termes : nœuds = termes pondérés (sites - articles) arcs = relations pondérées entre termes (co-occurrences) groupage des termes : sur des propriétés du graphe pondéré interface : - naviguer dans le graphe des termes - lire les textes de liens - accéder aux articles

2/7/2003© Jacques Vergne JFT' vous êtes invités à une démonstration à partir de 10h30

2/7/2003© Jacques Vergne JFT' vos questions ?

2/7/2003© Jacques Vergne JFT'