Un système de calcul des thèmes de l'actualité à partir des sites de presse de l'internet Jacques Vergne GREYC - Université de Caen Journées Francophones de la Toile 2003
2/7/2003© Jacques Vergne JFT' sites de presse --- système ---> revues de presse utilisateurs : journalistes, internautes "de quoi et de qui est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?" inversion de la problématique des moteurs de recherche mots-clés (thèmes) ---> documents espace de recherche ---> thèmes principaux de l'actualité revue de presse les "Unes" des sites de presse ---> hyperliens : URL et code source des "textes" des hyperliens la "Une" du Monde le système (1)
2/7/2003© Jacques Vergne JFT' "textes" des hyperliens des "Unes" : un choix éditorial des journalistes des sites de presse "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites ---> graphe de termes nœuds = termes pondérés (sites - articles) arcs = relations pondérées entre termes (co-occurrences de 2 termes dans un même texte de lien) l'utilisateur navigue dans ce graphe de terme en terme et accède à des textes de liens et à des articles la "Une" du Monde le système (2)
2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général
2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général
2/7/2003© Jacques Vergne JFT' télécharger et analyser la "Une" de chaque site Un projet de Constitution pour l'Europe élargie Après plus de quinze mois de travaux, la Convention sur l'avenir de l'Europe est parvenue à un accord, vendredi, sur un projet de Constitution pour l'Europe élargie. Il sera présenté au Conseil européen de Thessalonique, du 19 au 22 juin. Des référendums de ratification sur la future Constitution européenne devraient être organisés dans chaque Etat de l'UE le 13 juin 2004, date prévue pour les prochaines élections européennes. Un projet de Constitution pour l'Europe élargie Après plus de quinze mois de travaux, la Convention sur l'avenir de l'Europe est parvenue à un accord, vendredi, sur un projet de Constitution pour l'Europe élargie. Il sera présenté au Conseil européen de Thessalonique, du 19 au 22 juin. Des référendums de ratification sur la future Constitution européenne devraient être organisés dans chaque Etat de l'UE le 13 juin 2004, date prévue pour les prochaines élections européennes. rendu source URL de l'article texte du lien vers l'article
2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général
2/7/2003© Jacques Vergne JFT' corpus des "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites centrer les termes sur des mots pleins --> repérer les mots vides et les mots pleins même très fréquents (guerre, war ) sans analyse syntaxique, ni dictionnaire, ni stoplist dans un corpus multilingue ( à mots) de langues alphabétiques, non diagnostiquées extraire les termes
2/7/2003© Jacques Vergne JFT' méthodes d'André Salem, Helena Ahonen, François Rousselot : - recherche de motifs répétés en utilisant des algorithmes extrapolés de l'algorithme glouton (recherche des n-grammes à partir des n-1-grammes) - les motifs les plus répétés sont les mots vides de la langue traitée - pour éviter de les prendre comme termes, ces méthodes ont, en entrée, les mots vides de la langue traitée (stopword-list) l'existant : motifs répétés
2/7/2003© Jacques Vergne JFT' sans stoplist mais : seuil sur l'effectif des mots => silence sur les mots pleins fréquents Zipf : "the principle of least effort" plus un mot est fréquent, plus il est court les mots courts et fréquents sont les mots vides Saussure : "dans la langue, il n'y a que des différences" => se servir des différences de longueur et d'effectif de 2 mots contigus pas d'autre ressource que le corpus traité lui-même comment poser le problème
2/7/2003© Jacques Vergne JFT' ) Étudier le corpus pour en extraire les mots vides 2) Générer les termes candidats autour des mots pleins extraire les termes : processus (0)
2/7/2003© Jacques Vergne JFT' ) Étudier le corpus pour en extraire les mots vides segmenter le corpus sur les limites de textes de liens et sur les ponctuations --> virgulots pour chaque virgulot, rechercher les séquences : Plein | vide | Plein Plein | vide vide | Plein à partir des différences de longueur et d'effectif extraire les termes : processus (1)
2/7/2003© Jacques Vergne JFT' différences Plein vide 1 < 10 effectifs +rare +fréquent pour chaque virgulot, rechercher les séquences PvP et PvvP Manifestazioni per la pace in tutto il mondo 14 > 3 longueurs +long +court extraire les termes : processus (2) différence Pv (a, b) = longueur(a)>longueur(b) & effectif(a)<effectif(b) différence vP (a, b) = longueur(a) effectif(b) 2 < 4 +court +long 207 > 2 +fréquent +rare vide Plein 5 > 2 +long +court 3 < 19 +rare +fréquent Plein vide < 5 +long > 3 +rare Plein
2/7/2003© Jacques Vergne JFT' ) Générer les termes candidats autour des mots pleins selon les motifs : P+ Manifestazioni pace tutto mondo P+ v+P+ Manifestazioni per la pace pace in tutto tutto il mondo P+ v+P+ v+P+ Manifestazioni per la pace in tutto pace in tutto il mondo extraire les termes : processus (3)
2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général
2/7/2003© Jacques Vergne JFT' pour chaque terme, calculer sa liste de sites et sa liste d'articles Irak (14 sites - 29 articles) : guerre (8 sites - 11 articles) : terme : 1 nœud du graphe, pondéré par le nombre de sites (au moins 2 sites)
2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général
2/7/2003© Jacques Vergne JFT' calculer les relations entre termes (1) 2-41http:// Irak : George Bush presse l'ONU, les débats font rage en Europe Le président américain exige du Conseil de sécurité qu'il "tienne parole". La marche vers la guerre divise les dirigeants européens et les met aussi en difficulté dans leurs pays respectifs http:// Lire les articles ON VOUS EN DIT PLUS L'ARME DU RIRE Alors que le monde attend la guerre en Irak, les spectacles des humoristes, les comédies et les films comiques font recette. De tous temps, les hommes ont tenté d'exorciser leurs peurs en s'en moquant. Et de se défendre en riant. En 1940, Charlie Chaplin singeait Hitler dans son film "Le Dictateur" et, en 1963, le "Docteur Folamour", de Stanley Kubrick, tournait en dérision la Guerre froide alors à son paroxysme. De nos jours, la recette n'a pas changé et, alors que des bruits de bottes se font entendre du côté de l'Irak, on tente de les oublier en riant. (Photo P. JAMES) Saddam Hussein fabrique en secret des armes de destruction massive, accusent Washington et le président Bush. Ce que tentent de vérifier en Irak les inspecteurs en désarmement, emmenés par Hans Blix, ancien diplomate suédois. Les USA préparent la guerre. L'Europe, dans sa majorité, attend une décision de l'ONU. relation entre 2 termes = leur co-occurrence dans le même texte de lien
2/7/2003© Jacques Vergne JFT' calculer les relations entre termes (2) Irak (14 sites - 29 articles) : guerre (8 sites - 11 articles) : Irak guerre (3 sites - 3 articles) : <--- intersection des 2 listes 1 relation entre 2 termes : 1 arc du graphe, pondéré par le nombre de liens où les 2 termes sont co-occurrents
2/7/2003© Jacques Vergne JFT' quelques caractéristiques d'un graphe de termes 612 nœuds (les termes) arcs non orientés (relations de co-occurrences entre termes) (612 * 612) / = arcs potentiels densité du graphe : / = 1,49 %
2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général
2/7/2003© Jacques Vergne JFT' regrouper les termes fortement reliés pourquoi ? on obtient plusieurs centaines de termes on veut les présenter à l'utilisateur par groupes "thématiques" se servir des relations de co-occurrence et de leurs poids => pas besoin des algorithmes sur les graphes non pondérés : - composantes connexes - cliques maximales algorithme : parcours de la liste des couples de termes reliés, par poids décroissants on place le couple a-b dans un groupe avec les 2 règles suivantes : - si aucun groupe ne contient a ou b, créer un nouveau groupe et y mettre a et b - si un groupe existant contient a ou b ou les 2, placer a et b dans ce groupe (si a et b sont déjà dans 2 groupes différents, ne rien faire)
2/7/2003© Jacques Vergne JFT' regrouper les termes fortement reliés santé jeunes santé milieu scolaire jeunes milieu scolaire gouvernement santé gouvernement jeunes gouvernement milieu scolaire santé Sciences école milieu scolaire santé école santé santé des jeunes jeunes école santé Sciences et santé santé alcool santé tabac Sciences Sciences et santé milieu scolaire tabac milieu scolaire santé des jeunes jeunes tabac jeunes alcool école alcool jeunes santé des jeunes santé jeunes milieu scolaire Sciences école Sciences et santé alcool santé des jeunes gouvernement tabac groupe 3 groupe 8 Irak guerre France Conseil sécurité missiles Raffarin députés Conseil de sécurité guerre en Irak Parlement guerre gouvernement gouvernement tabac
2/7/2003© Jacques Vergne JFT' collecter les URL des sites de presse phase préparatoire manuelle = sourcing traitements sur l'ensemble des sites : - télécharger et analyser la "Une" de chaque site - extraire les termes des "textes" de liens - pour chaque terme, calculer sa liste de sites et sa liste d'articles entrer l'espace de recherche de l'utilisateur traitements sur les sites choisis par l'utilisateur : - calculer les relations entre termes - regrouper les termes fortement reliés - sortir les résultats = calculer l'interface processus général
2/7/2003© Jacques Vergne JFT' interface utilisateur santé école été alcool suivi loi gouvernement jeunes milieu scolaire santé des jeunes naviguer dans le graphe de terme en terme
2/7/2003© Jacques Vergne JFT' conclusion méthode minimale : - on ne se sert que des "Unes" : 1 seul document à télécharger par site - calcul des termes : sans autre ressource que le corpus des textes de liens - calculs indépendants des langues calcul d'un graphe de termes : nœuds = termes pondérés (sites - articles) arcs = relations pondérées entre termes (co-occurrences) groupage des termes : sur des propriétés du graphe pondéré interface : - naviguer dans le graphe des termes - lire les textes de liens - accéder aux articles
2/7/2003© Jacques Vergne JFT' vous êtes invités à une démonstration à partir de 10h30
2/7/2003© Jacques Vergne JFT' vos questions ?
2/7/2003© Jacques Vergne JFT'