Apéro Techno Romain Maragou - Aliou Sow Web sémantique.

Slides:



Advertisements
Présentations similaires
Définitions Analyse documentaire
Advertisements

De la politique de l'accès aux NTIC vers e-participation.
La recherche documentaire
« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
Sémantique et droit de la Fonction publique une boucle verticale
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Connecter des données métier à Office SharePoint Server 2007 via le Business Data Catalog.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Systèmes d'Information
« ARCHEODOC, un portail dynamique pour la recherche d’information en archéologie » Véronique HUMBERT (Lattes) Blandine.
Ontologie, Méta-données, Sémiotiques
METHODOLOGIE.
Indexation textuelle : Systèmes de recherche d’informations
Utilisation du CMS WordPress
Nouvelles Pratiques des catalogues. Rendre les données plus utiles sur le web. Publier des pages HTML sur lesquelles les utilisateurs et les moteurs de.
Chapitre 4 : la gestion électronique des documents
Mondeca Smart Content Factory
Web Sémantique: Le Relief Actuel
B2i Lycée Circulaire BO n°31 du 29/08/2013.
The Global Gender and Climate Alliance Un manuel de formation élaboré par: LAlliance Internationale sur le Genre et le Climat, (The Global Gender and Climate.
RDF(S)
Recherche Documentaire et traitement de l’information
La problématique de la recherche de document Journée de formation 29 février 2008.
G-RDF WEB SEMANTIQUE.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Web sémantique : Web de demain
École de bibliothéconomie et des sciences de linformation 1 Gestion de linformation électronique (GIE) Maîtrise en sciences de linformation EBSI Université.
Les techniques des moteurs de recherche
Convertisseur OWL vers RDF/RDFS
Ontologies et description du contenu de documents AV : Une expérimentation dans le domaine médical Mardi 31 mai 2005 Raphaël Troncy 1 & Antoine Isaac 2.
Outil d’analyse des réseaux sociaux à base de Web sémantique
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Vocabulaire La polysémie
Manuel Kervarker.org : l'accueil
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc Collaboration Abes/Lirmm dans le cadre.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Martine Toussaint Desir
Web sémantique est pratique documentaire
Les communautés virtuelles de pratique en action : Technologies et facteurs de succès « Les opportunités et enjeux des communautés virtuelles de pratique.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Recherche d’information
17/04/ DIMOCODE. 2 Présentation DIMOCODE : Plate-forme de gestion documentaire Permet la dépose et l’indexation précise de documents Organisée autour.
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Struts.
La TECHNOLOGIE en 5ème.
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
TEXT MINING Fouille de textes
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser l’accès aux ressources scientifiques en éducation » Introduction.
Les Systèmes de Gestion de Contenu (CMS) Allirand Maud Chabord Grégoire Massart Anne-Sophie 24 novembre 2006.
Introduction avec Access Quinio Nanterre 2008
Chapitre 1 introduction au web sémantique
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Initiation aux bases de données et à la programmation événementielle
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T ProdInra en Web sémantique Esther Dzalé Y. Kaboré Sophie Aubin Hugues Leiser.
Démarche d’enseignement de l’APL : analyser
CMS : SPIP Formation PBC – Septembre SPIP = Système de publication Internet SPIP = Système de publication Internet SPIP = CMS = Content Management.
Préparé par : Marouane FELJA
Année Universitaire : 2013/2014 Réalisée par: Rahma DAIKHI Encadrants : M. Jean-Yves TIGLI M. Stéphane LAVIROTTE Au sein de : Laboratoire I3S, Equipe RAINBOW.
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Formation web sémantique J.M. Vanel RDF, RDF Schema, SPARQL, OWL, Modélisation, moteurs de règles Licence Creative Commons.
Transcription de la présentation:

Apéro Techno Romain Maragou - Aliou Sow Web sémantique

Plan :  Introduction  Cas d’utilisation chez Canal+  Mise en œuvre  Questions ?

Introduction  Utilise le web existant  Ensemble de technologies permettant de : Structurer les informations Les lier Leur ajouter du sens (métadonnée)  Passer des pages Web à un index hiérarchisé  Favoriser la compréhension des données par des machines  Utiliser le langage naturel et avoir une réponse précise

Utilisation chez Canal+

Contexte d’utilisation chez Canal+  Base de données Programme  Canal+ achète de l’information (Plurimédia) Informations du programme Critiques, notes (Allociné) Etc. …  Ajouter de l’information pertinente aux programmes  Recherche et recommandations plus précises et plus pertinentes

Enrichissement éditorial  Suggérer de l’information supplémentaire sur un programme pour l’enrichir  Récupérer des informations (gratuites !) sur d’autres sources de données  Problèmes rencontrés : Grande quantité d’informations Performance d’une requête Pertinence de l’information  Stade expérimental Enrichir la base de données des programmes

Exemple enrichissement programme

Contenu supplémentaire issu du web

Exemple enrichissement programme Contenu supplémentaire issu du web

Exemple enrichissement programme

Recommandation et Regroupement de programmes (en cours)  Réconciliation de programmes à partir d’un nombre de points communs après enrichissement  Enrichir les liens entre les différentes entités Film / Personnage => acteur joue dans film metteur en scène dirige film) Mieux structurer la base de données des programmes

Recherche ciblée (en cours)  Mise en avant de programmes plus précise à partir de la consommation d’un abonné  Recherche sémantique pour répondre à des questions assez simples Mieux utiliser la base de données des programmes Les Films où joue Brad Pitt ? « filmographie Brad Pitt » « Brad Pitt Wikipédia » « Brad Pitt Allociné » « Brad Pitt joue au poker à Las Vegas » « etc. »

Recherche ciblée (en cours) Les Films où joue Brad Pitt ? « Seven » « Inglourious Basterds » « Fight club »... Mieux utiliser la base de données des programmes

Mise en œuvre

Technologies utilisées – représentation des données  Identifiant de Ressource Universelle : URI  Langages de représentation des données : RDF Langage de base du Web Sémantique Langage de définition de graphe Ensemble de triplets : RDFS Extension de RDF Ajoute des concepts de classes, de sous-classes et de type de propriétés OWL (ontologie) Extension de RDF et RDFS Langage de définition des ontologies Ajoute des concepts de classes équivalentes, de propriétés équivalentes, d’égalité ou de différence de ressources, de contraire, de symétrie et cardinalité. Expressivité SujetObjet Prédicat

Technologies utilisées – règles et interrogations  Règles d’inférence : RIF  Langage de requête : SPARQL

Tennis Rafael Nadal Roland Garros Espagnol Tennis Rafael Nadal Roland Garros Espagnol Joueur de nationalité A gagné SujetObjet Prédicat Web traditionnelWeb sémantique Annotations typées des liens entre les ressources sous forme de triplet « Sujet, Prédicat, Objet » Web Sémantique

Création et peuplement d’une ontologie avec Protégé

Protégé Mieux structurer la base de données des programmes

Protégé Mieux structurer la base de données des programmes

Protégé Mieux structurer la base de données des programmes

Apache Stanbol

 Outil open source, ensemble de services de gestion de contenu accessible par web services REST (extension CMS)  Fonctionnalités principales : Annotations sémantiques d’information (ajout de métadonnées) Extraction de données et liaison à d’autres informations (privées ou publiques) Personnalisation possible avec un vocabulaire personnel (index Solr) Moteur de requête SPARQL Outil utilisé : Apache Stanbol Mieux utiliser la base de données des programmes

Apache Stanbol – Les différents composants Mieux utiliser la base de données des programmes

 Les Moteurs d’analyse sémantique sont les composants responsables de « la compréhension » du contenu. Tika : permet de convertir le contenu parsé en « text/plain » langid : permet de détecter la langue du texte parsé Ner : permet d’extraire les entités connues (personnes, organisations, lieux ) du texte parsé dbpediaLinking : permet de lier les entités extraites avec celles définies par dbpedia.org Etc.  Une Chaîne d’analyse sémantique définit comment le contenu parsé par le « Enhancer » est traité. Donc quels Moteurs d’analyse sémantique sont utilisés et dans quel ordre. Il en existe plusieurs types Apache Stanbol – Les Moteurs et Chaînes d’analyse sémantique Mieux utiliser la base de données des programmes

 Possibilité de créer et/ou configurer des Chaînes d’enrichissement Apache Stanbol – Enrichissement de données Utilise une Chaîne de Moteurs d’analyse sémantique pour parser un contenu textuel, l’enrichit avec données connues (personnes, lieues, organisation), propose des liens pour accéder à ses sources de données. Mieux utiliser la base de données des programmes

 Création d’un index Solr à partir d’une ontologie custom ou de n’importe quelle donnée structurée (exemple dbpedia):  Un index pour stanbol est constitué de 2 parties: org.apache.stanbol.data.site.{nom}-{version}.jar, contenant la configuration générale de l’index (nom, données et champs indexés, etc.) {nom}.solrindex.zip, contenant les données et le schéma de l’index  Création du moteur d’enrichissement permettant l’utilisation de cet index, puis intégration dans une chaîne d’enrichissement Apache Stanbol – Utilisation de données locales Enrichir la base de données des programmes

 Classement, hiérarchisation de données (ex: bibliothèque)  Favorise le travail collaboratif dans un domaine (ex: santé)  Plus de barrière de la langue (en théorie)  Structure des bases de connaissances (ex: DBPedia)  Etc … Mais aussi …

Des Questions ?