Détecter linnovant sur le web par des techniques non booléennes : méthode, outils, application Eric Boutin, USTV, Gabriel Gallezot, UNS, Luc Quoniam, USTV,
Le cycle de vie de linformation émergencecroissancematuritédéclin temps Qté dinformation perceptible Notre objet détude : lémergent KD Capacité à agir sur son environnement Lorganisation doit subir des contraintes exogènes
Le KDD ( Knowledge Discovery in Databases ): Etat de lart et perspective Principales caractéristiques Etat de lartPerspective de ce travail Source dinformation privilégiée BDD bibliographiqueInformation provenant du web Traitement de linformation utilisée Techniques non booléennes (logique transitive, …) Champ dapplication privilégié médicalgénéralisation
Plan Etat de lart (domaine médical) Méthode proposée Illustration expérimentale identifier des indicateurs de pertinence innovants dans le domaine des moteurs de recherche
Phases de recherche et développement dun médicament Un processus : coûteux : 820 millions US$ par médicament (18% du chiffre daffaires consacré à la R&D) risqué : 1 molécule sur deviendra un médicament long : 10 ans defforts pour créer un médicament
Nouvelle cible Nouvelle molécule Médicament sur le marché Changement dindication Cible connue Nouvelle molécule DéveloppementRecherche KDD Utilisations possibles du KDD dans la création de nouveaux traitements Daprès Pierret (2005)
Innovation mise en perspective historique Temps Connaissances disponibles Compartimentation des savoirs Daprès Swanson (1986)
Principe de logique non booléenne : le modèle de Swanson lhuile de poisson est connue pour réduire la viscosité sanguine et lagrégation plaquettaire la maladie de Raynaud est caractérisée par une grande viscosité sanguine et une forte agrégation plaquettaire Jusquen 1985, ces deux données nétaient pas liées A huile de poisson B agrégation plaquettaire viscosité du sang C Maladie de Raynaud Maladie Effet physiologique Médicament
Modèle proposé : C ontext P roblem S olution Contexte A Etude de fonctions en mathématiques Solution A Algorithmes génétiques Contexte B solution B Problème optimisation Une dimension pivot Connu Ouverture Détecter une solution nouvelle ? Détecter un domaine applicatif nouveau ? Transitivité Potentielle
Étapes du traitement de linformation S P P1P1 P2P2 PnPn … Liste de mots clés THESAURUS (ex : Rameau) P1P1 P2P2 PnPn PaPa PbPb PcPc Réseau PnPn PbPb Métamoteur Classificateur (Clusterisation) Connexion latente identification de plusieurs P Généralisation et abstraction Exploration : parents, enfants, frères Choix de termes et combinaisons possibles Génération de possibles Détection
Validation expérimentale : nouvel indicateur de pertinence de moteur de recherche ? Contexte Moteurs de recherche Problème Pertinence, Évaluation … Ranking criteria Relevance indicator … Solution Indicateurs content centric Indicateur business centric Indicateur link centric Indicateur user centric …
Le recours au thésaurus Repérage des CFC : Analyse de réseau Recherche opérationnelle => Pistes à suivre ? + Génération de nveaux mots clés : Hypergraphes Sociométrie Topologie floue
Le recours au méta moteur classificateur ou moteur qui clusterise « sociometric network » « sociometric measures » « centrality measures » degree centrality, closeness centrality, information centrality Pistes potentielles
En guise de conclusion Démarche de suggestion des possibles à un expert Subjectivité : biais des outils, biais de la langue (traduction), biais expert … Parallèle possible avec la méthodologie de la recherche documentaire : mais non booléen + introduction de la serendipity Evaluation de la méthode par lanalyse détudes de cas (différents outils, niveau dexpertise, …)