Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques et Finalités Les développements technologiques de l’internet et des grandes bases de données réparties, liés à l’essor de nouveaux domaines comme le multimédia ou la biologie, génèrent une quantité gigantesque de données. Il faut développer les outils permettant de traiter ces données à grande échelle, de les analyser, de les interroger et de les représenter de façon synthétique. Ces données sont de natures extrêmement diverses, elles peuvent se présenter en vrac, sous une forme structurée ou être déjà organisées dans des bases de données. Il faut pour les traiter développer des outils génériques, facilement adaptables aux types de données et aux besoins, capables d’extraire automatiquement des connaissances à partir de ces données. Les méthodes d’apprentissage, exploitant des formalismes numériques ou symboliques, des techniques comme l’inférence grammaticale ou des méthodes ad-hoc développées pour les bases de données, donnent les bases formelles et algorithmiques permettant de répondre à ces besoins. Le réseau a pour vocation de fédérer et guider les recherches dans trois grandes directions : Faire évoluer les méthodes formelles issues des différents domaines de l’apprentissage afin de répondre à l’évolution des problèmes et aux nouveaux besoins. Adapter ces méthodes pour des grands domaines d’application et développer des collaborations avec les spécialistes de ces domaines d’application. Développer les chaînes de traitement en collaboration avec différents domaines de l’informatique (interfaces, bases de données, etc). Patrick Gallinari : Amedeo Napoli : Caractéristiques Mots clés Date de lancement : Juillet 2002 Responsable(s) Comité de pilotage Extraction de connaissances, apprentissage statistique et symbolique, recherche d’information textuelle et multimédia, accès à l’information, grands corpus, modèles de l’utilisateur. Laboratoires impliqués AS20 - Extraction - Fouilles de bases de données Animateur : Michele Sebag (Laboratoire de Recherche en Informatique) AS45 - Indexation Multimédia : transmodalité et gestion des connaissances Animateurs : Philippe JOLY (IRIT UMR 5505) AS90– Apprentissage, fouille de données et bioinformatique Animateurs: François Denis (LIF Marseille), Jean-Daniel Zucker (Paris 13) Conjoint avec RTP 41 Bioinformatique D.STIC : L. Farinas Membres : P. Gallinari (LIP6), R. Gilleron (Lille 3), A. Napoli (LORIA), M. Sebag (LRI), D. Zighed (ERIC) ERIC / EA3083 / Lyon LIP6 / UMR7606 / Paris LORIA / UMR7503 / Nancy LRI / UMR8623 / Orsay Université Lille 3 Développement de méthodes de l’apprentissage propres à répondre aux nouveaux besoins de traitements des données, avec en particulier : Le Passage à l’échelle (e.g. données du web, données génomiques) Méthodes adaptatives (suivi de l’évolution des données) Le développement de Méthodes robustes (données bruitées) Le Traitement de données structurées complexes (texte, multimédia, biologie, etc) Les Problèmes liés à la constitution des grandes bases de données – problèmes d’étiquetage (apprentissage à partir d’exemples positifs, semi-supervisé) Apprentissage pour des grands domaines applicatifs : Fouille de données Fouille de texte (recherche et extraction d'information, veille et suivi d'information) Recherche d’information sur les données multimédia Traitement des données du web (e.g. documents scientifiques, techniques, culturels, analyse de sites) Traitement d’informations biologiques (en liaison avec le RTP bioinformatique) Traitement des données utilisateur Activités développées