Fast and Furious Decision Tree Induction Projet 4INFO INSA Rennes Fast and Furious Decision Tree Induction Andra BLAJ Nicolas DESFEUX Emeline ESCOLIVET Simon MANDEMENT Renaud PHILIPPE Gareth THIVEUX Encadreurs : Nikolaos PARLAVANTZAS Christian RAYMOND le 27/05/11
Contexte Origines du projet Projet lié aux activités de recherche de l’IRISA. Équipe Texmex: exploitation de documents multimédia. Équipe Myriads: développement et administration de systèmes distribués à large échelle.
Contexte Objectifs Objectifs Développer un algorithme capable de faire de l’apprentissage automatique. Créer des arbres aidant à la décision. Traiter des données > mémoire. Réduire le temps d’exécution via la parallélisation. Obtenir un outil générique pour l’adapter à plusieurs domaines. La problématique est: le volume des données à traiter est gigantesque (vidéo, fichiers textes). Donc il faut des outils capables de faire de l’apprentissage automatique sur de grands volumes de données. But du projet: développer un algorithme capable de le faire. Ensuite, plus précis: un arbre de décision. Fil rouge: un exemple « jouet » = la base de données médicale. Algo générique capable de traiter de gros volumes de données (d'ou l'association myriad texmex) (donner un exemple d'utilisation par exemple le repérage des entités nommées dans le texte noms de personnes, de dates, de lieu pour après les exploiter dans la recherche documentaire ou le résumé automatique de texte, la traduction etc) les gens ne connaissent pas forcement l'apprentissage automatique et ne savent pas a quoi on peut l'appliquer
Résumé Fast and Furious Decision Tree Induction : Projet à l’origine d’équipes de l’IRISA. Création d’arbres aidant à la décision. Traitement des fichiers de données volumineux grâce à une parallélisation des calculs. - Projet à l’origine d’équipes de l’IRISA, travail combiné des équipes Texmex et Myriads. - Création d’arbres aidant à la décision, reproduction du comportement d’un expert - Généralisation du fonctionnement pour l’adapter à tous les domaines : bioinformatique, textes, génétique, - Traitement des fichiers de données volumineux grâce à une parallélisation des calculs gérée par la technologie Hadoop/MapReduce Réussite et respect des délais passent par une bonne planification et un suivi régulier. Comme on dit : « If you fail to plan, then you plan to fail ».