Package JADE : Analyse en composantes principales (ACI)

Slides:



Advertisements
Présentations similaires
Developpement Process « Coding party !! » Tony Carnal Altran.
Advertisements

Suivi de Quelques Observations sur l’évolution de la Pression oculaire apport de l’HRT 2 Docteur Pascal CHASSOT Clinique du Boischaut LA CHATRE juin.
Modélisation Géométrique Cours 4 : Acquisition de la géométrie.
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Comparaison des méthodes de calcul de quartiles On considère la série statistique ci-dessous : Effectif total : 12.
Comparing color edge detection and segmentation methods Projet TIM.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Chapitre 16 Les matériaux d'une même famille ont-ils exactement les mêmes caractéristiques ?
Introduction La génétique initiée par Gregor Mendel (génétique mendelienne), a pour objectif: Comprendre le déterminisme et la transmission des caractères.
UML2 : Panorama de la notation Laurent Henocque Enseignant Chercheur ESIL/INFO France
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
PERFORMANCES D’TEST DE DEPISTAGE Dr S.AMAROUCHE Maître assistante Epidémiologie Université 3 Constantine SEMEP CHU Constantine.
Thème 8 : Stratégie d’échantillonage
Système d’aide à la décision Business Intelligence
Les Bases de données Définition Architecture d’un SGBD
Suites ordonnées ou mettre de l’ordre
Module de gestion des tournées de livraison
e-Prelude.com Analyse globale du flux
Deuxième partie : La courbe d’indifférence
1- Introduction :   En télécommunication , le signal transportant une information doit passer par un moyen de transmission entre un émetteur et un récepteur.
Comparaison de deux pourcentages.
Visite guidée - session 3 Les postes de charge et les gammes
Réalisé par : Ghilani Idriss Butadjine Oussama Rahmani Khaled
Détermination des propriétés texturales d’un solide poreux par traçage
L’organisation pédagogique de la Formation
Techniques de décomposition
Résumé de l’objectif de l’A.C.P.
Préparer par : Intissare et kaoutare
Rapport sable /gravier (S/G)
Identification des lois de comportement des tôles
Mesures de Variation, Coefficient Multiplicateur, Taux de Variation
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Un Algorithme , c'est Quoi ?
BFFA – M 4-5 Lausanne - David Savoy
Métrologie En Génie Civil
Les plans de mélange Les plans d’expérience : Présentée par :
Technologies de l’intelligence d’affaires Séance 12
Analyse en Composantes Principales
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Chapitre 8 : Fluctuation d’échantillonnage.
Méthode Taguchy Analyse de la variance Anavar
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation.
ACP Analyse en Composantes Principales
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Chapitre2: SGBD et Datawarehouse. On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle.
Amélioration de la résolution spatiale des sondeurs multifaisceau
Simulation de robots en MATLAB
Analyse des Données M.H. ZAIEM.
TECHNIQUES PHYSICO-CHIMIQUES D’ANALYSE
Apports de la statistique spatialisée
Expression du Génome Le transcriptome.
Lois de Probabilité Discrètes
AIAC GEET-12 Année : Régulation Industrielle: Programme M.BAHATTI.
Chapitre 4 Réflexion et réfraction de la lumière.
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
Les calculs usuels sur les prix
Prélude 7 ERP Module Supply Chain Le jeu compétitif
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Package FlexClust : Flexible Cluster Algorithms
Test de performances. Test de performances:  Un test de performance est un test dont l'objectif est de déterminer la performance d'un système informatique.
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
APPROCHE PEDAGOGIQUE DE L’AMORTISSEMENT ASPECTS TECHNIQUES
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Contenu Systèmes de test parallèles Multithreading Synchronisation
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Couche limite atmosphérique
Thème: les fibres OPTIQUE a gradient d’indice Réalisé par: Noutchieu Teugang Franck Cédric Sous l’encadrement de: M. Atangana André Marie 1 Année académique.
La programmation dynamique
Transcription de la présentation:

Package JADE : Analyse en composantes principales (ACI) Objectif de l’ACI : Identifier les sources de signal indépendantes qui sont mélangées Mélange des sources ACI

ACI : Problème du « Cocktail party » Source 1 Source 2 Conditions d’application : Au moins autant de capteurs qu’il y a de sources. Au maximum une source qui a un signal dont la distribution est normale. Source 3 Source 4 (Source : http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi)

ACI : Démonstration Signal mixte 1 Signal mixte 3 Signal mixte 2 Signal mixte 4

ACI : Démonstration Signal mixte 1 ACI comp 1 Signal mixte 2 (Source : http://andreas.welcomes-you.com/research/phd)

ACI : Principes statistiques Signal mixte 1 Signal mixte 2 … Signal mixte n {n lignes ; n composants} Sources indépendantes ACI m données Coefficients de mixage {n composants ; m colonnes} X = S A’

ACI : Principes statistiques Même principe que l’ACP, mais diffère par la manière de décomposer la matrice initiale.  L’ACI maximise l’indépendance entre les différents composants. Différents algorithmes existent pour maximiser cette indépendance : Minimization-of-Mutual information (MMI) : maximum entropy non-Gaussianity : kurtosis, negentropy

ACI : Application à la biologie Hypothèse d’application de l’ACI : Bio-process 2 Bio-process 1 ++ - - - Condition biologique Gène Sources Signal mixte Individu 1 {Bio-process 1 +++ ; Bio-process 2 -} {G1 ++ ; G2 + ; G3 - -; G4 - ; G5 - - -} Individu 2 {Bio-process 1 ++ ; Bio-process 2 - -} {G1 + ; G2 ++ ; G3 -; G4 - - ; G5 - -} … Individu n {Bio-process 1 +++ ; Bio-process 2 - -} {G1 +++ ; G2 0 ; G3 - - - ; G4 0 ; G5 - } Inconnu Observé ACI

ACI : Application à la biologie Différences avec l’ACP : 1°) L’analyse en composantes principales ne fournit aucune hiérarchie entre les composants : Si l’on demande n composants puis (n+1) composants, on ne retrouvera pas exactement les n premiers composants parmi l’analyse qui nous en fournit (n+1). Conséquence : Il est important de savoir combien de composants on doit demander à l’ACI Combien de processus biologiques majeures sont en jeu dans un système biologique placé sous une certaine condition ???

ACI : Application à la biologie Différences avec l’ACP : 2°) Il n’y a pas de contraintes d’orthogonalité entre les différents composants de l’ACI Conséquence : L’ACI peut donner une description plus précise du nuage de points multidimensionnels

Exemple sur un jeu de données réelles : ACP

Exemple sur un jeu de données réelles : ACI Analyse David sur les 200 sondes les plus contributrices de ce composant :

Exemple sur un jeu de données réelles : ACI Analyse David sur les 200 sondes les plus contributrices de ce composant :

ACI vs ACP Présentation des données simulées : - microarray avec 40.000 sondes - 2 X 4 échantillons : {M1_C1 ; F1_C1 ; F2_C1 ; F3_C1} vs {M1_C2 ; F1_C2 ; F2_C2 ; F3_C2} - Simulations de 1000 sondes DE entre les conditions C1 et C2 ( à l’origine, aucune) - Simulations de n sondes DE chez les individus M vs F On va comparer les performances de l’ACP et de l’ACI sur sa capacité à identifier les sondes qui contribuent à la séparation entre {C1;C2} et {M;F}. On va faire varier 2 paramètres : - le # de sondes DE entre M et F (n varie entre 20 et 1000) - l’intensité du différentiel entre M et F (logFC 1 à 9) Pour chacune des combinaisons (n;logFC), on sélectionne l’axe/le composant qui comprend le plus grand nombre de sondes que l’on a simulé différentiel. Pour les 1000 plus contributrices du composant sélectionné pour {C1;C2} (n pour {M;F}), on calcule le % de sondes qui font partie de celles que l’on a simulé.

logFC M vs F % sondes simulées parmi les plus contributrices # sondes DE M vs F

L’ACI est plus sensible que l’ ACP avec un nombre de sondes différentielles faible :

Quelque soit les différentiels appliqués sur {M;F}, l’ACI est stable et 100% exacte sur la comparaison {C1;C2}

ACP : quel est l’axe qui sépare C1 et C2 ?

ACI : sans ambiguïté

Que se passe-t-il quand on mixe sur une certaine proportion de sondes différentielles {C1;C2] et {M;F} ?

(Package de visualisation et d’animation 3D : rgl)

ACI : Implémentations sous R Package FastICA : Le plus populaire – Nécessite de moyenner plusieurs lancements (initialisation au hasard) Package JADE : Reproductible entre 2 lancements (initialisation par ACP) Package PearsonICA Script R RADICAL : http://people.cs.umass.edu/~elm/ICA/radical.R (non paramétrique à la différence de FastICA et JADE) #Mise en œuvre avec JADE > dim(tab) [1] 43795 8 > > library(JADE) > aci=JADE(tab,n.comp=6,eps= 1/(100*sqrt(ncol(tab))),maxiter=1000) > names(aci) [1] "A" "W" "S" "Xmu" > dim(aci$S) [1] 43795 6 > dim(aci$A) [1] 8 6

ACI : Applications Analyse de données d’electro-encéphalogrammes Analyse d’image Analyse de données biologique haut débit (Bio-marker) Analyse de données NMR, métabolomiques :