Analyse des données des puces ADN

Slides:



Advertisements
Présentations similaires
L'hybridation fluorescente (FISH)
Advertisements

Thomas G. Dietterich Approximate Statistical Tests for Comparing
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
RECONNAISSANCE DE FORMES
Test statistique : principe
Les tests d’hypothèses (I)
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Les TESTS STATISTIQUES
3. Analyse et estimation du mouvement dans la vidéo
A Pyramid Approach to Subpixel Registration Based on Intensity
Régression -corrélation
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
QTLmap et les données ayant une distribution non gaussienne
Lecture critique MA.
Méthodes de Biostatistique
Identification des processus
Détection et isolation de défauts dans les procédés industriels Contrôle Statistique des Procédés Statistical Process Control (SPC)
Principe des puces à ADN
Régression linéaire simple
Groupe 1: Classes de même intervalle
Construction de modèles visuels
Le test t.
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
La régression multiple
Filtrage de Kalman et aperçu probabiliste
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Méthodologie expérimentale : l’analyse des données
Echantillonage pour une Evaluation d’Impact
M2 Sciences des Procédés - Sciences des Aliments
Analyse spectrale Raphaël ARROUAS Etienne OUSS
Probabilités et Statistiques Année 2010/2011
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
TNS et Analyse Spectrale
Étude de la corrélation entre la densité de marquage des cibles et la puissance du scanner lors d’une expérience de puce à ADN Axel POULET.
Recherche de motifs par projections aléatoires
Paramétrage en un essai pour une évaluation rapide
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
La PCR quantitative en temps réel
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
ATELIERS STATISTIQUES
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Quelques commentaires sur les tests statistiques
1 Licence Stat-info CM5a 2004 V1Christophe Genolini Problème Détection d’un phénomène particulier : –Flûtiste exceptionnelle ou moyenne –Groupe de TD super.
Analyse des semis de point
Probabilités et statistique MQT-1102
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Analyse des données des puces ADN On a deux images de la puce à partir des quelles il faut réussir à évaluer l’expression d’un gène. On procède par rapport à un échantillon de référence. Pour cela, on utilise deux marqueurs Cy3 et Cy5 sur deux échantillon distincts (dont un est constitué de cellules normales et servira de référence). On mesure la quantité de signal dans la longueur d'onde d’émission du fluorochrome vert et la quantité de signal dans la longueur d'onde d’émission du fluorochrome rouge. Puis on normalise ces quantités en fonction de divers paramètres (quantité de matériel biologique de départ dans chaque condition, puissance d’émission de chaque fluorochrome, ...). On suppose alors que la quantité d'ADN fluorescent fixée est proportionnelle à la quantité d'ARNm correspondant dans la cellule de départ et on calcule le ratio fluorescence rouge / fluorescence verte. Si ce ratio est supérieur à 1 (rouge sur l'image en fausses couleurs), le gène est plus exprimé dans la seconde culture, si ce ratio est inférieur à 1 (vert sur l'image en fausses couleurs), le gène est moins exprimé dans la seconde culture.

Acquisition des données Scanner la puce Évaluer quantitativement chaque spot Soustraire le signal de bruit Normaliser Transformer en tables d’intensités de fluorescence (organisme  gènes)

Défauts courants

Variabilité des données de transcriptome Les données de puces à ADN sont très variables (mesures de niveaux de mARN) Toute mesure de milliers de valeurs trouvera des différences importantes dues aux fluctuations aléatoires (distribution normale) Il faut utiliser des méthodes statistiques et de réplication pour vérifier que les différences sont réelles Il faut utiliser des réplications réelles (patients différents, expériences différentes) Sources potentielles de problèmes : Analyse d’image identifier et quantifier les spots Scannerisation Laser et détecteurs Chimie des marqueurs fluorescents Hybridisation Température, durée, mélange, … Étiquetage des sondes Extraction d’ARN Variabilité de nature biologique

Comparer la moyenne de deux groupes signal difference between group means = noise variability of groups _ _ XT - XC = _ _ SE(XT - XC) low variability

Etude des radiations Danger indiscutable dans certains cas. En particulier pour les fortes doses d’irradiation. Quel impact des faibles doses ? Biologiquement aucun détecté Y a-t-il d’autres effets ?

Protocole expérimental S. Cerevisiae en croissance exponentielle (séquencée complètement et eucaryote avec peu de gènes). Six cultures (Irradiées I) exposées pendant 20 heures entre 15 et 30 mGy/h Douze cultures non exposées (Non Irradiées NI) Mesure effectuées sur puce Corning où l’hybridation a été faite avec double marquage fluorescent (Cy3 pour les cADN contrôles et Cy5 pour les cADN étudiés).

Normalisation des données La normalisation a été réalisée par LOWESS ( LOcally WEighted Scatterplot Smoothing ), Julie PEYRE & Anestis ANTONIADIS (IMAG) Où R et G sont les niveaux d’intensité de Rouge et de Vert.

Analyse du transcriptome sur la levure L’irradiation à de faibles doses est-elle détectable ? Nombre de gènes impliqués dans la réponse à une irradiation à faible dose ? Groupes de gènes impliqués dans la réponse à l’irradiation et de quelle manière ? Est-il possible de deviner le traitement subi par une levure en regardant l’expression de son génome ? Peut-on généraliser cette approche à d’autres types de traitements (pollutions, cancer, ...)

Les sources de problèmes Présence de bruit dans les données à deux niveaux : Imprécision de la mesure : bruit classique supposé gaussien, bruit qui est très élevé pour certains gènes (cf doubles mesures) Présence de valeurs aberrantes dues à un problème lors de l'hybridation Données déjà normalisées Nombreux attributs : 6157 gènes Très faible nombre d’instances : 12 cultures non-traitées, 6 irradiées Classes déséquilibrées (elles ne contiennent pas le même nombre d'éléments) Absence d'indépendance conditionnelle probabiliste entre les gènes

Démarche Méthode directe de discrimination : illusoire mais essayée… On conserve les gène dont le log ratio a dépassé 3 fois la valeur 1 (par exemple) Trop de « solutions » Aucune garantie sur chacune d’elles Prétraitement : Sélection d’attributs Approche directe Approche « wrapper » Approche par filtrage Réduction de dimensionnalité Groupement de gènes a priori (réseaux de régularisation)

Sélection (estimation) d’attributs Hypothèse de linéarité Chaque attribut pertinent a une corrélation directe (mesurable) avec la classe Quelle garantie sur chaque attribut sélectionné ? Sélection Chaque attribut passe un test Estimation On ordonne les attributs en fonction d’un critère de performance Quel seuil (choisi globalement) ? Quelle confiance ?

Sélection Techniques classiques (FOCUS, RELIEF, Wrappers, Embeded techniques) Trop peu de garantie sur chaque corrélation détectée (attribut) Comparaison à hypothèse nulle globale Interprétation / confirmation par les biologistes

Utilisation d’ANOVA Deux classes (Irradiée / Non Irradiée) N(m1,s) et N (m2,s) Comparaison Variance intra-classe Variance inter-classes Hypothèse nulle H0 : m1 = m2 Rejet si significativement trop grand par rapport aux quantiles de la foi F (k-1,n-k)

Utilisation d’ANOVA (suite) On peut aussi calculer la p-value pour chaque gène et ordonner les gènes probabilité que le test rejette l’hypothèse H0 à tort

SAM (Significance Analysis of Microarrays) Pour chaque gène : déviation standard Constante > 0 Gènes potentiellement significatifs : gènes dont le score d(g) est supérieur au score moyen du gène obtenu après permutations des classes, de plus d’un certain seuil D Calcul du nombre de gènes faussement significatifs : nombre moyen de gènes faussement significatifs pour chaque permutation Taux de fausse découverte (FDR)

RELIEF Une lame L est vue comme un point dans un espace à p = 6157 dimensions On cherche ses k plus proches voisins dans la même classe et on les note Hi (nearest Hit) On calcule ses k plus proches voisins dans l’autre classe et on les note Mi (nearest Miss). où est la projection selon gène du point x, et m est le nombre total de lames. Le poids calculé pour chaque gène gène est ainsi une approximation de la différence de deux probabilités comme suit : Poids(gène) = P (gène a une valeur différente / k plus proches voisins dans une classe différente) - P (gène a une valeur différente / k plus proches voisins dans la même classe) Algorithme polynomial : Q(pm2) Rôle de k : prise en compte du bruit Pas de supposition d’indépendance des gènes

RELIEF

Sélection des attributs Y a-t-il vraiment de l’information dans les données ? Quels gènes retenir ? Avec quelle confiance ?

Comparaison à l’Hypothèse nulle Nombre de gènes dont le poids dépasse la valeur repérée en abscisse rouge : Avec les classes réelles ; bleu : Courbe moyenne obtenue avec des classes aléatoires

Précision ou rappel Il faut choisir entre : Une liste contenant presque tous les gènes impliqués mais comportant des faux-positifs Une liste de gènes impliqués de manière quasi-certaine dans la réponse à l’irradiation (quitte à ne pas avoir tous les gènes impliqués)

Répartition des meilleurs gènes

Tâche de classification Plusieurs techniques ont été utilisées Vote « d’experts » Technique du maximum de vraisemblance K plus proches voisins Essai de classification en aveugle sur six nouvelles lames :

Interprétation biologique

Résultats Les données reflètent-elles la présence de l’irradiation ? oui Combien de gènes sont-ils impliqués ? Plus de 100 Y a-t-il des groupes de gènes impliqués et lesquels ? Oui : ATP synthesis, oxidative phosphorylation et oxidative stress response Est-il possible de déterminer si une levure est irradiée en regardant son transcriptome ? Oui et il suffit de ne regarder qu’un petit nombre de gènes

Le gène 1575