Introduction aux biopuces et à l’analyse du transcriptome

Slides:

Advertisements

Présentations similaires

Introduction à l’analyse

Advertisements

ANOVA à un facteur (Rehailia)

L'hybridation fluorescente (FISH)

Analyse des données des puces ADN

Regroupement (clustering)

Regroupement (clustering)

Introduction aux statistiques

I) Obtention de l’ADN recombinant

C1 Bio-statistiques F. KOHLER

Inférence statistique

Les TESTS STATISTIQUES

Tests de comparaison de pourcentages

Les TESTS STATISTIQUES

Régression -corrélation

Analyse de la variance à un facteur

PCR en temps réel (PCR quantitative)

Traitement de données socio-économiques et techniques d’analyse :

Transcription in vitro : principe et applications

Principe des puces à ADN

Groupe 1: Classes de même intervalle

Construction de modèles visuels

DEA Perception et Traitement de l’Information

Howell, Chap. 1 Position générale

Comprendre la variation dans les données: Notions de base

L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques

1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]

BioInformatique des micropuces

Thème 8 : l'observation et l'expérimentation

La méthodologie expérimentale Fondements et bases d’application

CHAPITRE 19 - La génétique des populations

Expression du Génome Le transcriptome.

La méthode enzymatique de séquençage, dite de (Sanger; didésoxy)

ANOVA à critères multiples

Cartographie des connaissances biologiques

Design dun système de vision embarqué. Application:

Analyse factorielle de variance: Principes d’expérimentation

Appariement de deux images

Comment appelle-t-on ce phénomène ?

La régression multiple

Méthodes de Biostatistique

"POLYMORPHISME" Plusieurs Formes

Étude de l’expression Analyse globale Analyse classique

Historique 1953 Découverte de la structure de l’ADN

Co-expression = fonction (Eisen et al., PNAS 1998)

Le Transcriptome Introduction Méthodes d’analyse du transcriptome

Introduction Matériels et méthodes Résultats

M2 Sciences des Procédés - Sciences des Aliments

Séance 8 30 novembre 2005 N. Yamaguchi

Introduction à la Pathologie Moléculaire du Gène

TNS et Analyse Spectrale

Étude de la corrélation entre la densité de marquage des cibles et la puissance du scanner lors d’une expérience de puce à ADN Axel POULET.

Dénturation/hybridation Population A Tester Population B Driver RNA RNA RT avec oligodT cDNA Dénturation/hybridation Excès de driver Clonage dans.

Méthode des moindres carrés (1)

La PCR quantitative en temps réel

Révision ADN et protéines

Suivi d’Horizons Sismiques

L’analyse d’ADN et la génomique

Aspects techniques des biotechnologies

Adeline Granzotto Emilie Mendiburu

CHMI 4206 Bioinformatique appliquée

CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.

Techniques d’Analyse Moléculaire

Basic Erol Baud Olivia Wavre Florence

1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.

Aspects techniques des biotechnologies

Techniques d’Analyse Moléculaire

Séquençage à Haut Débit et applications

BIOPUCE ELECTRONIQUE NANOGEN. NANOGEN  Biopuce Nanochip ®  Plate-Forme Nanogen  Applications  Principes.

Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.

Transcription de la présentation:

Introduction aux biopuces et à l’analyse du transcriptome Emmanuel Prestat Transcriptome

Les différentes puces Mesures d’expression Etude du nombre de copies Analyse de polymorphisme Puces à tissus, à cellules, à immunoprécipition Transcriptome

Mesures d’expression Biopuces les plus utilisées à ce jour (premières auxquelles on pense, quand on parle de puces à ADN) Principe : les sondes, petits fragments d’ADN (20 à 50 nt) complémentaires à chaque gène ciblé, sont déposées sur une lame de verre, type lame de microscope ; Les cibles, ARNm ou ADNc issus d’ARNm, sont marquées (radioactivité ou fluorescence) puis hybridées avec la lame sur laquelle les sondes sont déposées Transcriptome

Transcription Transcriptome

La technologie des puces bifluorescentes Transcriptome

Dépôt des sondes (« spotting ») Transcriptome

Dépôt des sondes (« spotting ») Montrer les lames Transcriptome

Puces à oligo : pas de « spotting » ! Procédé Affymetrix (et NimbleGene…) Parler du fait que NimbleGene a tout piqué à Affy. Transcriptome

Particularités des puces Affymetrix La fabrication in situ des sondes Leur ultra-haute densité : jusqu’à 1,3 millions d’objets Leur design : Objets carrés Pas d’espace entre eux Concept de probeset Concept de PM et MM Expliquer ce que l’on entend lorsque l’on parle de design. Transcriptome

Puces Affymetrix Transcriptome

Préparation des échantillons (cibles) Extraction d’ARN Kit Amplification PCR Marquage Radioactivité (S35, P32) Fluorescence (Cy3 - vert, Cy5 - rouge)  En général réalisé en même temps que l’amplification: utilisation d’une amorce de PCR marquée Digestion (λ-exonucléase)  ADN simple brin Transcriptome

L’hybridation Séchage des cibles et reprise dans un tampon d’hybridation Volume d’hybridation : 3 à 50 μl (entre lame et lamelle)  attention à l’évaporation !  à répartir sur l’ensemble de la surface de la puce Température d’hybridation 45  65°C + la température ↑, + le signal d’hybridation ↓ + la température ↓, + l’hybridation aspécifique ↑ Temps d’hybridation 1h  12h  dans une chambre d’hybridation Transcriptome

Le lavage Après hybridation, lavage de la lame, pour éviter L’adsorption de fluorescence sur le support Les hybridations aspécifiques Conditions de lavage : Dans des solutions de plus en plus stringentes Evaluation de la qualité du lavage (et de l’hybridation) Témoins positifs et négatifs Répartition aléatoire sur la lame  vérification : pas d’effet de localisation, de bord Savez-vous ce que veut dire la stringence d’une solution ? Transcriptome

Acquisition des images Extraction des données Excitation Amplification du signal (PMT) Émission Laser 1 Laser 2 Fluorescence verte Fluorescence rouge (Ech 1) (Ech 2) Parler des couleurs : fluorophore violet excité en rouge… Acquisition de deux images en noir et blanc (niveaux de gris) Introduire la notion de 16bits. Transcriptome

Acquisition des images Etat excité Etat stable Spectre d’excitation & Spectre d’émission Transcriptome

Choix des fluorochromes Fluorescence verte Fluorescence rouge Transcriptome

« Vrais » images et images d’« interprétation » Transcriptome

Pas si simple… Transcriptome

Pas si simple… Queues de comètes Bavures Spotting ? Lavage ? Mauvais blocage du processus pendant la phase d’hybridation Sondes/Cibles Spotting ? Lavage ? Transcriptome

Pas si simple… …etc Transcriptome

Différences avec les puces radioactives Marquage radioactif (!) Une seule condition expérimentale Le support est une membrane Maximum : 2400 dépôts par membrane (on les appelle parfois les macroarrays) Cette technologie est de moins en moins utilisée au profit des deux autres. Transcriptome

Extraction des données à partir de l’image Adressage – Localisation Segmentation Extraction de l’information (pour chaque spot) - signal d’intérêt - bruit local (autour de chaque spot) - morphologie (surface, périmètre…) Parler des différentes méthodes de segmentation (ça peut les intéresser) : cercles fixes, cercles adaptables, histogrammes, formes adaptables, morphologie mathématique, graines et extentions, … La localisation correspond à l’application de la grille Transcriptome

Méthodes de segmentation Cercles fixes Transcriptome

Méthodes de segmentation Cercles fixes / rotation & distorsions ! GenePix Pro 4.0 Cercles fixes / variabilité du spot Transcriptome

Méthodes de segmentation Cercles adaptables : modifier position du cercle modifier la taille du cerle Transcriptome

Méthodes de segmentation Dérivée seconde Détection de contours Transcriptome

Méthodes de segmentation Détection de contours vs cercles fixes Transcriptome

Méthodes de segmentation Adams R et Bishof 1994 http://www.ch.embnet.org/….. Détection de régions (graines ou agrégation de pixels) Transcriptome

Méthodes de segmentation Détection de régions (Watershed Function) Morphologie mathématique Détection de régions : seuillage (ou histogrammes) Transcriptome

Mesure du bruit de fond Transcriptome

Quelques chiffres Diamètre des spots : 100-600 µm Capacité totale : 30000 spots / lame ; 2-10 ng ac.nucl./spot Distance entre les spots : 100 µm – 600 µm Durée de conservation : 9 mois Conditions optimum de conservation : 2 – 8 °C Durée totale de préparation : 3 jours Préparation d’un échantillon : 2 jours Hybridation : 16 heures Lavage : 1 heure Scan : 5 - 15 minutes Transcriptome

Normalisation de biopuces : pourquoi ? «Traitement visant à ajuster les données selon les effets des variations dues à la technologie plutôt qu’à des différences biologiques » Yang et al. 2002 Transcriptome

Normalisation de biopuces : pourquoi ? Transcriptome

Normalisation de biopuces : pourquoi ? Effet microplaque (ou aiguille) Transcriptome

Normalisation de biopuces : pourquoi ? Transcriptome

Normalisation de biopuces : pourquoi ? Après normalisation qui tient compte de la variabilité due aux différentes aiguilles du « spotter ». Rmq : la normalisation inter-lames observe le même principe Transcriptome

Analyse de données Identification de gènes DE Fold change Tests statistiques Identification de gènes DE (plus de 2 conditions) Répétitions (quel type, combien ?) Transcriptome

Fold change Avantage : sens pour un biologiste Décision : Fold Change =expression value sample 1/ expression value sample 2 Décision : Quel seuil ? Même pour tous les gènes Inconvénients Seulement les valeurs moy, sans tenir compte de la variabilité sont considérées Les gènes ayant une expression très variable, ont plus de chance de dépasser le seuil aléatoirement Transcriptome

Tests à un facteur Transcriptome

Tests à un facteur Paramétriques Condition de normalité Transormation Log => Transformer les données ! Transcriptome

Tests à un facteur Tests non paramétriques Ne supposent pas la normalité Ne supposent pas l’homoscédasticité L’utilisation des rangs à la place des valeurs d’intensité : Diminue l’effet des outliers Ne sont pas affectés par la log-transformation Pas recommandés si les échantillons ont peu de répétitions Transcriptome

Volcano plot Combine les p-values et fold changes Qu’est-ce qui est biologiquement important ? La significativité des différences Leur valeur Quels seuils ? Combien veut-on identifier de gènes ? Où sont les contrôles ? Le t-test modéré fait quelque-chose de similaire Transcriptome

Quel seuil de p-value choisir ? Dépend du type d’erreur Type 1 Faux positifs => identifie des gènes différentiellement exprimés alors qu’ils ne le sont pas Type 2 Faux négatifs => ne détecte pas certains gènes pourtant différentiellement exprimés dans la réalité Transcriptome

Correction des tests multiples Le problème… Ho = l’expression moyenne du gène X est la même pour toutes les populations comparées Identification des gènes DE : autant de tests à faire que de gènes considérés Nombre moyen de faux positifs : G. Exemple G = 25000 gènes  = 0.05 => G. = 1250 faux positifs… Transcriptome

Correction des tests multiples Méthodes de correction des p-values Correction FWER (Family-Wise Error Rate) FWER = proba- d’obtenir au moins 1 faux positif Méthodes utilisées : Bonferroni Bonferroni step-down (Holm) Westfall and Young permutation Correction FDR (False Discovery Rate) FDR = taux attendu de faux positifs Méthode utilisée Benjamini et Hochberg Transcriptome

Lequel utiliser ? FWER: ne tolère pas de faux positifs (Ho est difficilement rejeté) => procédure très conservative FDR : moins conservatif, on estime le pourcentage de FP parmi les gènes « appelés » Aucun : le pourcentage de FP est estimé sur l’ensemble des gènes testés Transcriptome

Tests bi-facteurs ANOVA Comme un t-test avec + de deux conditions Mesure les effets de différents facteurs ainsi que leurs interactions ANOVA 2 Test deux facteurs 3 tests Temps Traitement Interaction entre les 2 (additif ? Multiplicatif ?) Transcriptome

Importance des répétitions Les moyennes sont moins variables que les valeurs individuelles. Les répétitions permettent de faire des tests statistiques. Transcriptome

Classification But : Regrouper une collection d’objets de façon à ce que les objets d’une partition soient plus liés entre eux qu’avec les objets d’une autre partition Analyse discriminante (classification supervisée) : les classes sont définies Classification (non-supervisée) : on ne connaît pas les classes Transcriptome

Classification Exemples : Traitement/contrôle, malade/normal, thérapie efficace/sans succès,… Si on a des informations sur la façon de classer les échantillons, elles devraient être intégrées dans la méthode Transcriptome

Les données Caractéristiques C B C Different classes of experimental conditions, e.g. Cancer types, tissues, drug treatments, time survival, etc. Caractéristiques La plupart des gènes sont non-informatifs pour le trait étudier Le nombre de variables est plus important (plusieurs ordres de magnitude) que le nombre d’expériences Expression profile of all the genes for a experimental condition (array) Genes (thousands) Expression profile of a gene across the experimental conditions Experimental conditions (from tens up to no more than a few houndreds) Transcriptome

Classification : corrélations et distances Pearson : corrélation entre les valeurs Sperman : corrélation de rangs (réduit l’effet des variations extrèmes) => Prend en compte les tendances Spearman confidence (mesure de similarité) = 1 - p-value Distance euclidienne => différences entre coordonnées Distance de manhattan (somme des différences absolues pour toutes les coordonnées du vecteur) => plus robuste Transcriptome

Classification hiérarchique Arbre des gènes Arbre des conditions Exemple : UPGMA Transcriptome Alizadeh et al., Nature 2000

Classification non-hiérarchique K-means : minimisation de la variance intra-classe (le nombre de classes est une instance) ACP : rotation de la base maximisant les variances SOM (Self Organising Maps) Transcriptome

Classification supervisée = « class prediction » Quelques méthodes: Bayes Analyse discriminante linéaire Les k plus proches voisins (k-NN) Les arbres de classification (CART) Transcriptome

Autre type de puce analysant le transcriptome Puces à exons : Analyse de l’épissage Transcriptome

Principe du CGH Transcriptome Donc la méthode de puces est donc là pour augmenter la résolution de la CGH « classique ». Transcriptome

Analyse des puces CGH Transcriptome

Objectifs de l’étude statistiques Transcriptome

Analyse de polymorphisme Les Single Nucleotide Polymorphims (S.N.P) désignent des variations d'une seule paire de base du génome, entre individus d'une même espèce (e.g. 1/1000 paire de bases dans le génome humain). On parlera de formes alléliques synonymes dans le cas où plusieurs formes d'un SNP mènent à la même séquence polypeptidique, et de formes non-synonymes dans le cas où les séquences produites diffèrent. Les SNP qui se retrouvent dans des régions non-codantes peuvent avoir des conséquences sur l'épissage, les facteurs de transcription, ou sur les séquences d'ARN non-codant Transcriptome

Les SNP Une séquence d'ADN contenant un site SNP. Les allèles A et G sont illustrés. Une région chromosomique où seuls les SNP sont montrés. Trois haplotypes sont illustrés. Les deux SNP colorés suffisent à identifier (marquer) chacun des haplotypes. Par exemple, si les deux sites SNP marqueurs du chromosome portent les allèles A et T, on peut déduire qu'il s'agit du premier haplotype. Transcriptome

Puces SNP Exemple : Affymetrix Genome-Wide Human SNP Array 6.0 1.8 million markers for genetic variation 900 000 single nucleotide polymorphisms (SNPs) 946,000 probes for the detection of copy number variation Transcriptome

ChIP-on-Chip (étude des points de contacts entre une protéine et tout le génome) Transcriptome

Problématique biologique du TP Buchnera est une bactérie symbiotique intracellulaire associée à la majorité des pucerons. L’association est très ancienne (250 Ma). Les partenaires sont devenus dépendants. Buchnera possède un génome de taille très réduite (400 à 600 kb), très riche en bases A et T et incluant de nombreuses mutations délétères (adaptatives ?). -> Bon modèle d’étude à un niveau théorique (simple) -> très difficile à manipuler expérimentalement (incultivable) Le génome de Buchnera est « dégénéré » -> Comment Buchnera régule-t-elle l’expression des ces gènes ? -> Comment Buchnera s’adapte-t-elle aux variations des besoins nutritionnels de l’hôte ? Transcriptome

La puce Buchnera 3ème oligo bloc (12 x 16) Oligo 3’ Oligo 5’ Contrôles (+ et -) Doublets de spots Oligo 5’ Oligo 3’ 3ème oligo Superposition des 2 images (R et G) aiguille 1 aiguille 2 aiguille 3 aiguille 4 = Transcriptome

Plan expérimental du TP Approche comparative (non cinétique) Expérience Naas (16 lames) : Milieu équilibré Milieu déséquilibré en AA en AA riche en saccharose A B pauvre en sacharose C D 2 répétitions indépendantes de 8 lames : A/B, B/C, C/D, D/A, A/C, B/D, D/B, C/A A B C D -> Les données ont été acquises par N. Reymond (expérience naas.tri analysée en TP) Transcriptome