Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort.

Slides:



Advertisements
Présentations similaires
La place accordée à l’expression des salariés sur leur travail et leurs conditions de travail dans l’entreprise Résultats sondage exclusif CSA/ANACT.
Advertisements

Mais vous comprenez qu’il s’agit d’une « tromperie ».
L’exemple du « run Auto SEQ-15 18 » correspond au séquençage d’un génome bactérien (environ 4Mb) sur une puce 316 (100Mb) et va servir de base à une présentation.
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
France Journées de l’Afef – 1er octobre 2010
International Telecommunication Union Accra, Ghana, June 2009 Relationship between contributions submitted as input by the African region to WTSA-08,
Le séquençage à grande échelle au Genoscope
Test statistique : principe
Surveillance des cas de rougeole dans 3 départements français à couverture vaccinale élevée Projet pilote de surveillance exhaustive Institut de.
Les numéros 70 –
Les numéros
Répartition des anomalies cytogénétiques dans la leucémie lymphoïde chronique à Blida A propos de 95 cas S Taoussi ; S Oukid ; Y Bouchakor ; MT Abad Service.
Les identités remarquables
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
1. Les caractéristiques de dispersion. 11. Utilité.
Les TESTS STATISTIQUES
Dr DEVILLE Emmanuelle J D V 12/07/2006
Introduction à la logique
Optimisation du portefeuille clients d’EDF suivant des modèles de type Markowitz DALLAGI Anes.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
Analyse de la variance à un facteur
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Relations entre élastométrie, marqueurs biologiques et ponction biopsie hépatique chez 67 patients Sénégalais avec charge virale VHB ≥3.2 log UI/mL.
La méthodologie………………………………………………………….. p3 Les résultats
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
Titre : Implémentation des éléments finis sous Matlab
Les nombres.
08/10/2010 SAIO. Évolution en 10 ans des effectifs de bacheliers : part des BEG et des Btn ADES 1999 à académie de Grenoble La population totale.
Les quartiers Villeray – La Petite-Patrie et les voisinages
Tableaux de distributions
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
Les chiffres & les nombres
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Corrélation Principe fondamental d’une analyse de corrélation
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Aire d’une figure par encadrement
Écart moyen et écart type
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Régression linéaire multiple : hypothèses & interprétation
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Annexe Résultats provinciaux comparés à la moyenne canadienne
EGALITE PROFESSIONNELLE ENTRE LES FEMMES ET LES HOMMES
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Transcription de la présentation:

Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort 1, A. Lecam 1, R. Reinhart 2, P. Prunet 1, Y. Guiguen 1, P.Y Rescan 1, D. Power 3 1 INRA UR1037 SCRIBE, Campus de Beaulieu, Rennes, FRANCE 2 Max Planck Institute for Molecular Genetics, htpt group, Ihnestr. 63, Berlin, ALLEMAGNE 3 Universidade do Algarve, Campus de Gambelas, , Faro, PORTUGAL Statistiques pour la Biologie Intégrative [groupe SIB] V2: Rennes – Groupe SIB – le 19 avril 2011 V1: Versailles – Rencontres Bio-informaticiens et Statisticiens de lINRA- le 25 mars 2011

Octobre 2009 : Acquisition du premier jeu de données de comptage généré par technologie de séquençage haut débit … à lINRA Scribe Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 … Travaux inclus dans le projet Aquagenome 2008 Questionnement légitime des biologistes : « Quen est-il de la fiabilité des résultats obtenus à partir de ces nouveaux supports émergents? » … Report à la bibliographie : Marioni & Al, 2008 [1] / Comparaison [Illumina] vs [Affymetrix] Quen est-il avec la technologie 454 [Roche] ? … Vise à répondre à une question type de transcriptomique : « Recherche des gènes actifs dans le muscle à un stade de développement donné chez la truite arc en ciel » Analyse différentielle sur les transcrits dARN - 2 stades de développement : Larvaire [J] vs Adulte [B]

Détails du protocole expérimental Analyses préalables en microarrays et biblio. : 2 stades très marqués chez le muscle Planification expérimentale en microarrays : 5 répétitions par condition [Agilent monocouleur] … fixe le nombre de répétitions (nombre de chemins) pour le RNA seq (454 -peu dinformations) Connaissances a priori Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 Bonne gestion et prise en charge des données issues de microréseaux dADN par le plateau transcriptomique du Scribe. Mise en place dune étude comparative entre une technologie microréseaux [Agilent] et une technologie de séquençage haut-débit [454 Roche Titanium]

Les grandes étapes dune analyse de séquençage haut- débit … …GTGCCCGATCTCGATCAGGTAATCGTATATTAAAGTGCCCGATCTCGATCAGGT… Départ : Constitution dune banque dADNc pour une espèce donnée en 4 étapes 1) Fragmenter lADNc dun génome en plusieurs milliers (milliards) de petits morceaux 2) Lire la séquence de chaque petit fragment (read) (Détection par fluorescence : Sanger) PB : Les séquenceurs automatiques ne donnent pas tjs des lectures exactes des séquences Le taux derreur dépend: -De la pureté et de lhomogénéïté des échantillons dADN initiaux -Séquence spécifique des paires de bases dans léchantillon dADN Solution : Multiples lectures indépendantes (10*) pour chaque pb du génôme Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Les grandes étapes dune analyse de séquençage haut- débit … Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 AGTGCCCGATTATA [0 mismatch] AGTACCCGATTATA [1 mismatch] AGTACCCGACTATA [2 mismatchs] AGTGCCCG-TTATA TATATTACAGTGCCCGATTATATTAAGTG 3) Faire coïncider par informatique, les fragments où les séquences identiques : Alignement (Mapping) des séquences (Tophat1.2…) Zoom sur lalignement de 2 séquences : Cas de figure possible 4) Assemblage des lectures (cufflinks…) ayant des séquences chevauchantes: Théorie du contigage … 0, 1 ou 2 mismatches tolérés - Compare chaque séquence avec chacune des autres séquences - Génère une liste des régions ayant certains critères de similarités de séquences

READSREADS Couverture Contig ou consensus Exemple de couverture dun contig … Les grandes étapes dune analyse de séquençage haut- débit … Zoom sur la théorie du contigage Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 Remarque : « Lobtention dune séquence consensus par assemblage des contigs est ici une préoccupation de second ordre »

Les grandes étapes dune analyse de séquençage haut- débit … Les principaux supports Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 Support Average Read Length Run Time (Day)GB / run Roche Illumina Solexa GA II36 à Applied Biosystems Solid Michael Metker. Nature ReviewsGenetics, 2010 [3] Définitions : 1) « Un run (réalisation dun processus complet par la machine) produit un grand nombre de lectures (reads) correspondant à des séquences dADN ou dARN de lespèce étudiée. La capacité de la machine se mesure en nombre total de bases séquencées » 2) Library size : nombre total de reads alignés pour un échantillon donné Problèmes associés à lassemblage : 1)Faible couverture 2)Erreurs de séquençage 3)Séquences répétées

Détails du protocole expérimental Muscle pool – Stade Larvaire (J)Muscle – Stade Adulte (B) Séquençage en simultané de millions de petits fragments dADN (330 pb de moyenne) Technique de F. Sanger utilisée en parallèle Chaque échantillon séquencé sur 1 des 10 pistes contigs disponibles Désigné par Salem & Al, 2008 [4*44K] Oligonucléotides de 60 mers obtenus à partir de processus de synthèse sondes incluant oligos uniques (+6409 oligos dupliqués aléatoirement) Technologie 454 RocheTechnologie micro-réseaux Agilent Plate-forme GENOTOUL, ToulousePlateau transcriptomique Scribe, Rennes Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Stade J (*5)Stade B (*5) Le jeu de données de comptage généré [454] Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 Comparaison directe des données dexpression (agilent) et de comptage (454) générés Aucun contrôle possible des variabilités engendrées par les étapes dalignement et dassemblage

Descriptif des données dexpression de micro-réseaux Départ : sondes différentes (oligos + contrôles) Descriptive statisticsGlobalB levelJ level Spearmans correlation Coefficient [CI 95%] [0.816 – 0.942]0.955 [0.940 – 0.969]0.993 [0.990 – 0.996] Average percentage of log2(intensity)>5 [sd] 5.52 [0.37]5.49 [0.52]7.58 [0.73] Etape de filtrages classiques (Agilent) en 3 parties : - uniformité du signal - intensité du spot > sign. intensité BG - intensité < seuil de saturation + Règle de décision / sonde Suppression des contrôles Nouveau : sondes conservées (72%) Normalisation par la médiane des 10 échantillons Boxplot des log(intensités) normalisées Gamme dynamique plus importante au stade larvaire Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Descriptif données de comptage [séquençage 454] Départ : contigs Nombre total de lectures : reads (compte-tenue de la qté dARN de départ) Remarques : 1)« Près de 35% des contigs comptent 0 lecture à chacune des 10 pistes étudiées et ne sont donc pas conservés pour la suite de létude » 2)24592 contigs (>67%) comptent 0 lecture à un des 2 stades [contigs spécifiques] Problème lors de lestimation des Fold Changes : FC = J est / B est 0 ? … ou inversement …. Nouveau : contigs Depth SubgroupsGlobal [%]B level [%]J level [%] [34.7]37302 [66.9]26054 [46.7] 1 – [47.7]14474 [25.9]22617 [40.5] 5 – [12.5]2895 [5.2]5103 [9.1] > [5.1]1122 [2.0]2016 [3.6] Evaluation de la variabilité globale et intra - conditions Elaboration dun score /20 destimation de la qualité des répétitions biologiques (ie inter-runs) 20 tests exact de Fisher (loi hypergéométrique) avec une erreur de 1% (+ ajustement Bonferroni) - 5 runs « stade larvaire » = 10 tests « runs 2 à 2 » - 5 runs « stade adulte » = 10 tests « runs 2 à 2 » Plus le score est faible plus la répétabilité inter-runs est bonne Pour un gène … Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Evaluation de la variabilité globale et intra – conditions Départ : contigs Nombre total de lectures : reads (compte-tenue de la qté dARN de départ) Remarques : 1)« 92% des contigs testés ont une répétabilité globale bonne voire excellente » 2)On observe une répétabilité inter-runs plus homogène au stade adulte quau stade larvaire Evaluation of the potential lanes effect (/20) Global [%]B level [%]J level [%] [22.2]24527 [67.4]15036 [41.3] 1 – [69.9]6018 [16.5]9412 [25.8] 6 – [8.0]5832 [16.0]11946 [32.8] 168 [<10 -1 ]34 [0.1]17 [<10 -1 ] Mise en place de létude comparative … … A partir de 2 fichiers de même dimension Recherche de la correspondance oligos contigs à partir dun fichier dannotations swissprot 1)Suppression des oligos agilent pour lesquels il ny a pas de correspondance 2)Conservation des oligos pour laquelle la correspondance est unique Final : Etude comparative à partir de 2 fichiers de 7010 gènes / identifiant unique Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Normalisation des données de comptage (N=7010) Etude comparative proposée par [Marioni & Al.,2008] : PAS de normalisation des données de comptage Depuis : « Importance de la normalisation sur le résultat final » [Bullard et al, 2010] [2] Choix de la technique de normalisation ? ….. Encore flou ……. Démarche proposée : 1)Ajout dun 1 à lensemble des reads (cellules du fichier) : Pour saffranchir du pb des 0s (cf estimation des Fold Changes) 2)Ajustement par le total des reads sur le run : X ij(k) : Nbr de reads gène i / échantillon (run) j / condition k N j(k) : Production totale reads sur run j (library size) / condition k 3) Choix de la constante : Cste = max(N j(k) ) …. Et arrondis …. Pourquoi ? Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Remarques : 1)Variabilité inter – runs reste plus importante au stade J avec N = )Amélioration significative de la répétabilité après normalisation (tests de Mac Némar 5%) 3)… Semble contradictoire avec les résultats de microarrays : Répétabilité entre les échantillons globalement meilleure au stade J Effets de la normalisation des données de comptage (N=7010) Evaluation of the potential lanes effect (Score /10) B stateJ state Before [%]After [%]Before [%]After [%] [69.4]6886 [98.2]2768 [39.5]6868 [98.0] [29.6]102 [1.5]4072 [58.1]120 [1.7] 667 [1.0]22 [0.3]170 [2.4]22 [0.3] Total7010 [100.0] Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Descriptifs et comparaisons (N=7010) Number of contigs with more than 4 readsRun1Run2Run3Run4Run5 B state J State ) Gamme dynamique plus importante au stade J (idem microarrays) Supports by levels Coefficient of correlation (Spearman) Number of reads by better quartiles 1 (1977)*2 – 3 (1850)4 – 8 (1485)> 8 (1698) J [95% CI]B [95% CI]JBJBJBJB RNA - Sequencing0.461 [0.451 – 0.470]0.436 [0.423 – 0.449] Agilent technology0.994 [0.993 – 0.995]0.964 [0.960 – 0.969] *: unequals subgroups because of ex-aecquos 5) La corrélation intra-groupe reste globalement très forte en microarrays 6) Elle est dautant plus forte que les gènes observés comptent beaucoup de lectures Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Analyse différentielle – Démarche proposée … Pour les micro-réseaux tests limma (G. K. Smyth – BioConductor) … Pour le séquençage 454 Régression de Poisson [contrainte forte : E(Y)=VAR(Y)=λ] : « Le nombre de lectures observées pour une piste et un contig donné est représenté par la variable Y de paramètre λ = (λ J ; λ B ) telle que : Avec : et i=1,.., 5 Estimation des Fold Changes (max. de vraisemblance) : Le problème de la surdispersion : …Biais doptimisme possible sur les p-values Les analyses se font gène par gène puis gestion des tests multiples par correction FDR Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Analyse différentielle – Démarche proposée … Pour le séquençage 454 Détection de la surdispersion : test de chi2 de Pearson 256 modèles / 7010 en surdispersion Recours à la régression négative binômiale : Inclusion dun terme de bruit … Test du rapport de vraisemblance pour déterminer la significativité de la variable « stade » « Sous H 0 : La statistique de test suit une loi de chi2 à 1 ddl » Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Analyse différentielle – Résultats Comment expliquer les divergences des listes de gènes obtenues à partir de ces 2 supports ? N= % FDR Remarques : 1) Proportion importante de gènes différentiels en microarrays (plus de 50%) 2) … spécifiques aux données de microarrays. Pourquoi ? Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Analyse différentielle – Une explication des divergences … Tableau de contingence 2*2 Nbr readsStade JStade BTotal Gène X32326 Pas gène X Total En supposant que la répétabilité inter –runs est parfaite : Sommation des reads intra-conditions Exemple : gène X -> (reads / run : stade J) (stade B) Cadre classique : test exact de Fisher 1% (loi hypergéométrique) H 0 : Prop. Estimée (stadeJ) = Prop. Population (stade J) Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 TOTAL JB Gène X TOTAL JB Gène X 323

Analyse différentielle – Une explication des divergences … 99% CI Intervalles de confiance (99%) des proportions relatives à toutes les combinaisons possibles pour chacun des 7010 gènes Exemple ci-dessous : 2 gènes comptant 95 (à gauche) et 4 lectures (à droite) au total Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Analyse différentielle – Reprise des diagrammes Visualisation ordonnée des graphes « On ne peut conclure quun gène est différentiel dès lors quil est associé à moins de 5 lectures au total » -> Manque de puissance On constate une baisse très nette du nombre de gènes différentiels « spécifiques » microarrays : Près de 3000 gènes différentiels [Agilent] nont pas bénéficié dune couverture suffisante pour sortir différentiels en RNAseq … Quelle interprétation pour les 1460 gènes différentiels restants ? Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Analyse différentielle – Une interprétation des divergences … Nouveau zoom sur la répétabilité inter – runs : Venn s group IN< 5 reads (%*) 5 reads (%**) Lane score = 0Lane score 1 Genes in overlap (48.2)170 (51.8) RNA sequencing only (40.7)64 (59.3) Agilent only (64.5)307 (20.2)1210 (79.8) Not Differential (69.9)268 (23.7)864 (76.3) TOTAL (55.4)777 (25.2)2308 (74.8) Venn s group IIN< 5 reads (%) 5 reads (%) Lane score = 0Lane score 1 Genes in overlap (47.7)204 (52.3) RNA sequencing only (40.4)81 (59.6) Agilent only (19.2)1179 (80.8) Not Differential (16.4)581 (83.6) TOTAL (23.7)2045 (76.3) Remarques : 1)Les gènes différentiels en microréseaux spécifiquement ont une variabilité inter-runs significativement plus importante que dans les autres groupes 2)Evocation dun problème de ladéquation du modèle aux données … Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Analyse différentielle – Comparaison des Fold Changes Spearman s coefficient by subgroups SubgroupsNCoefficient > 67 reads reads No differential Total « The set of differentially expressed genes that show the strongest correlation (…) seems to be those that are mapped by many reads » [ J.C Marioni (Genome Research -2008) ] Remarques : 1) On retrouve la caractéristique principale de la comparaison Affymetrix Agilent 2) Proportion conséquente de fold changes atypiques (changement de signes) Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Analyse différentielle – Interprétation des autres groupes spécifiques Remarques : 1)La proportion des fold changes « atypiques » diminue avec le seuil de test 2)Les p-values [microarray] des gènes spécifiques « RNA seq» restent en bonne partie voisine du seuil choisi Proportion des Fold Changes atypiques en fonction su seuil Proportion des gènes spécifiquement différentiels en séquençage en fonction du seuil Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Répartition de lensemble des contigs de départ en fonction de leurs tailles (nombre de bases de nucléotides) Répartition des effectifs des groupes de gènes différentiels (%) par taille de transcrits Analyse différentielle – Influence de la taille des contigs ? Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 Venn s group II [N= 2681] Length of transcripts by quartiles TOTAL ]<1005[ [ ][ ]]>1606[ Genes in overlap 146 (37.4)90 (23.1)88 (22.6)66 (16.9) 390 RNA sequencing only 54 (39.7)22 (16.2)29 (21.3)31 (22.8) 136 Agilent only 337 (23.1)384 (26.3)350 (24.0)389 (26.6) 1460 Not differential 135 (19.4)173 (24.9)203 (29.2)184 (26.5) 695 Length of transcripts by quartiles [N= 55793] MinQ1MedianQ3Max Remarque(s) : « On observe une légère tendance mais pas deffets notables de la taille des transcrits sur lexpression des contigs »

Remarque 1: « Dérive actuelle » - Ne séquencer quun échantillon dARN par condition puis tests exacts de Fisher et corrections FDR Quel est le pouvoir de généralisation de résultats ainsi obtenus ? Remarque 2: A- ton besoin dautant de répétitions biologiques en 454 quen Agilent pour obtenir des listes de gènes différentielles quasi - similaires ? Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 Number of 454 samples compared Differentially expressed genes with RNAseq Overlap with genes called from array Correlation of FC between count and array data 2 vs vs vs vs Analyse différentielle – Influence des répétitions biologiques en 454 ? Principe Approcher la liste de gènes différentiels obtenue par micro-réseau en faisant varier le nombre de réplicats biologiques (runs) du 454 Venn s group II [N= 2681] Remarque(s) : « Amélioration notable de lintersection et des FC »

a Analyse différentielle – Comparaison des normalisations proposées pour le 454 Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 Panorama des normalisations existantes (04/2011) Total read Count normalization (TC) Hypothèse : Comptages proportionnels au niveau dexpression et à la profondeur de séquençage Plus la profondeur de la librairie est importante, plus le comptage associé au transcrit est grand (indépendamment de la taille du transcrit et du niveau dexpression) Single Quantile Normalization (Bullard & al, 2010) (MED, UQ) [2] Hypothèse : Nombre total de reads dépend surtout de qqs contigs fortement exprimés Full Quantile normalization (Bolstad & Al, 2002) (FQ) [4] Equivalent « normalisation par quantile » en microréseaux Implémentation limma [5] Hypothèse : Distribution identique des comptages dune librairie à lautre Adjusted Total read Count normalization (MAX) Hypothèse : Augmentation proportionnel du nombre de comptages par gène pour suggérer une couverture suffisante par gène Scaling normalization (Robinson & Al, 2010) (TMM) [7] Principe : f j = s i / s j M r ij : log ratio gène i entre échantillon j et r w ij : Correction sur la variance L i : Taille du gène i DESEQ normalization (Anders & Huber, 2010) (DESEQ) [6] Implémentation package DESEQ X ij ~NB(μ ij,σ 2 ij ) μ ij = q ij(k) *s j …avec q ij(k) : Concentration « vraie » gène i /échantillon j

Analyse différentielle – Comparaison des normalisations proposées pour le 454 Résultats : 1)Tableau (ci-dessus): Pourcentage de gènes différentiels communs en faisant varier le type de normalisation pour les données de 454 2) Graphe (ci-contre) : Similarités des listes de gènes différentiels obtenues à partir des données de 454 en faisant varier le type de normalisation Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011 RNA.maxRNA.TCRNA.MEDRNA.TMMRNA.DESEQRNA.FQmicroarray RNA.max RNA.TC RNA.MED RNA.TMM RNA.DESEQ RNA.FQ microarray [N= 2681] Conclusion : 1)Diagrammes de Venn très similaires dune normalisation à lautre 2)Particularité de la normalisation FQ Clustering hiérarchique Distance de corrélation et méthode de Ward

2) Lintérêt de la technologie 454 est liée à la garantie pour lutilisateur dune couverture suffisante a priori sur lensemble des contigs étudiés : « Solutions bioinformatiques et/ ou planifications expérimentales adaptées passent par une coordination soutenue des compétences bio-informatiques et statistiques » 3)Nécessité de « garder le contact » avec les biologistes. Importance du travail de vulgarisation scientifique par la mise à disposition doutils intermédiaires adaptés : - Score destimation de la variabilité des répétitions biologiques et/ou techniques - Outils destimation de seuil de lectures « limite » 4)Les modèles danalyse différentielle utilisés en séquençage 454 reposent encore aujourdhui sur des hypothèses fortes (loi hypergéométrique), et nécessitent dêtre améliorés … Conclusions & Perspectives [Technologie 454] Après normalisation des données de comptage, certains gènes différentiels en microarrays ne le sont plus en séquençage du fait dune mauvaise prise en compte de la variabilité qui perdure … Ladéquation du choix de lassociation « normalisation + modèle » se doit dêtre rigoureusement déterminée 1)Etude essentiellement basée sur la comparaison de diagrammes de Venn MAIS mesurait-on vraiment la même chose au départ ? Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Références [liste non exhaustive] Metzker ML. Sequencing technologies –the next generation. Nature Reviews Genetics, 2010 Jan; 11(1):31-46 [3] Bullard JH, Purdom E, Hansen KD, Dudoit S. Evaluation of statistical methods for normalization and differential expression in mRNA-seq experiments. BMC Bioinformatics2010, 11:94. [2] Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. Mappingand quantifying mammalian transcriptomes by RNA-seq. Nature Methods, 2008 Jul; 5(7): Audic, S. and Claverie, J-M. The significance of digital gene expression profiles. Genome research 1997; 7: Cloonan, N et al. Stem cell transcriptome profiling via massive-scale mRNA sequencing. Nature Methods2008; 5(7): Robinson MD, Smyth, GK. Moderated statistical tests for assessing differences in tag abundance. Bioinformatics 23(21): [7] Robinson MD, McCarthy DJ, Smyth, GK. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics2009. Marioni JC, Mason CE et al. RNA-seq: An assessmentof technical reproducibility and comparison with gene expression arrays. GenomeResearch2008, 18: [1] Robinson MD, Oshlack A. A scaling normalization method for differential expression analysis of RNA- seqdata. GenomeBiology2010, 11:R25 Anders, S and Huber, W. Differential expression analysis for sequence count data. Nature Precedings 2010, march [6] Torres T, Metta M, Ottenwälder B, and Schoötterer C : Gene expression profiling by massively parallel sequencing, Genome Research, 1: Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Références [suite] Bolstad B, Irizarry R, Astrand M, and Speed T. A comparison of normalization methods for high density nucleotide array data based on variance and bias. Technical report, UC Berkeley, 2002 [4] Gordon K. Smyth. Limma : linear models for microarray data. In R. Gentleman, V. Carey, S. Dudoit, R. Irizarry, and W. Huber, editors, Bioinformatics and Computational Biology Solutions using R and Bioconductor, pages 397, 420. Springer, New York, 2005 [5] Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011