L’analyse du transcriptome Alain Hénaut 15 octobre 2007
Etudier 1 gène ou N gènes ?
La biosynthèse de l’arginine
Premières conclusions On observe habituellement une modification importante des niveaux d’expression pour environ 10 % des gènes Seul un plan d’expérience bien pensé peut restreindre efficacement la liste des gènes candidats
Quelques définitions expérience l’ensemble du tableau de chiffres à analyser facteur un paramètre de l’expérience (un facteur de croissance, le jour de l’expérience, etc.) état du facteur une des valeurs qu’il peut prendre (présence ou absence du facteur de croissance, jour A, B ou C, etc.) condition expérimentale une combinaison particulière des états des facteurs. Une condition expérimentale correspond à une colonne du tableau de chiffres à analyser
Les facteurs impliqués dans une expérience Le premier facteur correspond au phénomène étudié Le deuxième type de facteur a pour objectif de vérifier que les observations restent vraies lorsque les paramètres biologiques varient Le troisième type de facteurs correspond aux aspects techniques
Le premier type de facteur L’étude peut porter sur deux états ou plus (deux conditions de culture par exemple ou plusieurs prélèvements au cours d’une cinétique) La situation est idéale lorsque le passage d’un état à l’autre modifie le niveau d’expression de très peu de gènes. Ainsi, par construction, la liste des gènes candidats sera courte
Le deuxième type de facteur A minima, le deuxième facteur correspond à la variabilité biologique introduite par la répétition de l’expérience au cours du temps. Il est en effet quasi-impossible de réobtenir les mêmes conditions physiologiques Mais le plan d’expérience est plus efficace quand le deuxième type de facteurs est décomposé : date de l’expérience, lignées, etc.
Le troisième type de facteur Le troisième type de facteurs correspond aux aspects techniques (protocole de marquage des ADNc, dépôt sur la puce à ADN, etc.). Ce type de facteur peut entraîner un alourdissement des expériences (dye swap) sans apporter une information biologiquement pertinente Les artefacts techniques ne sont pas graves en soi puisque l’analyse porte sur les changements de niveau et qu’elle n’est que semi-quantitative
Similitudes avec une expérience d’amélioration des plantes Premier facteur : génotype des lignées Deuxième facteur : l’effet de la localité ou de l’année Troisième facteur : répéter les pesées en changeant de balance
Un plan d’expérience complet Pour chaque facteur, il existe deux états ou plus. L’expérience est complète si toutes les combinaisons d’états ont été effectivement mesurées. C’est à dire que le tableau des résultats complet contiendra N = n1 … nk … nF colonnes si F est le nombre de facteur et nk le nombre de conditions pour le facteur k Il est important de noter qu’une répétition biologique implique que toute la procédure expérimentale est refaite en entier à chaque fois
Exemple d’un plan d’expérience complet
Comment vérifier qu’un plan d’expérience est complet ? On doit pouvoir remplir toutes les cases de tous les tableaux à deux entrées Exemple « amélioration des plantes » : lignée localité lignée année année localité
Les résultats d’une expérience de transcriptome
Les raisons de la transformation logarithmique
Les raisons de la transformation logarithmique
Le nuage des gènes Gauche : données brutes Droite : données normalisées (transformation log + transformation linéaire : moyenne 0 et variance 1)
Bonnes et mauvaises idées La notion de témoin Le cas où les méthodes statistiques sont efficaces et les autres L’acquisition des données (réglage du scanner, bruit de fond) La PCR Quantitative
La notion de témoin la « souche sauvage de référence » On cherche les gènes qui s’écartent de la droite qui passe au milieu du nuage La référence est interne. Elle provient des gènes dont le niveau d’expression ne varie pas au cours de l’expérience Pas de problème avec une microarray génomique car c’est le cas de 90 % des gènes Un vrai problème avec une macroarray dédiée comportant peu de gènes
Une bonne et des mauvaises questions Les méthodes statistiques sont efficaces pour montrer qu’un facteur agit indépendamment de tous les autres, c’est-à-dire que c’est reproductible Chercher les gènes dont l’expression dépend de deux facteurs à la fois est une question trop vague pour qu’on puisse avoir une réponse satisfaisante. En effet, c’est le cas lorsque les observations ne sont pas reproductibles !
L’acquisition des données Scanner les microarray Supprimer le bruit de fond Mettre à la même échelle toutes les microarray
Régler correctement le photomultiplicateur A gauche : réglage optimal du photomultiplicateur A droite : sensibilité insuffisante pour un des deux fluorochromes
Les effets de la combinaison log + correction du bruit de fond Gauche : données initiales xj (min = 160) Milieu : données corrigées xj – 160 + 0,01 Droite : introduction d’un seuil xj – 230 + 1 si xj > 230 autrement 1
Mise à l’échelle des microarray bicolores Les dépôts ne sont pas toujours reproductibles d’une microarray à l’autre (concentration variable de la solution d’ADN) Pour mettre à l’échelle il est indispensable d’avoir une référence parfaitement reproductible au cours du temps La vraie solution est d’utiliser de l’ADN génomique marqué toujours avec le même fluorochrome
Transcriptome et PCR Quantitative La PCR Quantitative et les microarray donnent les mêmes résultats lorsqu’on utilise les mêmes sondes Une expérience de PCR Quantitative est l’équivalent d’une analyse de transcriptome menée avec une macroarray dédiée comportant peu de gènes Tous ce qui a été dit pour les microarray s’appliquent donc à la PCR Quantitative, notamment l’obligation de passer en log (ce qui revient à travailler directement sur les Ct)
Les méthodes statistiques Les différentes méthodes ne mesurent pas exactement la même chose. Il est naturel qu’elles ne donnent pas exactement les mêmes résultats. Les meilleures méthodes ont des sensibilités équivalentes en moyenne, mais différentes au cas par cas. Elles apportent des informations partiellement complémentaires. Il ne faut pas se limiter à la liste des gènes significatifs avec toutes les méthodes. En effet, cela reviendrait à choisir pour chaque gène la méthode la moins sensible.