Introduction à la bioinformatique et Génome Humain

Slides:



Advertisements
Présentations similaires
Stabilité et Variabilité des génomes et Evolution
Advertisements

Du gène à la protéine A. Les molécules
Un aperçu de la bioinformatique moléculaire
Sandrine Marchand- Académie de Grenoble
L’information génétique
La génétique bactérienne cours 5
Génétique Médicale L3 Hérédité mendélienne
GENETIQUE I. RAPPELS 1. STRUCTURE DE LA CELLULE 2. chromosome.
Transcription de l’ADN
Initiation à la bioinformatique
Acide désoxyribonucléique : ADN
Introduction à la bioinformatique
ADN.
ATS 306 La Cellule.
Projet Génome Humain (HGP)
La Régulation génétique chez les Procaryotes
1. L’ADN et l’information génétique
La division cellulaire
Partie 2: Du génotype au phénotype, relations avec l’environnement
BIO 2533 — Chapitre 1 Importance de la génétique et sa portée:
Le code génétique Biologie 122.
TP 5 Du génome au protéome
Rappels de 1èreS Rappelez la définition du génotype et celle du phénotype. Génotype : ensemble des gènes d’un individu existant sous leur forme allélique.
Chapitre 3 - Les fondements chromosomiques de l'hérédité
Expression du Génome Le transcriptome.
LA SYNTHÈSE DES PROTÉINES
La Réplication d’ADN.
ADN à ARN La synthèse des protéines étape 1
ADN.
1) Structure du noyau 2) Structure des gènes et des chromosomes
II.2 La molécule d’ADN: le support chimique universel de l’information génétique > Activité 3-0 : une extraction de la molécule d’ADN.
LA SYNTHÈSE DES PROTÉINES
LA REGULATION DE L’EXPRESSION DES GENES
Chapitre 7.3 Réplication de l’ADN
La structure et la reproduction de l’ ADN
"POLYMORPHISME" Plusieurs Formes
Biologie cellulaire IUT du Havre HSE Morgane Gorria.
Ordre des chapitres : 1 – 3 – 2 – 4 1.
L’ADN LOCALISATION STRUCTURE FONCTION.
II – CARYOTYPES HUMAINS:
Collège Lionel-Groulx
Introduction à la Pathologie Moléculaire du Gène
Plan du cours : première partie
CHMI 2227F Biochimie I Expression des gènes
Structure Cellulaire Les Cellules Composants fondamentales de la vie La compréhension de la morphologie cellulaire est essentiel a l’étude de la.
De l’ADN aux protéines Introduction.
Révision chapitre 8 Page
Gène Séquence d'acides nucléïques contenant une information codée pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit.
Révision ADN et protéines
La génétique et la biométrie
Cartographie génomes entiers
Le noyau : le centre de commande de la cellule
Exercice L’EPISSAGE ALTERNATIF DE L’ARN
Chapitre 2 : La nature du vivant.
Les cellules sexuelles
REGULATION DE L’EXPRESSION DES GENES
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Régulation de l’expression génétique: la transcription
Pr B. AITABDELKADER CPMC
Les banques de séquences nucléiques
Régulation de l’expression génétique: la traduction
CHMI 4206 Bioinformatique appliquée
Stabilité et Variabilité des génomes et Evolution
Aspects techniques des biotechnologies
Acide désoxyribosenucléique Acide désoxyribosenucléique Le centre de contrôle Le centre de contrôle Matériel génétique Matériel génétique Transmis d’une.
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
De l’ADN à la Protéine : Transcription et Traduction
E.OLIVERES CBSV PARTIE 1 Les systèmes vivants contiennent, échangent et utilisent de l’information génétique. 28/04/2017.
ADN : Acide désoxyribonucléique Santatra Ratsitohara RAZAFINDRASATA Interne des hôpitaux en Neurologie 1 er semestre – USFR Neurologie CHU/JRB FACULTE.
Transcription de la présentation:

Introduction à la bioinformatique et Génome Humain Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 lilia.romdhane@yahoo.fr

Bienvenus  Introduction à la bioinformatique Cours théorique et travaux pratiques Ordinateurs personnels + Clé 3G Présence obligatoire Contrôle continu: 2 tests + exposés

La biologie à l’ère de l’informatique La biologie couvre un très large spectre: moléculaire, cellulaire, organisme, population et écosystème Au début du XXIème siècle, un ensemble de technologies expérimentales complexes: collecte de masses importantes de données plus vite qu’elles ne peuvent être interprétées Ces techniques sont essentiellement: Techniques d’amplification de l’ADN (PCR= Polymerase Chain Reaction) Techniques de séquençage de l’ADN = détermination de la succession linéaire des bases A, T, C, G Séquençage de génomes entiers = Génomique = détermination de l’ensemble de gènes d’un organisme Techniques de séquençage des protéines = détermination de la succession linaire des acides aminés Techniques de détermination de profiles d’expression d’un ensemble de gènes dans un tissu

Richesse de l’information autour du gène

PLUSIEURS QUESTIONS RESTENT EN SUSPENS….. Avec une quantité de séquences d’ADN: Comment savoir quelles régions contrôlent les divers mécanismes de la vie? Avec quelques protéines de structures et de fonctions connues: comment connaître la fonction de nouvelles protéines? Comment déterminer à quoi ressemblera une protéine en connaissant seulement sa séquence? Quelles sont les différences et les ressemblances de génomes de différentes espèces? Eucaryotes ? Procaryotes ?

Mais d’abord: Comment gérer, analyser et interpréter ces données ?????

Quels sont les besoins des biologistes ??? Représentation, stockage, distribution des données, format, schémas, interface, outils d’interrogation….. Gestion des nouvelles données (accessibilité) Interconnexion des données Analyse des données issues de l’information biologique Développement de méthodes prédictives, modélisation Naissance d’une nouvelle approche de la biologie: La bioinformatique

Qu’est-ce que la bioinformatique? Domaine interdisciplinaire basé sur les acquis de la biologie, des mathématiques et de l’informatique. Une branche nouvelle de la Biologie: c’est l’approche « in silico » de la biologie, une discipline en pleine révolution, qui vient compléter les approches classiques de la biologie traditionnelle: in situ (dans le milieu naturel) in vivo (dans l’organisme vivant) in vitro (en éprouvette)

Implication de l’ informatique L’informatique joue un rôle essentiel et central pour: Acquisition des données : décoder les régions importants des génomes, Séquençage et Annotation des génomes Archivage, Stockage et Diffusion des données biologiques: Banques et bases de données Recherche, Analyse, Interprétation et Exploitation des données: Processus automatisés, algorithmes spécifiques Prédiction fonctionnelle

Plusieurs définitions possibles Application de l’informatique à la biologie: Computational Biology Définition 2: Analyse de l’information biologique: Bioinformatics Définition du NIH: National Institute of Health Bioinformatique == Domaine multidisciplinaire: La recherche, le développement ou l’application d’outils et les approches informatiques pour développer l’utilisation des données biologiques, médicales, comportementales ou de santé, incluant les outils d’acquisition, de sauvegarde, d’organisation (classification), d’analyse ou de visualisation de telles données.

Avant la bioinformatique (=> 1990) Relations Structure-activité Activité biologique connue Etude biochimique Structure 3D Séquence Protéine Gène Mutagénèse BIOINFORMATIQUE Banques de données Prédiction des gènes Identification de protéines Prédiction sites/signatures Prédiction de structure Modélisation moléculaire Stockage Classification Intégration Criblage ‘omics’ Génomique Protéomique Transcriptomique Séquences génomiques Protéiques Prédiction Activités biologiques Etudes Biochimiques Structures 3D Aujourd’hui (depuis les programmes de séquençage massifs et la bioinformatique) Génomique structurale

Envergure de la bioinformatique E-journaux and bases de données bibliographiques Etudes de l’expression des gènes Intéraction protéique Bases de données de séquences d’ADN/Protéines Taxonomie et phylogénie Modélisation structurales des protéines

Traitements bioinformatiques Ingénierie logicielle et webicielles Expérimentations biologiques Bases de données Traitements bioinformatiques Ingénierie logicielle et webicielles Modélisation Simulation Analyse de données Hypothèse Biologie Bioinformatique Méthodologie Applications Informatique

La bioinformatique. Pourquoi ?

La bioinformatique. Pourquoi ? La bioinformatique a différents objectifs et différentes applications : 1-Collecter et stocker des informations dans des bases de données, accessibles en ligne. Explosion de la quantité de données biologiques nécessitant des outils de stockage adaptés

La bioinformatique. Pourquoi ? La bioinformatique a différents objectifs et différentes applications : 2-Fournir des outils de comparaison de séquences (protéiques ou nucléotidiques). Séquence de référence Séquence à analyser Identification ? Points communs ? Objectifs : -identifier une séquence par rapport à une base de données -déterminer le degré de similitudes entre deux séquences (intérêt en taxonomie) -repérer des motifs structuraux : -gènes, promoteurs, etc. pour un nucléotide. -zone de repliement, site actif, etc. pour un polypeptide.

La bioinformatique. Pourquoi ? La bioinformatique a différents objectifs et différentes applications : 3-Fournir des outils de traduction de séquences. Séquence nucléotidique Séquence polypeptidique Traduction Objectifs : -simplifier les taches de traduction -proposer plusieurs possibilités de protéines pour une même séquence -repérer exons / introns

La bioinformatique. Pourquoi ? La bioinformatique a différents objectifs et différentes applications : 4-Fournir des outils de prédiction Prédiction physiologique et fonctionnelle Prédiction expérimentale Objectifs : -repérer des sites de restriction -prévoir la digestion d’un nucléotide -prévoir / simuler la migration de fragments nucléotidiques ou protéiques lors d’une électrophorèse… Objectifs : -repérer un opéron -repérer un gène ou une protéine anormale -prévoir la structure 3D d’une protéine -repérer des mutations -prédire une pathologie…

La bioinformatique. Pourquoi ? Analyse de séquences Séquence nucléotidique Fonction biochimique Activité biologique Gène Protéine Prédiction / simulation expérimentale Biologie in silico

Domaines d’applications Les domaines d’applications sont nombreux: L’environnement ( modélisation des données écologiques) La génétique des populations La biologie structurale La biologie moléculaire et génétique La phylogénie et l’évolution La médecine …

Exemples d’application en bioinformatique

Mauvaise amorce : formation d’épingle, de dimères Bioinformatiques Bioinfo de paillasse: support au clonage, séquençage, PCR….. Analyse de l’amorce gauche pour l’amplification d’une séquence avec Netprimer Mauvaise amorce : formation d’épingle, de dimères

Bioinformatiques Analyse de séquences: identification de gènes, comparaison de séquences, prédiction de motifs……………….. Annotation= identification d’un gène et de tous ses éléments, puis d’établir sa fonction Comparaison de plusieurs promoteurs bactériens

Bioinformatiques Phylogénie: évolution à l’échelle moléculaire…………… Arbre universel de la vie inféré par l’alignement de séquences d’ARN la petite sous unité ribosomale (rRNA) Reconstruction de l’origine de l’Homme par l’ADNmt

Bioinformatiques Structure des protéines: calcul, visualisation, prédiction…… Visualisation de la structure 3D dans différents styles du récepteur aux androgènes

Visualisation des cartes génétiques et physiques dans MapView Bioinformatiques Liaison génétique: gènes candidats de maladies génétiques……. Visualisation des cartes génétiques et physiques dans MapView

Buschke-Fischer-Brauer Disease gene identification Bioinformatiques Liaison génétique: gènes candidats de maladies génétiques……. Famille PPK2 I II III IV V 1 2 3 4 5 6 - 7 10 9 44 8 Buschke-Fischer-Brauer Disease gene identification Cumulative lod score: 5.33. 27

Bioinformatiques Génomique fonctionnelle: transcriptome, protéome, intéractome…..

Un peu d’histoire: Naissance de la bioinformatique 1953: Structure en double hélice de l’ADN (Watson et Crick) 1956: Séquence en acides aminés de la première protéine: insuline (Sanger) 1958: Première structure 3D de protéine: myoglobine (Kendrew) 1955-1965: Premiers langages informatiques, premier ordinateur commercial 1965: Première compilation de protéines: Atlas of Protein Sequences (50 entrées) (Dayhoff) 1970: Premier programme pour la comparaison de séquences protéiques (Needleman et Wunsh) 1971: PDB- Protein Data Bank (Structures 3D) 1977: Mise au point des techniques de séquençage 1980: Constitution de EMBL (Heidelberg  Cambridge (EBI)) 1986: Swiss-Prot au SIB: Swiss Institute of Bioinformatics 1986: Genbank à Los Alamos au NIH: National Institute of Health

1988: FASTA: Similarité de séquences dans les banques (Pearson et Lipman) 1988-1990: Lancement du programme international de séquençage du génome humain 1989: Internet 1990: BLAST: Recherche de similarité de séquences dans les banques (Atschul et al.) 1992: Création du centre de séquençage Sanger (moitié de la production mondiale) 1995: Séquençage du génome de Haemophilus (1.8Mb) 1996: Séquençage du génome du premier génome eucaryote: Saccharomyces cerevisiae (12Mb) 1997: GENSCAN: Prédiction de gènes de génomes eucaryotes (Burge et al.) 1998: Séquençage du premier organisme pluricellulaire, Caenorhabditis elegans (120 Mb) 1999: Publication de la séquence complète du chromosome 22 de l’Homme

2000: Déclaration de Tony Blair et Bill Clinton à propos du génome humain: Les bénéfices de la recherche sur les gènes humains doivent être disponibles gratuitement pour tous afin de combattre et d’éliminer les maladies Publication du « working draft » (brouillon) de la première carte complète du génome humain Séquençage du premier génome de plante, Arabidopsis thaliana 2001: Publication des travaux de séquençage du génome humain presque complet 2002: Projet Protéome Humain (HPP) 2009: NGS (Next-Generation Sequencing), Explosion des OMICS, big data, 1000 Genomes

Depuis 15 Septembre 2009…..

Les prochains défis de la bioinformatique La connaissance du génome humain: séquences de gènes, leurs fonctions non encore élucidées Connaitre le fonctionnement de notre corps, et donc possibilité de guérir plusieurs maladies Personnaliser le traitement

L’avenir de la bioinformatique Discipline en pleine émergence: imposer de nouvelles idées et méthodes Défi majeur initial: annotation des gènes et prédiction de leurs fonctions Élargissement du champ d’application sous l’impulsion de nouvelles technologies Développement exige une mise à jour continuelle des outils informatiques indispensables aux différentes analyses  révolution des méthodes de l’informatique traditionnelle En plus de la biologie fondamentale, la bioinformatique associée à des secteurs où la biologie participe à un développement économique

Cours II Le génome Humain

Le génome: Définition Définition: Génome= l’ensemble du matériel génétique d’un individu ou d’une espèce codé dans son ADN (à l’exception des rétrovirus donc le génome est codé par des molécules d’ARN) Génome = séquences codantes (transcrites en ARN messagers, traduites protéines) + non-codantes (non transcrites, ou transcrites en ARN mais non traduites)

CELLULES EUCARYOTE ET PROCARYOTE Bactéries et Archées Eucaryotes: ADN présent dans le noyau cellulaire principalement, mais aussi les mitochondries et les chloroplastes Procaryotes: ADN sous forme d’un seul chromosome circulaire super enroulé, qui peut se compacter encore plus en faisant des super-hélices en donnant une structure hélicoïdale

LA MOLÉCULE DE LA VIE: L’ADN Macromolécule, polymère de nucléotides (dAMP, dTMP, dCMP, dGMP) dont la structure et les propriétés chimiques lui permettent d’accomplir les fonctions suivantes: Stocker l’information génétique: détermination du développement et du fonctionnement de l’organisme Hérédité: transmission des caractères d’une génération à l’autre Diversité des individus et évolution des espèces: modification de l’information portée par l’ADN L’ADN est donc le support de l’information génétique mais aussi le support de ses variations. En subissant les effets de la sélection naturelle, l’ADN permet l’évolution biologique des espèces

BASES AZOTÉES ET COMPLÉMENTARITÉ Purine Pyrimidine Base azotée désoxyribose + Nucléoside + Groupement Phosphate Nucléotide 5’- A G T C -3’ 3’- T C A G -5’

NOMBRE D’EXEMPLAIRES DU GÉNOME PAR CELLULE Organismes haploïdes: 1 exemplaire du génome par cellule. Courant chez les unicellulaires Organismes diploïdes: 2 exemplaires par cellule, un hérité du père, l’autre de la mères. Les 2 exemplaires très similaires, mais pas strictement identiques. Très courant (cas de l’Homme) Organismes tétraploïdes: 4 exemplaires du génome. Rare chez les animaux, plus fréquent chez les plantes Remarques: Certains organismes (ex. les levures) peuvent exister alternativement sous forme haploïde ou diploïde: En fonction du moment de sa vie (avant ou après division), la cellule aura ou pas dupliqué son génome, pour ensuite transmettre une copie complète aux deux cellules filles. Donc, on peut trouver dans une cellule diploïde 4 exemplaires du génome.

LES COMPOSANTS DES GÉNOMES NUCLÉAIRE ET MITOCHONDRIAL HUMAINS Le génome nucléaire: 24 molécules linéaires chromosomes: la plus courte ~50Mb, la plus longue ~246Mb 22 autosomes et 1 paire de gonosomes (X et Y) Cellules somatiques: diploïdes Cellules germinales: haploïdes Globules rouges: pas de noyau Le génome cytoplasmique = mitochondrial est une molécule d’ADN circulaire de 16569 bases, existant en plusieurs copies dans les mitochondries

STRUCTURE DES CHROMOSOMES Les chromosomes dans la cellule = déployés et emmêlés  chromatine Lors de la division: condensation des chromosomes en structure en bâtonnet  chromosomes proprement dit Empaquetage de l’ADN: Représentation schématique des différents niveaux d’empaquetage de l’ADN pour former la chromatine ou les chromosomes. Le premier niveau d’empaquetage est assuré par une famille de protéines  les histones

STRUCTURE DES CHROMOSOMES Chromosome paternel et chromosome maternel = chromosomes homologues Chromosome fonctionnel = 3 éléments essentiels Séquences répétées à l’extrémité des chromosomes. La réplication ne peut jamais aller jusqu’aux bouts des chromosomes, Leur absence est associée à une perte d’information génétique pour le fonctionnement cellulaire Plusieurs, réplication  les 2 séquences= chromatides Séquence plus ou moins centrale, maintient associées les 2 chromatides d’un même chromosome + liaison du chromosome au fuseau mitotique  transmission de chaque chromatide à une cellule fille

Le projet du génome Humain: historique Idée de départ: si séquence d’ADN connue, alors les gènes contenus peuvent être identifiés et leurs activités étudiées en détail Au milieu des années 70: obtention de longues séquence d’ADN Dans les années 1990: premiers génomes complètement séquencés Le projet du génome humain: 1984  pour l’obtention de la séquence complète du génome nucléaire Projet financé par le gouvernement et des dons à travers le monde  la collaboration internationale la plus large et la plus complexe dans le monde de la science Deuxième projet pour le séquençage du génome humain financé par une compagnie privée: Celera Genomics du Maryland (1998) Première version du génome humain séquencé en 2001 publié dans « Nature » et « Science » de la même année

Le projet du génome Humain: historique Les versions du génome humain incomplète: 2.6 billion de paires de bases 83-84% de la séquence entière du génome couverture des parties les plus importantes du génome 16-17% des parties non séquencées: régions terminales des chromosomes (télomères) et autours des centromères  pauvres en gènes Version incomplète du génome: Petit calcul: 60 nucléotides écrits dans une ligne de 10 cm  la séquence du génome humain : 5000 km Distance couverte par la séquence du génome humain

TAILLE DES GÉNOMES Variation de la taille des génomes d’une espèce à une autre Absence de proportionnalité entre taille du génome et degré d’évolution Absence de proportionnalité entre taille du génome et nombre de gènes. Les espèces à très grand génome possèdent de très nombreuses séquences non codantes répétées

Contenu des génomes Le génome contient des gènes et des séquences intergéniques Les gènes peuvent contenir des séquences non codantes La distribution des gènes sur un chromosome ou entre chromosomes semble être aléatoire Certes: Certains gènes peuvent être regroupés pour une régulation d’expression coordonnée Des régions chromosomiques sont plus pauvres en gènes que d’autres (centromères, télomères) A,T,C,G ne sont pas équi-représentés: 59,7% de AT Les gènes sont plutôt riches en AT Les régions promotrices sont plutôt riches en GC

ORGANISATION DU GÉNOME HUMAIN 37.5% 62.5% Junk DNA, fonction inconnue

COMPARAISON DES ÉLÉMENTS DES GÉNOMES Espèce Helicobacter pylori (Bactérie) Saccharomyces cerevisiae (levure, Eucaryote) Homo sapiens (mammifère, Eucaryote) Chromosome : Nombre Forme Longueur centromère 1 Circulaire Pas de centromère 2 x 16 Linéaire 110 pb 2 X 23 >106 pb Gènes codant des protéines % du génome Longueur moyenne d’un gène % de gènes morcelés 91% 945 pb 72% 1450 pb 4% 20% génome transcrit 1 à 4% 20000 pb environ ≈100% Gènes codant des ARN : ARN ribosomiques ARN de transfert 0,7% 7 clusters 12 gènes 5% 262 copies 0,4% 1300 copies Séquences répétées : Hautement répétées Moyennement répétées 0% 1% 1,2% 10% 44% Compaction des génomes les moins évolués

CONTENU DU GÉNOME HUMAIN 50 kb du chromosome7 = partie du locus de beta T-cell receptor 1 gène: TRY code pour la trypsine 2 segments géniques: V28 et V29-1 (gènes incomplets) 1 pseudogène: TRY5 52 séquences répétées: LINEs, SINEs, LTR, transposons 2 microsatellites ~ 50 % de cette région est constituée de séquences non géniques, non répétitives de fonction ou signification inconnue

COMPARAISON AVEC D’AUTRES GÉNOMES Plus les organismes sont simples, plus leur génome est économe: Forte densité en gènes et faible densité en séquences répétées des gènes « simples » avec peu ou pas d’introns

La ressemblance entre génomes

1960 ADN ARN Protéine Transcription Traduction LE DOGME CENTRAL DE LA BIOLOGIE MOLÉCULAIRE Les gènes: Les séquences les plus importantes du génome car contiennent l’information biologique. ADN ARN Protéine Transcription Traduction 1960

Nombre de copies des gènes La très grande majorité des gènes sont présents en une copie par génome haploïde Dans les génomes diploïdes, chaque gène est donc présent en 2 copies. Chaque copie s’appelle allèle: 1 allèle du père 1 allèle de la mère En général, les 2 allèles sont peu différents: hétérozygote Sil les 2 allèles sont strictement identiques: homozygotes Quelques gènes répétés: rRNA: 2000 copies par génome haploïde Histones  Ce sont des gènes dont les produits sont indispensables en grande quantité

L’ÉPISSAGE ALTERNATIF Nombre de protéines connues < nombre attendu par traduction des gènes Epissage alternatif dans plus de 30% des gènes Diversité spatio-temporelle du protéome

STRUCTURE DES GÈNES EUCARYOTES Structure discontinue des gènes eucaryotes: exons et introns

STRUCTURE DES GÈNES HUMAINS Taille moyenne: 30 kb avec 10 exons et 9 introns, CDS:1340pb, 5’UTR:300pb, 3’UTR:770pb Taille moyenne d’un exon: 200 pb (taille d’un fragment d’ADN enroulé autour d’un nucléosome) Taille moyenne d’un intron: 5.4 kb 80 % des exons: < 200 pb; mais 2pb < exon < 12 kb 5 % des introns: > de 20kb: mais 1 pb < intron < 500 kb

QUELQUES BIZARRERIES DANS LE GÉNOME HUMAIN Le gène le plus long: DMD: 2.2 Mb, 79 exons, mRNA: 14kb, protéine de 3677 aa  99 % de la séquence est formée par des introns Le gène le plus long en nombre d’exons: TTN: 178 exons; 80780 pb, mRNA: 363 exons codants: 101.520kb, protéine: 33423 aa Gènes contenus dans les introns d’autres gènes: EVI2A (4kb, 2 exons) EVI2B (10kb, 2 exons) OMG (3kb, 1 exon) Intron 34 (60 kb) du gène NF1 (Neurofibromatin) du chromosome 17 Gènes chevauchants

Distribution des gènes dans le génome humain Distribution des gènes sur les chromosomes n’est pas uniforme: Chromosome 1: le plus de gènes: 2514 Chromosome Y: le moins de gènes: ~ 100 Chromosome 7: le plus long: 2508 gènes La distribution des gènes n’est pas proportionnelle à la taille du chromosome: Le chromosome 13 (96 Mb): 426 gènes Le chromosome 19 (56 Mb): 1609 gènes

DIFFÉRENTES CATÉGORIES DES GÈNES EUCARYOTES

Signaux des gènes eucaryotes: Promoteurs et région 5’ Les éléments en amont du promoteur = sites de liaison aux facteurs de transcription : Séquences courtes: 6-20 nt affectant l’efficacité de l’initiation de la transcription: Boîte CCAAT, Sp1 box, CRE, AP box 3 types de promoteurs pour chacune des ARN polymérases: Pol-1, Pol-II et Pol-III Pol-II: intéressant car ils signalent les gènes protéiques. Contiennent une boîte TATA et au moins une autre séquence importante en amont

SIGNAUX DES GÈNES EUCARYOTES: PROMOTEURS POL-II La boite TATA: Vers 25-30 pb en amont du site de départ de transcription (TSS): position constante dans les promoteurs eucaryotes. Séquence de 8 nt, pratiquement formée de A et T, peuvent être encadrées par des séquences riches en G et C Consensus établies de 860 promoteurs eucaryotes: GTATAAAAGGCGGGG Initiateur INR: Près du TSS, entre les positions -3 et +5 Peu ou pas de similarité entre les initiateurs de différents promoteurs La première base du mRNA transcrit tend à être un A, souvent flanqué de pyrimidines

Signaux des gènes eucaryotes: Les ilôts CpG Des zones riches en dinucléotides CG, fréquemment associées aux régions 5’ des gènes de Vertébrés S’étend sur le promoteur et l’exon 1 (ou 1 et 2) Fréquence attendue du dinucléotide CpG = 4%, mais fréquence observée = 1/5 de cette valeur due à la méthylation naturelle de CpG et réparation en TpG par déamination Au niveau du promoteur: valeur normale car il y a protection des CpG Typiquement 1-2 kb de longueur. Environ 70% G+C (contre 40% dans le reste du génome humain) Les ilôts CpG sont associés à tous les gènes housekeeping (constitutifs) et à 40 % des gènes tissu-spécifiques

Signaux des gènes eucaryotes: Les jonctions Introns/Exons 4 éléments importants chez les eucaryotes: donneur, accepteur, point de branchement et région riche en pyrimidines Le GT et le AG: exclu systématiquement de l’ARMm 98.1% des introns humains possèdent les GT et AG = Introns canoniques 0.76 % des introns humains possèdent GC et AG 0.1 % ont AT et AC La coupure peut s’effectuer à l’intérieur d’un codon Introns non canoniques

Mécanisme de l’épissage 2 réactions de trans-estérification

Signaux des gènes eucaryotes: Signaux 3’: Terminaison des gènes de Vertébrés L’exon terminal contient les signaux nécessaires à la maturation de pré-mRNA en mRNA: clivage et polyadénylation: Un héxamère AAUAAA ou AUUAAA (et parfois des variants présentant une mutation sur une base: AGUAAA, UAUAAA, CAUAAA, etc), 10 à 30 bases en amont du site de clivage (moy: 17nt). L’un ou l’autre des variants est observé dans plus de 90% des gènes Au site de clivage: un dinucléotide YA, où Y =pyrimidine 20 à 40 bases après le site de clivage (donc toujours sur le pré-mRNA): une région riche en GU de séquence variable Il peut y avoir plusieurs site de polyadénylation dans un pré-mRNA (jusqu’à une dizaine). Dans ce cas, on observe plusieurs fois l’ensemble de trois éléments et différentes protéines peuvent être traduites

DE LA TRANSCRIPTION À LA TRADUCTION Epissage Maturation des mRNAs  Noyau Traduction  Cytoplasme

FONCTIONS DES GÈNES HUMAINS La fonction des 30000-40000 gènes connue ou peut être inférée avec plus ou moins de certitude La grande majorité code pour des protéines, Moins de 2500 spécifient les différents type des ARN non codants ~1/4 des protéines impliquées dans l’expression, réplication et maintenance du génome Classification biaisée car basée sur les gènes dont les produits sont connus  13000 dont la fonction n’est pas connue ne sont pas classés Transport biochimique, repliement des protéines, protéines impliquées dans le processus immunitaire, protéines structurales

Les questions que traitera ce cours….. Quels sont les informations et les logiciels disponibles ? Bases de données bibliographiques, séquences biologiques Comment se présente l’informations ? Bases de données, formats de séquences, fichier Comment exploiter l’information biologique ? Recherche dans les bases de données, biologiques et bibliographiques Recherche de similitude entre séquences Notions d’homologie, d’alignement, phylogénie