Introduction à la Bio-Informatique

Slides:

Advertisements

Présentations similaires

Paul Payette, Merck Frosst, janvier 2004 Génomique et protéomique.

Advertisements

Un aperçu de la bioinformatique moléculaire

Equipe Biosystème Membres de l’équipe: Mme. Hounaida Homri Thèse

DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")

Les données et les banques de données

Transcription de l’ADN

Colloque Traitement et Analyse de séquences : compte-rendu

Initiation à la bioinformatique

Génomique et post-génomique végétale

Les enzymes : outils de biologie moléculaire Enzymes de restriction: endonucléases Kinases: ajoutent un phosphate (P*) Phosphatases: retirent un phosphate.

Les bases de données biologiques au LBBE

Le noyau : le centre de commande de la cellule

Bioinformatique =?? génomique protéomique

Recherche bibliographique Interrogation de banques de données

Correction du TP sur la transcription.

Activité 5. Du génome au protéome

Présenté par Mathieu Almeida, Amine Ghozlane

Le code génétique Biologie 122.

TP 5 Du génome au protéome

Initiation aux outils de recherche bibliographique dans le cadre de la réalisation dune séquence de formation à la recherche documentaire Luc Verdebout.

UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles

Département Génétique et Génomique Evolutives

La Bioinformatique à Nancy

Expression du Génome Le transcriptome.

LA SYNTHÈSE DES PROTÉINES

ADN à ARN La synthèse des protéines étape 1

Introduction à la bioinformatique

Cours des Acides Nucléiques

LA SYNTHÈSE DES PROTÉINES

L3 Module Libre Année universitaire Initiation à la Bioinformatique Jean-Michel RICHER.

Annotation de génomes complets

Bases de données en biologie (suite)

La banque UniprotKB et le logiciel Blast

Introduction à la Bio-Informatique

Ordre des chapitres : 1 – 3 – 2 – 4 1.

Activité 4 Correspondance gène/protéine.

Chaque module comprends 2 niveaux :

Introduction à la Pathologie Moléculaire du Gène

Un outil pour trouver les gènes et comprendre la pathologie moléculaire.

De l’ADN aux protéines.

Banques de données en bio-informatique

Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.

Présenté par Mathieu Almeida, Amine Ghozlane

4.6 – La synthèse des protéines

Intégration des données sur le transcriptome

Introduction à la Bio-Informatique

Bin Hiver 2005 Intégration biosciences/informatique Sylvie Hamel Département d’informatique et de recherche opérationnelle André-Aisenstadt: 3161.

Révision ADN et protéines

Cartographie génomes entiers

Bin1002 – Automne 2015 Intégration biosciences/informatique

Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique.

Introduction à la bioinformatique « Génomique Nouvelle Génération »

France Bilodeau Bibliothécaire-conseil 19 octobre 2015 La recherche d’information en éducation.

On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).

REGULATION DE L’EXPRESSION DES GENES

Mais d’abord rappelez-vous!!

Régulation de l’expression génétique: la transcription

Pr B. AITABDELKADER CPMC

Les banques de séquences nucléiques

CHMI 4206 Bioinformatique appliquée

CHMI 4206 Bioinformatique appliquée

CHMI 4206 Bioinformatique appliquée

Aspects techniques des biotechnologies

Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.

PROFESSEURS STAGIAIRES Et NEO-CONTRACTUELS Formation disciplinaire 2 octobre 2015 Elizabeth BASTE-CATAYEE.

Bio-Informatique Analyse de séquences nucléotidiques

Compétences informationnelles Choisir ses sources Connaître les outils de repérage.

Introduction à la Bio-Informatique IFT3295

Note 1 : Tous les rapports de T. P

Transcription de la présentation:

Introduction à la Bio-Informatique

Qu’est-ce que la Bio-Informatique? Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour résoudre un problème biologique : Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire.

Distinguer deux termes: « Computational biology » « Bioinformatics » Analyse "in silico" de l'information biologique contenue dans les séquences nucléiques et protéiques « Computational biology » Ensemble de méthodes et de logiciels qui permettent de gérer, manipuler, traiter et analyser les données biologiques: La bioinformatique met en jeu plusieurs champs disciplinaires : Biologie Informatique Mathématiques Statistiques

Les séquences d’ADN et de protéines La Bio-Informatique s’applique à tout type de données biologiques, en particulier moléculaires : Les séquences d’ADN et de protéines Les structures d’ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d’interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités : Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution… Aider à la conception de médicaments Comprendre les maladies complexes..

Une évolution Activité biologique Études biochimiques Séquence protéique Gène GATTACA

Une évolution ANALYSES DE SEQUENCES Activité biologique Études biochimiques Séquence protéique Gène GATTACA

Défis de la biologie moléculaire Analyser, comprendre et organiser une masse de données biologiques: Plus de 200 génomes complètement séquencés et publiés, dont l’homme (23 paires de chros.) et la souris (20 paires de chro.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de plus de 500 procaryotes et 400 eucaryotes

Défis de la biologie moléculaire Décoder l’information contenue dans les séquences d’ADN et de protéines Trouver les gènes Différencier entre introns et exons Analyser les répétitions dans l’ADN Identifier les sites des facteurs de transcription Étudier l’évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d’interaction entre les protéines

Une histoire Première banque de séquences protéiques (PIR) < 1980 Algorithme de comparaison de séquences (Needleman) Banques de données (EMBL, GENBANK) ~1980 Début de la micro-informatique Développement de l’Internet et des réseaux ~1990 Apparition des logiciels d’alignement (FASTA et BLAST) Projets de séquençage de génomes complets ~2000 Séquençage du génome humain (Première ébauche)

Qu’est-ce qu’une banque de données ? Ensemble de données relatives à un domaine, organisées par traitement informatique, accessibles en ligne et à distance Souvent, les données sont stockées sous la forme d’un fichier texte formaté (respectant une disposition particulière) Besoin de développer des logiciels spécifiques pour interroger les données contenues dans ces banques

Les banques de données généralistes Ces banques contiennent des données hétérogènes Collecte la plus exhaustive possible Banques de séquences nucléiques Banques de séquences protéiques Banques de structure 3D de macromolécules Banques d’articles scientifiques Avantage : tout est consultable en une fois Inconvénients : difficiles à maintenir, difficiles à interroger

Les banques de données spécialisées Ces banques contiennent des données homogènes Collecte établie autour d’une thématique particulière Avantages : facilité pour mettre à jour les données, vérifier leur intégrité, offrir une interface adaptée, … Inconvénients : ne cible pas toujours ce que l’on veut; toutes les banques possibles n’existent pas Exemples : banques spécialisées pour un génome, banques de séquences d'immunologies, banques sur des séquences validées, …

Les banques de séquences nucléiques Origine des données : Séquençage d’ADN et d’ARN Les données stockées : séquences + annotations Fragments de génomes Un ou plusieurs gènes, un bout de gène, séquence intergénique, … Génomes complets ARNm, ARNt, ARNr, … (fragments ou entiers) [ Note 1] : toutes les séquences (ADN ou ARN) sont écrites avec des T [ Note 2] : les séquences sont toujours orientées 5’ vers 3’.

Les banques de séquences protéiques Origine des données Traduction de séquences d’ADN Séquençage de protéines Rare car long et coûteux Protéines dont la structure 3D est connue Les données stockées : séquences + annotations Protéines entières Fragments de protéines

Une Banque bibliographique, PubMed Contient Journaux concernant la biologie et la médecine Articles indexés par des experts à l’aide des termes MeSH Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de molécules chimiques Hiérarchisé Dictionnaire de synonymes 19.000 termes médicaux, 103.500 termes chimiques Subheadings : sous-titres qui décrivent un aspect particulier des termes MeSH Mis à jour régulièrement

Les bases de données bioinformatiques les plus utilisées NCBI, National Center for Biotechnology Information GenBank: Séquences d’ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues … EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins Deux séquences génétiques homologues de deux espèces différentes sont orthologues si elles descendent d'une séquence unique présente dans le dernier ancêtre commun aux deux espèces

Entrez au NCBI Sequence/Structure Sequence/Structure Expression PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals SNP UniSTS PubMed Central Gene HomoloGene Protein Sequence/Structure Compounds BioAssays Genome Sequence/Structure Substances Literature Organism Expression Sequence Nucleotide