Colloque Traitement et Analyse de séquences : compte-rendu Modèles aléatoires (+ stat) Statistiques de motifs (+ stat) Scores (+ stat) Alignements (+ info) Gènes/Annotation (+ bio) Répétitions (+ info) Protéines (+ bio) Algorithmes combinatoires (+ info) Génomes (+ bio)
Modèles aléatoires Significativité d’un événement (except ou hasard ?) => chaînes de Markov Détection de propriétés de structures => chaînes de Markov cachées (HMM) Grammaires formelles pondérées pour générer des séquences aléatoires (+ info)
Statistiques de motifs Fréquence - hétérogène/homogène, complexité/simplicité, codant/non codant Longueur - long des mots, répétitions, distance Description : expressions régulières, PROSITE,etc Calcul E et V apparition, nb occurrences, etc - math-stat + fonctions génératrices - algo de mots, autocorrélation (cf M. Régnier)
Scores Nucléotide (ou acide aminé) <=> score séquence <=> score global = somme scores séquence <=> score local = max scores des seq possibles Degré de signification d’un score : déterminer distrib proba du score => souvent dur, souvent asymptotique
Alignements Degré similarité, homologie, nb opérations d’édition Global / local => prog dynamique, heuristiques Parallélisation de prog dynamique alignement arbres / structures secondaires indexation de motifs pour alignements (??) Recombinaisons : graphes/cliques maximales
Gènes / Annotation Où sont les gènes ? Quelles sont leurs fonctions ? Procaryotes + facile, eucaryotes + dur Gène (ADN) => messager (ARNm, plusieurs alternatives) => protéine (plusieurs formes)
Méthode expérimentale : - cloner transcrit + séquencer + comparer avec ADN - fiable mais coûteuse et fastidieuse Méthodes informatiques : - rechercher similarité dans BDs - propriétés génériques des gènes (fct espèces) Validation : jeu de données propre !!!
Répétitions Algo recherche motifs à trous basé sur DAG Algo recherche répétitions (pas nb entier) Un autre basé sur oracle des facteurs
Protéines Alphabet structural pour décomposer la structure 3D des protéines => chaîne de Markov cachée… Site NPSA : sur protéines similarités, alignements, prédiction structures secondaires, … Threading : méthode de reconnaissance de repliements de protéines
Algorithmes combinatoires MF Sagot : cf son habilitation Génomes Définition profil basé sur structure secondaire, puis recherche motif dans le génome Technique des ondelettes = zoom
Rôle évolutif des systèmes de restriction et modification : fréquence de mots, chaîne de Markov maximale, palindrome,… Nature fractale des séquences d’ADN : technique des ondelettes Dernier ?