Master Génie Biologique et Informatique, première année Industrialisation d'un logiciel pour la prédiction de structures secondaires d'ARN non codants Gabriel CHANDESRIS Maitre de stage : Fariza TAHI Tuteur universitaire : Valérie CHAUDRU
Qu’est ce que l’industrialisation d’un logiciel ? Mise à disposition (ici via le web). Utilisable sur des jeux de données importants. Examinable : documentation, tests. Extensible, modifiable : architecture du logiciel.
Contexte Biologique Structure secondaire Structure tertiaire Structure => Fonction
Prédiction des structures secondaires d’ARN Connaître les structures Techniques expérimentales lourdes (RMN, cristallographie…). Méthodes informatiques : plus rapides, moins chères. Méthodes in silico complètent méthodes expérimentales. Différentes approches : Approche thermodynamique. Approche comparative. Nombreux algorithmes existants : complexité élevée et/ou manque d’efficacité
TFold / P-DCFold Décrire rapidement : apport par rapport à l’état de l’art, complexité faible, rapide, complet
Mon travail sur le logiciel Etude et formalisation de l'existant : TFold et P-DCFold Diagrammes UML (classes et cas d'utilisation) Modifications de P-DCFold. Documentation, tests. Développement de l’interface.
Formalisation de TFold (cas d’utilisation UML) *
Etude et modification du code de P-DCFold Formalisation Modification Documentation et tests
Interface graphique : existant Applicatif isolé « stand alone »
Interface graphique : web SSCA : Sequence Selection for the Comparative Approach
Interface graphique : web Pseudoknots, Divide and Conquer Fold
Conclusion Compétence en biologie Compétence informatique Comprendre le modèle utilisé, contexte biologique. Adapter le modèle : contraintes. Compétence informatique Conceptualisation et formalisation objet (UML, classes, cas d’utilisations…). Programmation java : modèle, interface, contrôle. Tests de développement et de fonctionnement (JUnit) .
Perspectives Export de l'application / importation des données (soucis de confidentialité). Amélioration de l’ergonomie de l’interface, Documentation technique (à destination des utilisateurs). Tester massivement avec des données publiques (et résultats connus). Extension de TFold pour la recherche des petits ARN.
Intérêt de TFold / P-DCFold Prédiction de structure secondaire des ARN Construit sur l'approche comparative. Utilisation de critères thermodynamiques. But du stage : améliorer et rendre accessible Interface web Documentation -----
De l'ARN à la structure secondaire Que fait le logiciel TFold / P-DCFold ? Structure secondaire Structure tertiaire
Comment cela fonctionne (++)
Les algorithmes (++) « Valeur Ajoutée » : fonctionnement logiciel, Adaptation des abstractions : Vecteurs (non typés) et Listes / Ensembles d'instances, Correction des représentations (simplification), Résultat : interface, systèmes de tests, recherche de dysfonctionnements Documentation et tests : extension à venir.