Recherche
Bioinformatique

 

Bioinformatique
Le terme bioinformatique regroupe un ensemble de techniques et outils liées aux mathématiques et à l'informatique dont le but est l'interprétation des données biologiques. Ces données biologiques concernent essentiellement deux types de macromolécules : les acides nucléiques et les protéines.

La bioinformatique est devenue une discipline à part entière qui ne se cantonne pas aux deux disciplines qui la définissent terminologiquement mais englobe l'ensemble des sciences exactes et naturelles. Si nous voulons progresser dans notre connaissance des phénomènes du Vivant, il nous faut donc allier les compétences des chercheurs en biologie, chimie, physique, mathématiques et informatique.

Les récents progrès des programmes de séquençage des génomes (comme le projet Génome Humain achevé en 2003) ont ouvert de nouvelles perspectives dans les domaines de la biologie, de la santé et de l'agronomie :
  • La génomique s'intéresse à l'étude exhaustive des génomes : elle en analyse la structure afin d'identifier les gènes et les régions qui régulent l'expression de ces gènes. Cette régulation résulte de la fixation de facteurs de transcription sur des régions particulières des gènes. Il en résulte un très grand nombre d'interactions protéine/ADN et protéine/protéine.
  • La protéomique étudie l'ensemble des protéines contenues dans une cellule (le protéome). Elle s'articule autour de trois thèmes majeurs : la prédiction de structures, la relation structure-fonction et la phylogénie.
  • D'autres voies sont en pleine expansion :
    • l'étude des réseaux d'interactions entre molécules (protéine/ADN, protéine/protéine, protéines/substrats, protéines/effecteurs). Le but est de décrire le fonctionnement global d'une cellule dans un environnement donné.
    • la modélisation moléculaire pour la conception de médicaments et l'étude de l'interaction entre macromolécules.
Les énormes volumes de données biologiques ne sont plus susceptibles d'être traités manuellement. Ils nécessitent de faire appel au meilleur ami de l'homme dans le traitement automatique de l'information : l'ordinateur. La bioinformatique permet au biologiste d'exploiter le formidable potentiel de connaissances contenues dans les banques de données et de les analyser. Elle permet à l'informaticien de mettre en oeuvre ses compétences en algorithmique et en programmation, en développement d'interface et de bases de données.


Alignement
Mon travail de recherche en bioinformatique a débuté dès 2001 sous la tutelle du Pr. Jin-Kao Hao qui a pris part à la création de la Ouest Génopôle. J'ai commencé par m'intéresser aux problèmes de l'Alignment par Paires de Séquences (Pairwise Sequence Alignment) et l'Alignement Multiple de Séquences (Multiple Sequence Alignment).

En 2002, Vincent Derrien, étudiant en DEA a implanté une première version de PLaSMA un nouvel algorithme d'alignement multiple basé sur une méthode dérivée de l'alignement progressif (utilisé par Clustal W) utilisant des blocs de séquences au lieu de séquences consensus. L'objectif de cet algorithme était d'améliorer la qualité de l'alignement final car l'emploi de séquences consensus tend à biaiser le résultat de l'alignement. Vincent Derrien effectue actuellement sa thèse au LERIA.

Pour en savoir plus sur l'alignement


Phylogénie
En 2003, je me suis intéressé au problème de Reconstruction de Phylogénie. Adrien Goeffon, étudiant de DEA a créé un logiciel implantant plusieurs méthodes de recherche locale (Descente, Tabou, Recuit Simulé) afin de trouver un arbre phylogénétique optimal en utilisant le critère de Maximum de Parcimonie (Maximum Parsimony Criterion).
Adrien Goeffon effectue actuellement sa thèse au LERIA.

Pour en savoir plus sur la phylogénie


Prédiction des ponts disulfure
En 2003, j'ai eu la chance de rencontrer mon collègue biologiste Emmanuel Jaspard qui fait partie de l'UMR PMS d'Angers (UMR Physiologie Moléculaire des Semences). Nous avons débuté une collaboration qui nous permet d'aborder de manière complémentaire des problèmes en bioinformatique sous les deux angles qui forment ce domaine, c'est à dire biologie et informatique.

Notre premier projet de collaboration concerne la Prédiction des Ponts Disulfure. Nous avons commencé par constituer une base de données DBDB (Disulfide Bridge DataBase) qui nous servira à mener une étude poussée sur les propriétés physico-chimiques des ponts. Nous avons également établi des contacts avec l'INRA de Nantes : Y. Popineau et D. Teyssier qui ont commencé à travailler sur le problème.

Nous avons également mis en place une base de données de séquences des semences durant la phase de germination (notamment pour le pois (Pivum Sativum dans un premier temps).

Travail en cours


Recherche de motifs
Un motif (ou Pattern) au sens bioinformatique du terme représente une expression qui permet de caractériser un ensemble de séquences d'ADN, d'ARN ou de protéines. Le motif peut concerner les structures primaires, secondaires et tertiaires. Le motif trouve notamment son intérêt dans la caractérisation des fonctions des protéines : si on était capable d'exhiber un motif pour chaque fonction alors on serait en mesure de prédire automatiquement la fonction associée à une protéine.

On distingue deux étapes dans la recherche de motif :
  • la découverte qui, étant donné un ensemble de séquences, tente d'exhiber un motif commun à ces séquences. Il s'agit d'un problème complexe car on ne sait pas ce qui doit être trouver. Dans le cas de séquences similaires, on peut utiliser un alignement multiple des séquences afin de trouver un motif simple.

  • la recherche à proprement parler, qui concerne la détection d'un motif donné sur un ensemble de séquences. Ce problème est bien plus simple que le premier.
Les deux problèmes rencontrés dans la recherche de motif concernent la définition du motif. Un motif est généralement défini à partir d'un ensemble référence de séquences qui possèdent la même fonction :
  • si le motif n'est pas assez fin, on risque de le découvrir sur des séquences qui n'ont pas la fonction liée au groupe de séquences référence, ces séquences seront appelées faux positifs,
  • par contre, s'il est trop fin, certaines séquences qui possèdent la fonction liée au motif ne seront pas découvertes, on les qualifiera de vrai négatifs.


Stages Master 2
Ces stages sont effectués dans le cadre du Master 2 Bioinformatique de Rennes 1.
  • 2009 (stage à pourvoir) : conception d'un algorithme pour la conception d'arbre parcimonieux à partir d'une méthode de distance
  • 2006 (en attente) : prédiction de structure secondaire (sujet)
  • 2006 (en attente) : poursuite du travail sur les motifs, amélioration du logiciel, création d'une interface pour l'édition des motifs, mise en place dur le web (sujet)
  • 2005 : Utilisation des propriétés des acides aminés dans le cadre de la caractérisation et la détection de motifs dans les protéines, Thomas Sierocinski (rapport.pdf)
  • 2005 : Implantation d'une méthode de construction d'arbre phylogénétique dans le cadre de la parcimonie, Didier Empis

Thèses encadrées
  • 2002-2008 : Heuristiques pour la résolution du problème d'alignement multiple de séquences, Vincent Derrien
  • 2003-2006 : Reconstruction de Phylogénie par la méthode du Maximum de parcimonie par utilisation de techniques heuristiques et de recherche locale, Adrien Goeffon

Publications
  • 2008
    Jean-Michel Richer, Three new techniques to improve phylogenetic reconstruction with maximum parsimony, Technical Report, LERIA, 2008 (PDF).

  • 2007
    Jean-Michel Richer, Vincent Derrien, Jin-Kao Hao, A New Dynamic Programming Algorithm for Multiple Sequence Alignment, (COCOA 07), Xi'an, Shaanxi, Chine, 12 au 15 Août 2007. LNCS 4616, ISBN 978-3-540-73555-7. lecture, article (32 papiers acceptés parmi 114, soit 28 %)
    Adrien Goeffon, Jean-Michel Richer, Jin-Kao Hao, Progressive Tree Neighborhood applied to the Maximum Parsimony Problem, In IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), (to appear pdf).

  • 2006
    Adrien Goeffon, Jean-Michel Richer, Jin-Kao Hao, A Distance-based Information Preservation Tree Crossover for the Maximum Parsimony Problem, In Proceedings of Parallel Problem Solving From Nature IX, (PPSN 06), Reykjavik, September 2006. (pdf)
    Adrien Goeffon, Jean-Michel Richer, Jin-Kao Hao,Hybrid Evolutionary Algorithm for reconstructing Phylogenetic Trees, Actes des Septièmes Journées Ouvertes en Biologie, Informatique et Mathématiques, Bordeaux, France, Juillet 2006.

  • 2005
    Adrien Goeffon, Jean-Michel Richer, Jin-Kao Hao, Recherche locale à voisinage évolutif pour la reconstruction de phylogénies, Actes du 6ème Congrès National sur la Recherche Opérationnelle et l'Aide à la Décision (ROADEF'05), pp 187-188, Tours, Février 2005.
    Adrien Goeffon, Jean-Michel Richer, Jin-Kao Hao, Local Search for the Maximum Parsimony Problem, 2005 International Conference on Natural Computation (ICNC'05), Changsha, Chine, 27-29 August 2005, Lecture Notes in Computer Science 3612: 678-683, Springer-Verlag 2005. (pdf)
    Adrien Goeffon, Jean-Michel Richer, Jin-Kao Hao, Voisinage d'arbre évolutif appliqué au problème de Maximum Parcimonie, Actes des Premières Journées Francophones de Programmation par Contraintes (JFPC'05), Lens, Juin 2005.
    Vincent Derrien, Jean-Michel Richer, Jin-Kao Hao, PLaSMA : un nouvel algorithme progressif pour l'alignement multiple de séquences, Actes des Premières Journées Francophones de Programmation par Contraintes (JFPC'05), Lens, Juin 2005.
    Adrien Goeffon, Jean-Michel Richer, Jin-Kao Hao, Voisinage d'arbre évolutif appliqué au problème de Maximum Parcimonie, Actes des Sixièmes Journées Ouvertes en Biologie Informatique et Mathématiques (JOBIM'05), Lyon, France, Juillet 2005.
    Adrien Goeffon, Jean-Michel Richer, Jin-Kao Hao, Progressive Tree Neighborhood Applied to the Maximum Parsimony Problem, Mini EURO Conference on Variable Neighborhood Search (MECVNS 05), Tenerife, Espagne, Novembre 2005.

  • 2003
    Vincent Derrien, Jean-Michel Richer, Jin-Kao Hao, PLaSMA : une approche hybride pour l'alignement multiple de séquences, 5ème Congrès de la Société Française de Recherche Opérationnelle et d'Aide à la Décision (ROADEF'03), pp 77-78, Avignon, 26-28 Février 2003.

  • 2002
    Vincent Derrien, Jean-Michel Richer, Jin-Kao Hao, A new hybrid approach to Multiple Sequence Alignment, 7th International Conference on Parallel Problem Solving From Nature PPSN 2002, Workshop on Bioinformatics, pp 31-32, Granada, Spain, September 2002.

News
  • L'ornithorynque: à la fois oiseau, reptile et mammifère, confirme son génome, Mercredi 7 mai 2008 - L'ornithorynque, étrange animal à fourrure, bec de canard, pattes palmées et queue plate vivant en Australie et en Tasmanie, est bien en partie reptile, oiseau et mammifère, confirme son génome, publié par une équipe internationale dans la revue Nature à paraître jeudi.

    Parmi ses autres particularités, cet animal long de 40 cm fait partie de l'ordre des monotrèmes : il pond des oeufs et allaite ses petits. Sa fourrure est par ailleurs adaptée à une vie dans l'eau et le mâle sécrète un venin comparable à celui des serpents.

    "Le génome de l'ornithorynque (Ornithorhyncus anatinus), comme l'animal, présente un amalgame de caractéristiques appartenant à un reptilien ancestral et dérivées de mammifères", notent les chercheurs. Certains de ses 52 chromosomes, concernant les caractères sexuels, correspondent même à celui des oiseaux connus sous le nom de "Z".

    Au cours de leur analyse, les chercheurs ont comparé ce génome avec ceux de l'homme, du chien, de la souris, de l'opossum et de la poule : l'ornithorynque partage 82% de leurs gènes, ont-ils décelé. Il compte environ 18.500 gènes, soit environ les deux tiers de celui de l'homme.

    Parmi ses originalités, l'ornithorynque nage les yeux, les oreilles et les narines fermés, se fiant à des récepteurs électrosensoriels de son bec pour détecter les faibles champs électriques émis par ses proies sous l'eau. Par ailleurs, il ne possède pas de tétons, et ses petits sucent le lait qui exsude de sa peau, comme chez les marsupiaux.

  • Séquencage du génome de 1000 personnes, Mardi 22 janvier 2008 - Un consortium international d'institutions de recherche (Wellcome Trust Sanger Institute de Grande-Bretagne, les instituts nationaux de santé américains et l'Institut Shenzhen d'étude sur le génome humain de Pékin) annonce le lancement de "The 1000 Genome Project". Ce projet a pour but de séquencer le génome de 1000 personnes, soit "un échantillon représentatif de la population mondiale". Les chercheurs espèrent ainsi établir, notamment à des fins médicales, une "cartographie vaste et précise du génome de l'espèce humaine" qui permettrait de progresser dans l'analyse des variations génétiques inter-individuelles. En effet, des études récentes ont montré que les hommes ne partageraient que 99,9% de leur patrimoine génétique : le séquençage du 0,1% restant pourrait expliquer pourquoi certaines personnes développent certaines maladies et d'autres pas.

    Source : Le Monde, Jean-Yves Nau, 25 Janvier 2008, "Le génome de mille personnes sera séquencé - NHGRI

  • Un génome bactérien produit par synthèse chimique, 24 janvier 2008 - Le site de la revue Science a mis en ligne la description par le généticien américain et son équipe de l'assemblage chimique et du clonage du génome entier d'une bactérie, Mycoplasma genitalium. Avec 528 gènes et près de 583 000 paires de bases de long, c'est la plus longue molécule d'ADN jamais produite en laboratoire par synthèse chimique. Cette prouesse scientifique rapproche l'équipe de Craig Venter de son but ultime : fabriquer le premier organisme vivant synthétique. Pour y arriver, les chercheurs doivent encore réussir à introduire le génome artificiel à l'intérieur d'une cellule, puis à déclencher l'expression du programme génétique dont il est porteur. L'équipe ayant déjà réussi à transférer le génome naturel d'une bactérie dans une autre cellule bactérienne, tout laisse à penser que la première bactérie artificielle sera obtenue dans les mois à venir. Craig Venter espère que ces travaux déboucheront rapidement sur la possibilité de fabriquer des organismes entièrement artificiels capables de produire des molécules pharmaceutiques ou des biocarburants. Conscient que la biologie synthétique soulève des questions éthiques et de sécurité, Craig Venter a pris l'initiative de constituer un groupe de réflexion, qui a abouti en octobre 2007 à la publication d'un rapport sur la "gouvernance de la génomique synthétique", document qui propose des stratégies de contrôle des activités des laboratoires.

    Sources : Le Monde, Hervé Morin, 25 janvier 2008, "Une équipe américaine synthétise le premier génome entier d'une bactérie" ; Quotimed.com (le site du Quotidien du Médecin), 25 janvier 2008
marqueur eStat\'Perso