Notes of Raphael Cerf’s lecture

Population critique et seuil d’erreur pour l’émergence d’une quasi-espèce

Exposé de Raphaël Cerf aux Journées de rentrée des masters de la Fondation mathématique Jacques Hadamard,

Public : {>50} étudiants de master. Pertinent pour l’analyse des algorithmes génétiques.

1. Origine de la vie

Dur de modéliser l’origine de la vie, impossible de tester un modèle, les conditions ont changé, le processus a pris des millions d’années.

1.1. Caractéristiques de la vie

  1. Un organisme vivant puise de l’énergie dans son environnement (survie à court terme).
  2. Un organisme vivant meurt t\^ot ou tard.
  3. Un organisme vivant se reproduit (survie à long terme de l’espèce).

Ces mécanismes sont au coeur de la théorie de la sélection naturelle, la plus répandue depuis le XIXème siècle. A l’origine, quelques molécules assemblées acquièrent les trois propriétés ci-dessus. Le mécanisme de la reproduction des \^etres vivants actuels a été élucidé : la plupart possèdent des molécules d’ADN capables de se dupliquer. L’expérience de Miller et Urey (1950) rend vraisemblable l’apparition spontanée d’acides aminés, comme les 4 lettres du code génétique. En revanche, on ignore comment l’ADN a pu appara\^\i tre. Cet exposé considère l’étape suivante : que se passe t’il une fois que l’ADN existe.

2. Modèle d’Eigen

2.1. Le modèle

En 1971, Eigen a introduit le concept de quasi-espèce. On considère une soupe de cha\^\i nes d’ADN de longueur {\ell}. On suppose que les réactions chimiques suivantes peuvent se produire,

  1. Réplication : {(S) + u \rightarrow u+u}.
  2. Mutation : {(S)+u\rightarrow u+v}. Elle se produit avec probabilité {q}, le taux de mutation.
  3. Dégradation {u\rightarrow (S)}.

On suppose que toutes les cha\^\i nes sont équivalentes, sauf l’une d’entre elles, la \texttt{master sequence} {w^*}, qui se reproduit plus vite, avec un taux de supériorité {\sigma>1}. On s’interroge sur la composition de la soupe à l’équilibre.

Eigen et Schuster écrivent un système d’équations différentielles ordinaires satisfaites par les {4^{\ell}} concentrations.

2.2. Résultats

Ils s’intéressent d’abord à la concentration en {w^*} en fonction du taux de mutation {q}, dans la limite {\ell\rightarrow\infty}. Ils observent un seuil {q_0 \sim\frac{\log\sigma}{\ell}}. Pour {q<q_0}, la concentration limite décro\^\i t de {1} à {0}. Pour {q\geq q_0}, elle est nulle.

Ensuite, les cha\^\i nes qui diffèrent de {w^*} en un site ont elles aussi une concentration limite positive pour {q<q_0}, qui part de {0} en {q=0}, augmente puis retombe à {0} en {q_0}. Idem pour les cha\^\i nes à distance {2}, etc… La distribution des concentrations limites, dans l’espace des cha\^\i nes, est ce qu’on appelle une quasi-espèce. Il n’y a pas qu’une cha\^\i ne, mais tout un ensemble de cha\^\i nes voisines dont l’évolution doit \^etre étudiée.

On appelle {q_0} le seuil d’erreur, il est de l’ordre de {1/\ell}.

Les organismes les plus simples, les virus (notamment, le virus HIV), sont souvent constitués d’une seule molécule de longueur {\ell=300}, et ont un taux de mutation de l’ordre de {1/\ell}. Il semble que cela leur donne un avantage décisif (en tout cas, cela rend très difficile la fabrication de vaccins). Une des stratégies d’éradication du SIDA consiste à faire passer le taux de mutation au-dessus ou au-dessous du seuil d’erreur.

3. Population finie

Dans le modèle d’Eigen, on suppose la population infinie, puis on fait tendre {\ell} vers l’infini. Les populations biologiques réelles ont une taille finie, bien inférieure à {4^{\ell}}.

Il y a aussi d’autres motivations. Les algorithmes génétiques, qui ont rencontré un grand succès en optimisation combinatoire, imitent le processus de reproduction, en maintenant une population finie.

3.1. Modèle de Moran

Les cha\^\i nes (appelées désormais chromosomes) sont de longueur {\ell}, la population de taille {m}.

Hypothèse \texttt{Sharp peak landscape} : la séquence {w^*=A\ldots A} a une \texttt{fitness} {\sigma>1}. Les mutations aux différents sites sont indépendantes. La probabilité qu’une mutation se produise en un site donné est {q}.

On construit un processus de Markov à temps continu dont l’espace d’états est l’ensemble des populations de {m} chromosomes. On se donne un processus de Poisson, i.e. une horloge qui sonne à des instants aléatoires, le temps entre deux sonneries consécutives suivant une loi exponentielle. La population change lorsque l’horloge sonne. A cet instant, on tire un chromosome de la population. Si on est tombé sur {w^*}, il se reproduit. Sinon, le chromosome se reproduit avec probabilité {\frac{1}{\sigma}}. Dans les deux cas, on tire un site au hasard et on fait une mutation avec probabilité {q}.

Si {\sigma=\infty}et {q=0}, la population devient rapidement {w^*}. Si {q=1}, mélange.

On s’intéresse à l’équilibre, i.e. au nombre de copies {N(X_t)} de {w^*} présentes dans la population au temps {t} quand {t\rightarrow\infty}, i.e. à

\displaystyle \begin{array}{rcl} Master(\sigma,m,\ell,q)=\lim_{t\rightarrow\infty}\mathop{\mathbb E}(\frac{N(X_t)}{m}). \end{array}

Comme le processus est irréductible, le théorème ergodique s’applique, la loi de {X_t} converge vers la distribution stationnaire, donc la limite existe.

3.2. Résultats

Theorem 1 (Musso) Lorsque {m} tend vers l’infini, le modèle de Moran converge vers celui d’Eigen.

Autrement dit, si {m} tend vers l’inifini, puis {\ell} tend vers l’infini, on rencontre le phénomène de quasi-espèce.

Qu’en est il si {\ell} tend vers l’infini, puis {m} tend vers l’infini ? Ca ne marche pas. On donne un résultat intermédiaire.

Theorem 2 On suppose que {m}, {\ell} tendent vers l’infini et {q} tend vers {0} de sorte que {\frac{m}{\ell}\rightarrow\alpha} et {\ell q=a}. On note

\displaystyle \begin{array}{rcl} \phi(a)=\frac{\sigma(1-e^{-a})\log(\frac{\sigma(1-e^{-a})}{\sigma -1})+\log(\sigma)}{1-\sigma(1-e^{-a})}. \end{array}

  1. Si {\alpha\phi(a)<\log 4}, {Master(\sigma,m,\ell,q)} tend vers {0}.
  2. Si {\alpha\phi(a)>\log 4}, {Master(\sigma,m,\ell,q)} tend vers

    \displaystyle \begin{array}{rcl} \frac{\sigma e^{-a}-1}{\sigma-1}. \end{array}

Il y a donc une courbe {\alpha=\alpha(a)} le long de la laquelle une transition se produit. Au-dessus une quasi-espèce appara\^\i t. Au-dessous, c’est le désordre.

3.3. Heuristique

Il y a deux types de populations, celles qui contiennent {w^*} et celles qui ne la contiennent pas. On introduit deux temps

  1. Le temps de persistence de {w^*} dans la population,
  2. Le temps de découverte de {w^*} par la population,

Ces temps sont bien définis grâce au théorème ergodique. On peut donc approximer le processus par une cha\^\i ne de Markov à deux états.

Le temps de découverte est estimé au moyen du théorème (Mark Ka\v c 1947) qui donne le temps d’atteinte d’une configuration particulière pour l’urne d’Ehrenfest : il vaut {\frac{1}{\ell}}.

Temps de persistence. Pour détruire {m} \texttt{master sequences}, il faut un temps {\sigma^{-m}}. Pour une population inhomogène, il faut utiliser un processus de vie et de mort, on trouve un temps {\frac{2}{\theta}e^{m\phi(a)}}.

3.4. Questions

Que se passe t’il le long de la courbe critique ? Je ne sais pas, c’est le coeur de la suite du programme de recherche.

Résultats non asymptotiques ? Non, mais les simulations, m\^eme de petite taille, montrent la transition.

Advertisements

About metric2011

metric2011 is a program of Centre Emile Borel, an activity of Institut Henri Poincaré, 11 rue Pierre et Marie Curie, 75005 Paris, France. See http://www.math.ens.fr/metric2011/
This entry was posted in seminar. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s