3.3. Méthode du recuit simulé#
On suppose \(E\) fini et \(H:E \to \mathbf{R}\) une fonction réelle sur \(E\) à minimiser. Cette fonction \(H\) est appelée dans la suite fonction d’énergie. On note \(\underline H = \min_{x \in E} H(x)\) (l’énergie minimale) et \(\overline H = \max_{x \in E} H(x)\). L’algorithme de recuit simulé présenté ici est un algorithme stochastique (aléatoire) qui converge vers un minimum de \(H\) plus précisément un point de \(\operatorname{argmin} H = \big\{x \in E, H(x) = \underline H \big\}\) (il peut y avoir plusieurs éléments dans cet ensemble).
Une approche naïve consiste à parcourir tout l’espace \(E\) et de prendre un point de cet espace qui réalise un minimum \(\underline H\), mais si l’espace \(E\) est grand (très grand) cette approche n’est pas satisfaisante car trop coûteuse.
Une première idée est de considérer une loi de probabilité \(\mu_T\) (\(T\) un paramètre fixé) qui se concentre sur de points de \(E\) où \(H\) est proche de \(\underline H\) et d’utiliser l’algorithme de Metropolis pour construire une chaine de Markov sur \(E\) de loi invariante \(\mu_T\). La simulation de cette chaine de Markov est un algorithme qui parcourt \(E\) en se concentrant d’avantage sur des points de \(E\) où \(H\) est proche de \(\underline H\). Au fur et à mesure, on peut modifier la loi de probabilité pour qu’elle se concentre d’avantage autour de \(\operatorname{argmin}(H)\), ainsi on considère une famille \((\mu_{T_n})_{n \ge 1}\) de loi de probabilités où \((T_n)_{n \ge 1}\) est une suite qui tend vers 0. C’est le principe du recuit simulé.
3.3.1. Préliminaires: mesures de Gibbs#
On présente d’abord la famille de loi de probabilité \((\mu_T)_{T > 0}\) qui se concentre sur \(\operatorname{argmin}(H)\) lorsque \(T\) tend vers 0.
(mesure de Gibbs)
La mesure de Gibbs associée à la fonction d’énergie \(H\) et à la température \(T > 0\) est la mesure de probabilité définie par
où \(Z_T = \sum_{x \in E} e^{-H(x) / T}\) est la constante de normalisation.
Cette section s’inspire très largement du chapitre 2 du livre [] dans lequel vous trouverez des compléments.
Dans la suite on note pour un sous-ensemble \(F\) de \(E\), \(\pi_F\) la loi de probabilité uniforme sur \(F\), c’est à dire
On a pour tout \(x \in E\),
En particulier \(\lim_{T \to 0} \|\mu_T - \pi_{\operatorname{argmin}(H)}\| = 0\).
Proof. On prouve uniquement le cas \(T \to 0\) (le cas \(T \to \infty\) est similaire). Alors
Or comme \(E\) est fini, il existe \(\varepsilon > 0\) tel que \(\{H(x) > \underline H\} = \{H(x) \ge \underline H + \varepsilon\}\) donc sur cet ensemble on a \(e^{-(H(x) - \underline{H}) / T} \le e^{-\varepsilon / T}\) et
Ainsi
et en sommant sur tous les états
d’où le résultat.
On a pour tout \(T, T' > 0\)
Proof. On suppose \(T \ge T'\) et \(\underline{H} = 0\) (quitte à poser \(\tilde H = H - \underline H\)). Ona
En utilisant \(1 - e^{-x} \le x\) pour tout \(x \ge 0\) on prouve
d’où l’on déduit
et en divisant par \({Z_T Z_{T'}}\)
Ainsi par la définition de la norme en variation totale
On introduit la quantité \(\frac{1}{Z_T} e^{-H(x) / T'}\) et par inégalité triangulaire on a
d’où l’on déduit \(\big\|\mu_T - \mu_{T'} \big\| \le \Big(\frac{1}{T'} - \frac{1}{T} \Big) \overline H\).
3.3.2. Algorithme#
Soit \((T_n)_{n \ge 1}\) une suite déterministe positive qui décroît vers 0. Cette suite est appelée suite des températures et sera spécifiée dans la suite. Le choix de cette suite est extrêmement important en pratique et c’est un choix délicat. On considère \((\mu_n)_{n \ge 1}\) la suite des mesure de Gibbs associée à l’énergie \(H\) et à la température \(T_n\)
Par l’algorithme de Métropolis on construit une transition \(Q_n\) (ici il y a une dépendance en \(n\) mais cela ne change pas grand chose) qui est réversible par rapport à \(\mu_n\) et donc \(\mu_n\) invariante pour \(Q_n\). Soit \(P\) une matrice stochastique irréductible symétrique (qu’il faut choisir), alors
Par définition de \(\mu_n\) on a pour tous \(x \neq y\)
et on remarque que cette matrice dépend de \(H\) mais pas de \(Z_{T_n}\) la constante de normalisation qui est difficile à calculer car elle dépend de tout l’espace d’état \(E\). La matrice \(Q_n\) s’interprête de la façon suivante: on propose un voisin \(y\) de \(x\) avec la matrice \(P\)
si \(H(y) < H(x)\) alors \((e^{-(H(y) - H(x)) / T_n} \wedge 1) = 1\) et on accepte toujours ce voisin: un voisin d’énergie plus basse est toujours accepté.
si \(H(y) > H(x)\) alors on accepte ce voisin \(y\) d’énergie plus haute avec probabilité \(p_n = e^{-(H(y) - H(x)) / T_n}\): cette probabilité est d’autant plus petite que le saut d’énergie est élevé et que la température est basse mais cela permet à l’algorithme de mieux explorer l’espace \(E\) et d’éviter des minimas locaux. C’est une propriété essentielle de ce type d’algorithme.
La suite \((Q_n)_{n \ge 1}\) est une suite de matrice stochastique et on note \((X_n)_{n \ge 0}\) la chaine de Markov inohomogène de transition \((Q_n)_{n \ge 1}\) i.e.
Si la loi initiale est \(X_0 \sim \nu_0\), on note \(\nu_n\) la loi de \(X_n\) et on vérifie aisément que \(\nu_n = \nu_0 Q_1 \dots Q_n\).
Intuitivement lorsque \(n\) tend vers l’infini, la loi de \(X_n\) est proche de \(\mu_n\) et \(\mu_n\) se concentre de plus en plus vers \(\pi_{\operatorname{argmin}(H)}\) la loi uniforme sur \(\operatorname{argmin}(H)\).
Si \(P\) est symétrique irréductible et vérifie la condition de Doeblin et si
alors pout toute loi initiaile \(\nu_0\) de \(X_0\) on a
En particulier, \(\lim_{n \to +\infty} \mathbf{P}\big(H(X_n) > \underline H\big) = 0\).
Proof. On simplifie la preuve en supposant que \(P\) vérifie Doeblin avec \(l = 1\) c’est à dire qu’il existe \(\alpha > 0\) et \(c\) une probabilité tel que
On sait par Metropolis que \(\mu_n = \mu_n Q_n\) et \(\mu_{n+1} = \mu_{n+1} Q_{n+1}\) et par définition de \(\nu_n\) (la loi de \(X_n\)) que \(\nu_{n+1} = \nu_n Q_{n+1}\). Aini on a
Ainsi en prenant la norme en variation totale on a
c’est à dire que l’erreur à l’itération \(n+1\) est majorée par la somme de 2 termes: le transport de l’erreur à l’itération \(n\) par le noyau \(Q_{n+1}\) de Metropolis et une erreur de biais entre 2 mesures de Gibbs.
Commençons par l’erreur de biais \(\big\|(\mu_n - \mu_{n+1}) Q_{n+1} \big\|\). Comme \(Q_{n+1}\) est une matrice stochastique on a
et d’après la proposition Proposition 3.7 on a
Pour le terme \(\big\|(\nu_n - \mu_n) Q_{n+1}\big\|\). Soit \(\kappa = \max_{x, y} (H(y) - H(x)) \mathbf{1}_{P(x, y) > 0}\) qui vérifie notamment que \(a = e^{-\kappa / T_{n+1}}\) où \(a = \min_{x, y} \Big(\frac{\mu(y)}{\mu(x)} \mathbf{1}_{P(x, y) > 0} \Big)\). On vérifie que \(Q_{n+1}\) vérifie la condition de Doeblin avec \(l = 1\), la probabilité \(c\) et la constante \(\alpha_{n+1} = \alpha e^{-\kappa / T_{n+1}}\) et donc
Ainsi l’erreur à l’itération \(n+1\) vérifie d’après (3.10)
en posant \(\beta_{n+1} = \Big(\frac{1}{T_{n+1}} - \frac{1}{T_n}\Big) (\overline H - \underline H)\). Pour obtenir un contrôle global à partir de ce contrôle local, on utilise le lemme de Gronwall discret que l’on rappelle dans cette preuve.
(Gronwall discret)
Soit \((\alpha_n)_{n \ge 1}\) et \((\beta_n)_{n \ge 1}\) deux suites positives telles que \(\alpha_{n+1} \in ]0,1[\), \(\sum_n \alpha_n = +\infty\) et \(\lim_n \frac{\beta_n}{\alpha_n} = 0\). Si \((u_n)_{n \ge 0}\) est une suite positive vérifiant
alors \(\lim_{n \to +\infty} u_n = 0\).
On applique ce lemme avec \(\alpha_{n+1} = \alpha e^{-\kappa / T_{n+1}} = \alpha (n+1)^{- \kappa / \gamma}\) car \(T_n = \gamma / \log(n)\) et
On vérifie que si \(\gamma > \kappa\) alors les hypothèses du lemme de Gronwall sont vérifiées et le résultat \(\lim_n \big\|\nu_n - \mu_n \big\| = 0\) est prouvé.
Proof. Gronwall discret On pose \(A_n = \frac{1}{\prod_{k=1}^n (1 - \alpha_k)}\) pour \(n \ge 1\) et \(A_0 = 1\). Alors
Donc de l’écriture \(A_n u_n = A_0 u_0 + \sum_{k=1}^{n} (A_{k} u_k - A_{k-1} u_{k-1})\) on en déduit
On vérifie que \(A_k = \frac{1}{\alpha_k} (A_k - A_{k-1})\) donc
Le premier terme de droite converge vers 0 car \(A_n\) tend vers l’infini et le second terme est une moyennisation à la Cesàro (pondérée par \(A_k - A_{k-1}\)) qui a même limite que la suite \((\frac{\beta_n}{\alpha_n})_{n \ge 1}\).