7.2 Vraisemblance
Notons \(\theta\) le paramètre du modèle à variables latentes et considérons la fonction de vraisemblance. La distribution des \((X_i)_{1\le i\le n}\) est donnée conditionnellement aux variables latentes \((Z_i)_{1\le i \le n }\), on écrit donc
\[\begin{align*}
\mathcal L(\theta) &= \mathbb P_\theta ( (X_i)_{1\le i\le n})\\
&= \int_{z_1}\dots \int_{z_n} \mathbb P_\theta ( (X_i)_{1\le i\le n} , Z_1=z_1, \dots, Z_n= z_n) dz_1 \dots dz_n\\
&= \int_{z_1}\dots \int_{z_n} \mathbb P_\theta( Z_1=z_1, \dots, Z_n= z_n) \times \prod_{i} \mathbb P_\theta(X_i |Z_i=z_i) dz_1 \dots dz_n.
\end{align*}\]
Si les \(Z_i\) sont à valeurs dans \(\{1,\dots, Q\}\), les intégrales ci-dessus sont des sommes et on a \(Q^n\) termes à sommer. Lorsque \(n\) n’est pas très petit (\(n\ge 10\)), cette somme n’est pas accessible numériquement en un temps raisonnable. Si les \(Z_i\) sont à valeurs continues, on peut approcher les intégrales en les discrétisant (par exemple sur \(Q\) points) et le problème reste exactement le même.
Donc dans un modèle à variables latentes, il n’est pas possible en général d’évaluer la fonction de vraisemblance par un calcul efficace. De même, le maximum de la fonction \(\mathcal L(\theta)\), qui correspond à l’estimateur de maximum de vraisemblance, n’admet pas d’expression explicite. Il faut alors recourir à une méthode numérique pour l’approcher, comme l’algorithme EM qui a été conçu particulièrement pour cette tâche. Cet algorithme nécessite que la loi conditionnelle de \((X_i)_{1\le i\le n}\) sachant les variables latentes \((Z_i)_{1\le i\le n}\) est facile à manipuler, ce qui est le cas de nombreux modèles.
Exemple. Modèle de mélange fini. La fonction de vraisemblance est donnée par \[\begin{align*} \mathcal L(\theta) &= \mathbb P_\theta ( (X_i)_{1\le i\le n})\\ &= \sum_{q_1=1}^Q\dots \sum_{q_n=1}^Q \mathbb P_\theta ( (X_i)_{1\le i\le n} , Z_1=q_1, \dots, Z_n= q_n)\\ &= \sum_{q_1=1}^Q\dots \sum_{q_n=1}^Q \prod_{i} \mathbb P_\theta(X_i |Z_i=q_i)\mathbb P_\theta(Z_i=q_i)\\ &= \sum_{q_1=1}^Q\dots \sum_{q_n=1}^Q \prod_{i=1}^n \pi_{q_i} \mathbb P_{\alpha_{q_i}}(X_i). \end{align*}\] Encore une fois, pour seulement \(Q=2\) classes et \(n=100\) observations, le nombre de termes qui composent la vraisemblance est hallucinant:
## [1] 1.267651e+30