7.1 Définition

Une variable aléatoire latente d’un modèle est un variable aléatoire non observée, cachée ou manquante.

Les modèles à variables latentes supposent l’existence de variables aléatoires latentes qui caractérisent la distribution des observations. Ces variables latentes peuvent être soient à valeurs continues, soient à valeurs discrètes (finies). Dans ce dernier cas, les variables latentes définissent naturellement un clustering des observations.

Ainsi, dans un modèle à variables latentes classique, on dispose d’une suite d’observations \((X_i)_{1\le i \le n}\) et on suppose qu’il existe des variables latentes \((Z_i)_{1\le i \le n }\) telles que la loi de \(X_i\) conditionnelle aux \((Z_j)_{1\le j \le n}\) ne dépend que de \(Z_i\). Pour des raisons de commodité, on suppose même le plus souvent que la loi des \((X_i)_{1\le i \le n }\) sachant les \((Z_i)_{1\le i \le n }\) est le produit des lois de chaque \(X_i\) conditionnellement à \(Z_i\) uniquement. On fait ainsi une hypothèse d’indépendance conditionnelle des observations: \[\begin{equation*} \mathbb P\left((X_i)_{1\le i \le n } \middle| (Z_i)_{1\le i \le n }\right) = \prod_{i=1}^n \mathbb P (X_i| Z_i). \end{equation*}\]

Lorsque les \((Z_i)_{1\le i \le n }\) sont indépendantes, on obtient alors que les \((X_i)_{1\le i \le n }\) sont aussi des variables indépendantes, mais non identiquement distribuées. Il s’agit des modèles de mélange finis lorsque les \(Z_i\) sont à valeurs finies. Lorsque les \((Z_i)_{1\le i \le n }\) forment une chaîne de Markov, alors les \((X_i)_{1\le i \le n }\) ne sont plus indépendantes (seulement conditionnellement indépendantes) et on obtient les chaînes de Markov cachées.

Dans la suite, nous supposons toujours que les variables \((Z_i)_{1\le i \le n }\) sont indépendantes et identiquement distribuées, à valeurs continues ou discrètes et finies.

Exemple. Modèle de mélange fini. Soient \(Z_i, i=1,\dots,n\) des variables aléatoires i.i.d. discrètes, à valeurs dans \(\{1,\dots,Q\}\) avec probabilités \(\mathbb P(Z_i=q)=\pi_q\). Notons \(\boldsymbol\pi=(\pi_1,\dots,\pi_Q)\). Les observations \(X_i, i=1,\dots,n\) sont indépendantes conditionnellement aux \((Z_i)_{1\le i \le n }\) telles que \[X_i|(Z_i=q)\sim\mathbb P_{\alpha_q},\]\(\{\mathbb P_\alpha,\alpha\in\mathcal A\}\) est une famille paramétrique de lois connues, et \(\boldsymbol\alpha=(\alpha_1,\dots,\alpha_Q)\in\mathcal A^Q\). Le plus souvent on utilise la famille de lois normales, ce qui donne lieu au modèle de mélange gaussien. Notons \(\theta=(\boldsymbol\pi, \boldsymbol\alpha)\).

Exemple. Chaîne de Markov cachée. Pour définir une chaîne de Markov cachée (ou hidden Markov model (HMM)) on suppose que \((Z_k)_{k\geq 0}\) est une chaîne de Markov homogène et discrète telle que \[\mathbb P(Z_k|Z_0,\dots,Z_{k-1})=\mathbb P(Z_k|Z_{k-1}),\quad\text{ pour tout } k\geq1,\] et on note \(p_{ij}=\mathbb P(Z_k=j|Z_{k-1}=i)\) les probabilités de transisition. Pour les observations \((X_k)_{k\geq 1}\) on procède comme dans le modèle de mélange. On suppose que les \((X_k)_{k\geq 1}\) sont conditionnellement indépendantes sachant les \((Z_k)_{k\geq 1}\) et \[X_k|(Z_k=m)\sim\mathbb P_{\alpha_m},\] pour des lois \(\{\mathbb P_{\alpha_m}\}_{m}\).

 
Dans les deux exemples, les variables latentes \(Z_i\) sont discrètes. Ainsi, elles définissent un clustering des observations \(X_i\) en fonction des valeurs des \(Z_i\).