8.5 Sélection de modèle
La plupart du temps le nombre de classes \(Q\) est inconnu et doit être estimé à partir des données. C’est un problème de sélection de modèle.
Lorsqu’on adopte une approche de maximum de vraisemblance, on utilise souvent pour la sélection de modèle le critère BIC. Ce critère est basé sur la log-vraisemblance du modèle et pénalisé par la ‘taille’ du modèle. Or, dans l’algorithm VEM, BIC n’est pas utilisable, car la log-vraisemblance des données incomplètes est intractable. Un critère alternatif pour des modèles à variables latentes est le critère ICL ou integrated classification likelihood, qui remplace la log-vraisemblance des données incomplètes par l’espérance de la log-vraisemblance des données complètes sous l’approximation variationelle. Ainsi, en lançant l’algorithme VEM avec différente valeur du nombre de groupes \(Q\), on obtient les quantités \[ {\mathbb E}_{\tilde{\mathbb Q}_{[Q]}}[\log\mathbb P(\mathbf A,\mathbf Z;\hat{\boldsymbol\theta}_{[Q]})], \] où \(\tilde{\mathbb Q}_{[Q]}\) et \(\hat{\boldsymbol\theta}_{[Q]}\) sont les quantités obtenues à la fin de l’algorithme VEM ajusté avec \(Q\) groupes. Là encore, l’expression exacte de l’espérance ci-dessus dépend du choix de la famille de lois \(\{F(\cdot ; \gamma)\}_\gamma\) que l’on considère.
La pénalité de l’ICL est la même comme dans le critère BIC, à savoir \[\text{penalité} = -\frac12 * \text{nb de paramètres} * \log(\text{nb d'obs}). \]
Enfin, la forme générale du critère ICL est \[ \mathrm{ICL}(Q) = \mathbb E_{\widehat{\mathbb Q}}(\log \mathbb P(\mathbf A, \mathbf Z; \hat{\boldsymbol \theta}))- \frac 1 2 (Q-1) \log n - \frac 1 2 \text{dim}(\boldsymbol \gamma) \log \frac{n(n-1)}{2} , \] où dim\((\boldsymbol\gamma)\) est la dimension du paramètre \(\boldsymbol \gamma=(\boldsymbol{\alpha, \eta})\).
Par exemple, dans le cas d’un graphe non dirigé et binaire, \(\boldsymbol \gamma= (\gamma_{q,\ell})_{q\leq\ell}\) est de dimension \(Q(Q+1)/2\). Si \(F(\cdot ; \gamma)\) est le mélange entre une Dirac en 0 et une loi de Poisson de paramètre \(\eta\), on obtient \(\boldsymbol \gamma= (\alpha_{q,\ell}, \eta_{q,\ell})_{q\leq\ell}\) qui est de dimension \(Q(Q+1)\). Si, par souci de parcimonie, on a imposé que les paramètres de densité du graphe \(\alpha_{q \ell}\) sont constants pour tous les groupes \(q,\ell\) alors on a \(\boldsymbol \gamma= (\alpha ; (\eta_{q,\ell})_{q\leq\ell})\) qui est de dimension \(1+Q(Q+1)/2\).
Noter que dans l’expression de l’ICL, le premier terme de pénalité \((Q-1)\log n/2\) pénalise pour le paramètre \(\boldsymbol \pi=(\pi_q)_{1\le q \le Q}\), de dimension \(Q-1\), et qui porte sur \(n\) variables \(Z_1,\dots ,Z_n\) ; tandis que le second terme vient pénaliser le paramètre d’interaction \(\boldsymbol \gamma\) et se fonde lui sur \(n(n-1)/2\) observations, à savoir les \(\{A_{i,j}\}_{i <j}\).
Finalement, on va sélectionner le nombre de groupes \(Q\) en se fixant une borne \(Q_{\max}\) et en utilisant \[ \hat Q = \arg\max_{1\le Q \le Q_{\max}} \mathrm{ICL}(Q). \] Aucun résultat théorique n’existe sur les propriétés asymptotiques de ce critère, mais ses performances empiriques sont très bonnes. L’incovénient de la méthode est le temps de calcul: pour chaque \(Q\in\{1,\dots,Q_{\max}\}\) il faut faire tourner l’algorithme VEM et de préférence toujours avec plusieurs points initiaux. Le problème du passage à l’échelle du modèle à blocs stochastiques est toujours ouvert.