6.3 Modèle à positions latentes

Le modèle à positions latentes ou latent position model de Hoff, Raftery, and Handcock (2002) a été proposé pour étudier des réseaux sociaux. Dans ce modèle, on suppose un graphe de similarités sous-jacent et non observé qui influence sur le graphe observé. Plus précisément, on introduit des variables latentes \(Z_i\) qui représente les positions des différents noeuds dans un espace social. Les \(Z_i, i=1,\dots,n\) sont i.i.d. à valeurs dans \(\mathbb R^q\), où la dimension \(q\) est typiquement 2 ou 3. La proximité des individus dans cet espace induit une plus grande probabilité de connexion dans le graphe observé. Ainsi, seule la position relative des variables latentes entres elles est importante pour le modèle et pas leur position absolue.

Considérons un graphe binaire non dirigé \((A_{ij})_{1\le i, j\le n}\) et (possiblement) des vecteurs de covariables \(\textbf x_{ij}\in \mathbb R^s\) sur chaque relation \((i,j)\). On utilise un modèle de régression logistique \[\begin{align*} \text{logit}(\mathbb P(A_{ij}=1 |Z_i,Z_j, \textbf x_{ij})) &= \frac{\mathbb P(A_{ij}=1 |Z_i,Z_j, \textbf x_{ij})}{1- \mathbb P (A_{ij}=1 |Z_i,Z_j,\textbf x_{ij})} \\ &= \alpha +\beta^\intercal \textbf x_{ij} -\|Z_i-Z_j\|, \end{align*}\]\(\|\cdot\|\) est la norme euclidienne dans l’espace latent \(\mathbb R^q\) ou n’importe quelle distance. Les paramètres du modèle sont
\((\alpha,\beta) \in \mathbb R\times \mathbb R^s\).

Le paramètre \(\alpha\) règle la densité du graphe. Il faut remarquer que les variables \(\{Z_i\}_i\) ne peuvent être reconstituées qu’à rotation, symétrie axiale et translation près. En effet, chacune de ces opérations laisse l’ensemble des distances \((\|Z_i-Z_j\|)_{i,j}\) inchangé et donc ne modifie pas le modèle. On appelle configurations équivalentes deux ensembles \(\{Z_i\}_i\) et \(\{Z_i'\}_i\) qui induisent les mêmes valeurs de distances \((\|Z_i-Z_j\|)_{i,j}= (\|Z'_i-Z'_j\|)_{i,j}\).

Ainsi, pour des valeurs des paramètres \((\alpha,\beta)\) fixées, deux configurations équivalentes \(\{Z_i\}_i\) et \(\{Z_i'\}_i\) induisent la même distribution sur les observations, et réciproquement, si \(\alpha\) et \(\beta\) sont fixés alors si on a deux ensembles de configuration \(\{Z_i\}_i\) et \(\{Z_i'\}_i\) qui induisent la même loi alors les configurations sont équivalentes.

Estimation des paramètres et des variables latentes

Le package latentnet propose une méthode d’estimation bayésienne des paramètres et des positions latentes. Voir TP pour plus de détails.

6.3.1 Version classifiante du modèle

Dans le modèle précédent, les noeuds du graphe ne sont pas naturellement classifiés en groupes qui permettent de les interpréter. On peut obtenir une telle classification en combinant l’approche avec un modèle de mélange sur les variables latentes Handcock, Raftery, and Tantrum (2007).

Ainsi, on suppose que les variables latentes \(Z_i\in \mathbb R^q\) sont en fait générées selon un modèle de mélange de \(K\) lois gaussiennes multi-dimensionnelles \(\mathcal{N}_q(m_k,\sigma_k^2 Id)\) et de proportions \((\pi_k, 1\le k\le K)\) avec des moyennes différentes (\(m_k, 1\le k \le K\)) et des matrices de covariance sphériques \(\sigma_k^2 Id\).

Le choix du nombre de clusters \(K\) se fait automatiquement dans ce cadre bayésien: on place une loi a priori sur \(K\) et on l’estime par le maximum a posteriori. Il faut noter que les groupes obtenus sont nécessairement des communautés: si deux variables \(Z_i,Z_j\) sont dans la même composante gaussienne, alors elles sont proches dans \(\mathbb R^q\) et la probabilité que les noeuds \(i,j\) soient connectés est plus grande.

6.3.2 Choix de la dimension de l’espace latent

En pratique, il n’existe aucune méthode permettant de choisir la dimension \(q\) de l’espace latent (attention, cette dimension n’est pas le nombre de clusters \(K\) de la méthode de Handcock, Raftery, and Tantrum (2007)).

Les logiciels sont implémentés avec \(q=2\) (ou 3), mais rien ne permet d’affirmer que ce choix est pertinent, ni qu’il n’a pas un impact majeur sur les résultats.

References

Handcock, M., A. Raftery, and J. Tantrum. 2007. “Model-Based Clustering for Social Networks.” Journal of the Royal Statistical Society: Series A (Statistics in Society) 170 (2): 301–54.

Hoff, P. D., A. E. Raftery, and M. S. Handcock. 2002. “Latent Space Approaches to Social Network Analysis.” J. Amer. Statist. Assoc. 97 (460): 1090–98.