L'objectif de ce TP est l'étude des propriétés d'un estimateur par des simulations.
Vous allez vous habituer à programmer des fonctions R. N'hésitez pas à consulter le mini-poly sur la Programmation en R si besoin.
Tout au long de ce TP, nous allons considérer le modèle statistique suivant. Soit $X$ la variable aléatoire définie comme $$X=Z+\delta, \qquad\qquad(*)$$ où $\theta\in\mathbf R$ est une constante et $Z$ une variable aléatoire de loi de Student $t_q$ à $q$ degrés de liberté.
Nous supposons que $q$ est connu et le paramètre $\theta$ est inconnu. Le but est l'estimation de $\theta$ à partir de $n$ copies i.i.d. $(X_1,\dots,X_n)$ de $X$.
Remarquons qu'il s'agit d'un modèle de translation et $\theta$ est un paramètre de position.
Pour tout $q>1$ la loi de Student $t_q$ est intégrable et donc $X$ l'est aussi vérifiant $\mathbb E[X]=\theta$. Par la méthode des moment, on obtient la moyenne empirique $\bar X_n$ comme estimateur de $\theta$.
On aimerait étudier la qualité de cet estimateur en fonction de la taille d'échantillon $n$, la valeur du paramètre $\theta$ et le degré de liberté $q$.
Rappelons qu'un critère pour évaluer la qualité d'un estimateur $\hat \theta$ de $\theta$ est son risque quadratique définit par $$\mathcal R(\hat\theta,\theta) = \mathbb E_{\theta}\left[(\hat\theta-\theta)^2\right].$$
Dans notre modèle le risque quadratique de la moyenne empirique $\bar X_n$ n'est pas explicite, car la loi de la variable aléatoire $T =(\bar X_n-\theta)^2$ est difficile à déterminer. Nous choisissons alors d'analyser le comportement de $\bar X_n$ sur des données simulées.
Plus précisément, l'idée consiste à approcher l'espérance dans la définition du risque quadratique par une moyenne empirique en simulant un grand nombre de réalisations $T_k$ de la variable $T=(\hat\theta-\theta)^2$. Comment faire puisque la loi de $T$ étant inconnue ? En fait, l'unique aléa dans $T$ vient de l'échantillon $(X_1,\dots,X_n)$, car l'estimateur $\hat\theta$ est une fonction mesurable sur l'espace des observations $(X_1,\dots,X_n)$. Ainsi, $T=(\hat\theta-\theta)^2= g(X_1,\dots,X_n)$ pour une fonction mesurable $g$. Par conséquent, on obtient une réalisation $T_k$ de $T$ :
On répète cette démarche $K$ fois pour créer un échantillon $(T_1,\dots,T_K)$. Ensuite, il ne reste à calculer la moyenne empirique $\bar T_K$ des $(T_1,\dots,T_K)$ qui est une approximation du risque quadratique.
C'est le principe des simulations dites de Monte Carlo. Ce procédé est justifié par la loi des grands nombres, car $$\bar T_k \stackrel{P}{\longrightarrow} \mathcal R(\hat\theta,\theta),\qquad K\to\infty.$$ Ainsi, plus le nombre $K$ de réalisations $T_k$ est grand, mieux est l'approximation du risque quadratique $\mathcal R(\bar X_n,\theta)$ par $\bar T_K$. On appele $\bar T_k$ le risque quadratique empirique.
Ecrire une fonction nommée risque qui prend en argument une valeur theta ainsi qu'un vecteur hat.theta avec des estimés de theta. La fonction renverra le risque quadratique empirique associé.