Simulations Monte-Carlo (suite)

Dans ce TP nous considérons toujours le modèle de translation d'une loi de Student. Cette fois-ci, on veut comparer trois estimateurs différents du paramètre de translation $\theta$ pour en déterminer celui avec les meilleures propriétés.

Rappelons d'abord le modèle.

Modèle statistique

On considère la variable aléatoire $X$ définie comme $$X=Z+\delta, \qquad\qquad(*)$$ où $\theta\in\mathbf R$ est une constante et $Z$ une variable aléatoire de loi de Student $t_q$ à $q$ degrés de liberté.

Nous supposons que $q$ est connu et le paramètre $\theta$ est inconnu. Le but est l'estimation de $\theta$ à partir de $n$ copies i.i.d. $(X_1,\dots,X_n)$ de $X$.

Trois estimateurs

On a déjà vu que la moyenne empirique $\hat\theta_1=\bar X_n$ est l'estimateur par la méthode des moments de $\theta$.

Notons que la loi de $X$ est symétrique par rappot à $\theta$. Donc, un autre estimateur naturel de $\theta$ est la médiane empirique $\hat\theta_2=x_{1/2}$.

Enfin, un estimateur moins intuitif, mais utilisé en pratique est la moyenne empirique tronquée qui correspond à la moyenne empirique après suppression des observations les plus extrêmes de l'échantillon. Plus précisément, on fixe une proportion $\gamma\in]0,1[$ et on élimine $\gamma100$% des observations les plus éloignées de l'échantillon $(X_1,\dots,X_n)$ (les $\frac\gamma2 100$% des plus petites valeurs ainsi que les $\frac\gamma2 100$% des plus grandes valeurs). Ainsi pour $n=100$ et $\gamma=0.04$ on supprime les deux plus petites et les deux plus grandes observations : $$ \underbrace{X_{(1)}\leq X_{(2)}}_{\text{à supprimer}}\leq \underbrace{X_{(3)}\leq \dots \leq X_{(98)}}_{\text{à conserver }}\leq \underbrace{X_{(99)}\leq X_{(100)}}_{\text{à supprimer}} \quad\Longrightarrow\quad \bar X_{\text{tronq($0.04$)}} = \frac 1{96}\sum_{i=3}^{98}X_{(i)}. $$ Plus généralement, la moyenne tronquée avec une troncature de $\gamma$ est définie comme $$ \bar X_{\text{tronq($\gamma$)}}=\frac1{n-2\lceil \gamma n/2\rceil}\sum_{\lceil \gamma n/2\rceil+1}^{n-\lceil \gamma n/2\rceil}X_{(i)}.$$ où $X_{(i)}$ désigne la $i$-ème statistique d'ordre de $(X_1,\dots,X_n)$.

Devoir à rendre

L'objectif est de mener une étude afin de comparer la performance des trois estimateurs $\hat\theta_1, \hat\theta_2$ et $\hat\theta_3$ par des simulations.

  1. Fixons la taille d'échantillon n, le degré de liberté q, le paramètre theta et le nombre K d'échantillons à simuler. Similaire au dernier TP, écrire un programme pour calculer le risque quadratique et tracer des boxplots pour les trois estimateurs.

  2. Utiliser votre programme afin de comparer la performance des trois estimateurs. Lequel est le meilleur ? Est-ce que les valeurs de n, q ou theta influencent la performance des estimateurs ? Expliquez les phénomènes observés.

Le devoir consiste à écrire des fonctions R, effectuer des simulations Monte Carlo, interpréter les résultats et les illustrer par des figures appropriées. Vous devez rédiger un rapport (en R markdown) avec vos résultats.

Modalités du devoir

Le devoir doit être préparé en binôme.

Il est dû au plus tard le 6 décembre avant minuit. Tout document rendu après cette date ne sera pas noté.

Le devoir est à déposer dans votre boîte de dépôt Sakai.

Vous devez indiquer le nom de chacun des deux auteurs sur les documents à rendre.

Vous devez rendre un R markdown de votre rapport contenant vos fonctions et le fichier html associé.

In [ ]: