Modélisation linéaire simple
Exemple introductif
On considère dans une classe de 20 étudiants la note obtenues à l'examen de statistique (sur 20) et au temps de travail personnel par semaine (en minutes) dans cette matière. Les données sont synthétisées dans le tableau suivant :
\[
\begin{array}{c|c|c}
\text{Elève}&\text{Note}&\text{Temps}\\\hline
1&12 &30 \\\hline
2&10 &15 \\\hline
3&7 &15 \\\hline
4&8 &10 \\\hline
5&2 &0 \\\hline
6&4 &10 \\\hline
7&12 &30 \\\hline
8&14 &60 \\\hline
9&13 &30 \\\hline
10&4 &10 \\\hline
11&16 &80 \\\hline
12&18 &90 \\\hline
13&18 &120\\\hline
14&12 &50 \\\hline
15&11 &30 \\\hline
16&10 &30 \\\hline
17&9 &30 \\\hline
18&9 &40 \\\hline
19&12 &40 \\\hline
20&15 &70
\end{array}
\]
On note \( x\) la donnée statistique correspondant à la note et \( y\) celle du temps de travail.
Pour observer ces données on les a représenté dans un nuage de point ; les valeurs de \( x\) en abscisses et \( y\) en ordonnés.
On observe que plus la note est bonne, plus le temps de travail est important et inversement (surtout inversement).
Pour cela on considère le temps non pas comme une donnée statistique mais comme une variable aléatoire dont on cherche la loi. Nous nous plaçons dans le cadre d'un modèle linéaire simple.
Définition
Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques.
La variable \( x\) est appelée variable exogène ou expliquée.
La variable \( y\) est appelée variables endogène ou à expliquer.
Une modélisation linéaire simple consiste à considérer les variables aléatoires
\[
Y_i=ax_i+b+\varepsilon_i
\]
où es \( \varepsilon_i\) sont des variables aléatoires i.i.d. appelés termes d'erreurs et suivent une loi normale \( \mathcal{N}(0, \sigma)\) .
Dans la pratique, on note par des lettres majuscules les variables aléatoires et en minuscules les données statistiques.
Remarque
- L'écart-type \( \sigma\) ne dépend pas de \( i\) (c'est à dire des réalisations). On parle d'homoscédasticité.
- Le terme d'erreur est indépendant de la variable exogène.
- \( \forall i, \ Y_i\sim \mathcal{N}(ax_i+b, \sigma)\)
Nous avons trois valeurs à estimer (\( a\) , \( b\) et \( \sigma\) ) de tel sorte que les \( y_i\) s'écartent le moins possible de \( ax_i+b\)
La covariance
On rappel que si \( x=(x_1, \ldots, x_n)\) est une donné statistique, on note \( \overline{\alpha x+\beta}=\dpl{\dfrac{1}{n}\sum_{i=1}^n \alpha x_i+\beta}\) la moyenne. On montre très facilement que \( \overline{\alpha x+\beta}=\alpha\overline{x}+\beta\) . De la même manière, on rappel que l'espérance d'une variable aléatoire \( X\) est linéaire : \( \Esp{\alpha X+\beta}=\alpha \Esp{X}+\beta\) .
Ceci étant, définissons la covariance.
Définition
Soient \( X\) et \( Y\) des variables aléatoires. On définit la covariance de \( X\) et \( Y\) comme :
\[Cov\left(X, Y\right)=\Esp{(X-\Esp{X})(Y-\Esp{Y})}\]
Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques. On définit la covariance de \( x\) et \( y\) comme :
\[\sigma_{x, y}=\overline{(x-\overline{x})(y-\overline{y})}\]
Lemme
Soient \( X\) , \( Y\) et \( Z\) des variables aléatoires réelles et \( \alpha\) et \( \beta\) des nombres réels.
- \( Cov\left(X, Y\right)=\Esp{XY}-\Esp{X}\Esp{Y}\)
- \( X\inde Y\Rightarrow Cov\left(X, Y\right)=0\)
- \( Cov\left(X, X\right)=\mathbb{V}\left(X\right)\)
- \( Cov\left(X+\alpha, Y\right)=Cov\left(X, Y\right)\)
- \( Cov\left(X+Y, Z\right)=Cov\left(X, Z\right)+Cov\left(Y, Z\right)\)
- \( Cov\left(X, Y\right)=Cov\left(Y, X\right)\)
- \( \mathbb{V}\left(\alpha X+\beta Y\right)=\alpha^2 \mathbb{V}\left(X\right)+2 \alpha \beta Cov\left(X, Y\right)+\beta^2 \mathbb{V}\left(Y\right)\)
Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques et \( \alpha\) et \( \beta\) des nombres réels. Notons \( xy=(x_1y_1,\ldots x_ny_n)\) .
- \( \sigma_{x, y}=\overline{xy}-\overline{x}.\overline{y}\)
- \( \sigma_{x, x}=\sigma_x^2\)
- \( \sigma_{x+\alpha, y}=\sigma_{x, y}\)
- \( \sigma_{x+y, z}=\sigma_{x, z}+\sigma_{y, z}\)
- \( \sigma_{x, y}=\sigma_{y, x}\)
- \( \sigma_{\alpha x+\beta y}=\alpha^2 \sigma_{x}^2+2\alpha\beta\sigma_{x, y}+\beta^2\sigma_y^2\)
Démonstration
Nous ne réalisons les démonstration que dans le cas probabiliste. Le cas déterministe (de la statistique) étant, aux notations près, le même.
La première formule se déduit de la linéarité de l'espérance :
\begin{eqnarray*}
Cov\left(X, Y\right)
&=& \Esp{(X-\Esp{X})(Y-\Esp{Y})}\\
&=& \Esp{XY-X\Esp{Y}-Y\Esp{X}+\Esp{X}\Esp{Y}}\\
&=& \Esp{XY}-\Esp{X}\Esp{Y}-\Esp{Y}\Esp{X}+\Esp{X}\Esp{Y}\\
&=& \Esp{XY}-\Esp{X}\Esp{Y}
\end{eqnarray*}
Pour la seconde viens du fait que si \( X\) et \( Y\) sont indépendants alors \( \Esp{XY}=\Esp{X}\Esp{Y}\)
La troisième et la quatrième découle trivialement des définitions, quand à la dernière elle vient de la linéarité de l'espérance :
\begin{eqnarray*}
\mathbb{V}\left(\alpha X+\beta Y\right)
&=&\Esp{\left(\alpha X+\beta Y-\Esp{\alpha X+\beta Y}\right)^2}\\
&=&\Esp{\left(\alpha X+\beta Y-\alpha \Esp{X}-\beta \Esp{Y}\right)^2}\\
&=&\Esp{\left(\alpha (X-\Esp{X})+\beta (Y-\Esp{Y})\right)^2}\\
&=&\Esp{\alpha^2 (X-\Esp{X})^2+2\alpha\beta(X-\Esp{X})(Y-\Esp{Y})+\beta^2 (Y-\Esp{Y})^2}\\
&=&\alpha^2 \Esp{(X-\Esp{X})^2}+2\alpha\beta\Esp{(X-\Esp{X})(Y-\Esp{Y})}+\beta^2 \Esp{(Y-\Esp{Y})^2}\\
&=&\alpha^2 \mathbb{V}\left(X\right)+2\alpha\beta Cov\left(X, Y\right)+\beta^2 \mathbb{V}\left(Y\right)
\end{eqnarray*}
Théorème [Inégalité de Cauchy-Schwartz]
Soient \( X\) et \( Y\) des variables aléatoires réelles.
\[Cov\left(X, Y\right)^2\leqslant\mathbb{V}\left(X\right)\mathbb{V}\left(Y\right)\]
Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques.
\[\sigma_{x, y}^2\leqslant\sigma_x^2\sigma_y^2\]
Démonstration
C'est la même preuve dans le cas déterministe et dans le cas probabiliste. Nous n'en faisons qu'une.
Pour tout nombre réel \( t\) , \( \sigma_{tx+y}^2\geqslant 0\) . Or d'après le précédent lemme, \( \sigma_{tx+y}^2=t^2\sigma_x^2+2t\sigma_{x, y}+\sigma_y^2\) . Ce polynôme de degré 2 est donc positif ou nul, donc son discriminant est négatif ou nul, c'est à dire \( 4\sigma_{x, y}^2-4\sigma_x^2\sigma_y^2\leqslant0\) ce qui prouve l'inégalité.
EMCO : l'estimateur des moindres carrés ordinaires
On rappel que l'on cherche à estimer \( a\) , \( b\) et \( \sigma\) tel que pur tout \( i\) , \( Y_i=ax_i+b+\varepsilon_i\) où \( \varepsilon_i\simeq\mathcal{N}(0, \sigma)\) . Bien sur pour que ce modèle soit le plus proche des valeurs observée, il faut que les réalisations \( y_i\) s'écartent le moins possible des \( ax_i+b\) . Un moyen est de passer par la mesure de l'erreur quadratique. On considère donc
\[EQ((x,y),(a, b))=\sum_{i=1}^n\varepsilon_i^2=\sum_{i=1}^n(y_i-ax_i-b)^2\]
Théorème
Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques.
Le minimum de \( \dpl{\sum_{i=1}^n(y_i-ax_i-b)^2}\) est atteint lorsque :
\[a=\hat{a}=\dfrac{\sigma_{x, y}}{\sigma_x^2}\qquad b=\hat{b}=\overline{y}-\hat{a}\overline{x}\]
La droite d'équation \( d(x)=\hat{a}x+\hat{b}\) est appelé la droite de régression linéaire.
Démonstration
On cherche à minimiser \( f(a, b)=\dpl{\sum_{i=1}^n(y_i-ax_i-b)^2}\) . Il faut pour cela déterminer les valeurs pour lesquelles les dérivées partielles en \( a\) et en \( b\) s'annulent simultanément.
\begin{eqnarray*}
\left\{
\begin{array}{rcl}
\dfrac{\partial f}{\partial a}&=&0\\
\dfrac{\partial f}{\partial b}&=&0
\end{array}
\right.
&\Rightarrow&
\left\{
\begin{array}{rcl}
\dpl{\sum_{i=1}^n}-2x_i(y_i-ax_i-b)&=&0\\
\dpl{\sum_{i=1}^n}-2(y_i-ax_i-b)&=&0
\end{array}
\right.\\
&\Rightarrow&
\left\{
\begin{array}{rcl}
\dpl{\sum_{i=1}^n}x_iy_i-ax_i^2-bx_i&=&0\\
\dpl{\sum_{i=1}^n}y_i-ax_i-b&=&0
\end{array}
\right.\\
&\Rightarrow&
\left\{
\begin{array}{rcl}
\overline{xy}-a\overline{x^2}-b\overline{x}&=&0\\
\overline{y}-a\overline{x}-b&=&0
\end{array}
\right.\\
\end{eqnarray*}
La seconde équation montre qu'il suffit de trouver \( \hat{a}\) pour trouver \( \hat{b}\) .
- Si \( \overline{x}\neq 0\) .
- Dans ce cas, on peut multiplier la seconde ligne par \( \overline{x}\) pour arriver à \( \overline{x}.\overline{y}-a\overline{x}^2-b\overline{x}=0\) . En la soustrayant à la première ligne, on arrive à \[(\underbrace{\overline{xy}-\overline{x}.\overline{y}}_{\sigma_{x, y}})-a(\underbrace{\overline{x^2}-\overline{x}}_{\sigma_x^2})=0\]
ce qui prouve le résultat.
- Si \( \overline{x}=0\) .
- Dans ce cas la première équation devient \( \sigma_{x, y}-a\sigma_x^2=0\) ce qui prouve aussi le résultat.
Dans notre exemple (des notes et du temps de travail), la droite de régression linéaire est
\[d(x)=5,8744582882 x-23,9441495125\]
Il y a à peu près, autant de point au dessus qu'en dessous de la droite de régression linéaire.
Si on observe, on constate que \( \hat{a}\) est inversement proportionnelle
1 à la variance de \( x\) . De sorte que plus cette variance est petite plus le coefficient directeur de la droite de régression linéaire sera grande
De même, par construction, plus \( \sigma\) sera petit, plus les point seront proche de la droite et inversement.
On peut faire ses observations sur les simulations suivantes :
| \( \sigma_x= 1 \)
| \( \sigma_x= 3 \)
|
\( \sigma= 1 \)
|
|
|
\( \sigma= 5 \)
|
|
|
\( \sigma= 10 \)
|
|
|
\( \sigma= 20 \)
|
|
|
Résidus et corrélation
Dans une modélisation linéaire simple \( Y_i=ax_i+b+\varepsilon_i\) les variables aléatoires \( \varepsilon_i\) sont appelés les termes d'erreurs (du modèle) à ne pas confondre avec les résidus.
Définition
Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques, \( Y_i=ax_i+b+\varepsilon_i\) une modélisation linéaire simple et \( \hat{a}=\dfrac{\sigma_{x, y}}{\sigma_x^2}\) et \( \hat{b}=\overline{y}-\hat{a}\overline{x}\) . Notons \( \hat{y}_i=\hat{a}x_i+\hat{b}\) .
On appel résidus du modèle les valeurs \( \hat{\varepsilon}_i=y_i-\hat{y}_i\)
Proposition
Les résidus d'une modélisations linéaire simple ont une moyenne nulle.
Démonstration
\begin{eqnarray*}
\dfrac{1}{n}\sum_{i=1}^n\hat{\varepsilon}_i
&=&\dfrac{1}{n}\sum_{i=1}^ny_i-\hat{a}x_i-\hat{b}\\
&=&\dfrac{1}{n}\sum_{i=1}^ny_i-\hat{a}x_i-\overline{y}+\hat{a}\overline{x}\\
&=&\overline{y}-\hat{a}\overline{x}-\overline{y}+\hat{a}\overline{x}\\
&=&0
\end{eqnarray*}
Pour estimer les valeurs de \( a\) et de \( b\) (par \( \hat{a}\) et \( \hat{b}\) ) nous avons minimiser l'erreur quadratique du modèle. On peut chercher à mesurer la qualité de cette estimation en mesurant les résidus. Comme ils sont de moyenne nulle, on va regarder leur variance.
Définition
Avec les notations précédentes on définit le coefficient de détermination du modèle, noté \( R^2\) , par :
\[R_{x, y}^2=\dfrac{\dpl{\sum_{i=1}^n}(\hat{y_i}-\overline{y})^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}\]
Proposition
Avec les notations précédentes
\[R_{x, y}^2=\dfrac{\dpl{\sum_{i=1}^n}(\hat{y_i}-\overline{y})^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}=1-\dfrac{\dpl{\sum_{i=1}^n}(y_i-\hat{y}_i)^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}\]
En particulier \( R_{x, y}^2\in[0, 1]\) .
Démonstration
Il suffit de montrer que
\( \dpl{
\sum_{i=1}^n(y_i-\overline{y})^2=
\sum_{i=1}^n(y_i-\hat{y}_i)^2+
\sum_{i=1}^n(\hat{y}_i-\overline{y})^2
}
\)
\begin{eqnarray*}
\sum_{i=1}^n(y_i-\overline{y})^2
&=&\sum_{i=1}^n(y_i-\hat{y}_i+\hat{y}_i-\overline{y})^2\\
&=&\sum_{i=1}^n(y_i-\hat{y}_i)^2+2\sum_{i=1}^n\sum_{j=i+1}^n(y_i-\hat{y}_i)(\hat{y}_j-\overline{y})+\sum_{i=1}^n(\hat{y}_i-\overline{y})^2\\
&=&\sum_{i=1}^n(y_i-\hat{y}_i)^2+2\sum_{i=1}^n(y_i-\hat{y}_i)\sum_{j=i+1}^n(\hat{y}_j-\overline{y})+\sum_{i=1}^n(\hat{y}_i-\overline{y})^2\\
&=&\sum_{i=1}^n(y_i-\hat{y}_i)^2+2\underbrace{\sum_{i=1}^n\hat{\varepsilon}_i}_{=0}\sum_{j=i+1}^n(\hat{y}_j-\overline{y})+\sum_{i=1}^n(\hat{y}_i-\overline{y})^2\\
&=&\sum_{i=1}^n(y_i-\hat{y}_i)^2+\sum_{i=1}^n(\hat{y}_i-\overline{y})^2
\end{eqnarray*}
Remarque
Interprétation :
- Si \( R_{x, y}^2\) est proche de \( 1\)
- alors \( \dpl{\sum_{i=1}^n(y_i-\hat{y}_i)^2}\) est proche de \( 0\) ce qui signifie que le modèle est très proche des valeurs : c'est un bon modèle.
- Si \( R_{x, y}^2\) est proche de \( 0\)
- alors \( \dpl{\sum_{i=1}^n(\hat{y}_i-\overline{y})^2}\) est proche de \( 0\) et les \( \hat{y}_i\) approche la moyenne : ce modèle n'est pas bon.
Définition
Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques.
- Le coefficient de corrélation linéaire simple (ou de Pearson)
- de \( x\) et \( y\) est noté \( r_{x, y}\) et est définit par
\[r_{x, y}=\dfrac{\sigma_{x, y}}{\sigma_{x}\sigma_{y}}\]
- Le coefficient de corrélation linéaire multiple
- de \( x\) et \( y\) est noté \( R_{x, y}\) et est définit par
\[R_{x, y}=\sqrt{R^2_{x, y}}\]
Proposition
Avec les notations précédentes
\[r_{x, y}=sg(\hat{a})R_{x, y}\]
où \( sg(\hat{a})\) désigne le signe de \( \hat{a}\) .
Démonstration
On observe que \( r_{x, y}=\dfrac{\sigma_{x ,y}}{\sigma_x\sigma_y}=
\dfrac{\sigma_{x ,y}}{\sigma_x^2}\dfrac{\sigma_x}{\sigma_y}=\hat{a}\dfrac{\sigma_x}{\sigma_y}\) . D'où
\begin{eqnarray*}
r_{x, y}^2&=&
\hat{a}^2\dfrac{\sigma_x^2}{\sigma_y^2}\\
&=&\hat{a}^2\dfrac{\dfrac{1}{n}\dpl{\sum_{i=1}^n(x_i-\overline{x})^2}}{\sigma_y^2}\\
&=&\dfrac{\dfrac{1}{n}\dpl{\sum_{i=1}^n(\hat{a}x_i-\hat{a}\overline{x})^2}}{\sigma_y^2}\\
&=&\dfrac{\dfrac{1}{n}\dpl{\sum_{i=1}^n(\hat{a}x_i+\hat{b}-\hat{a}\overline{x}-\hat{b})^2}}{\sigma_y^2}\\
&=&\dfrac{\dfrac{1}{n}\dpl{\sum_{i=1}^n(\hat{y}_i-\overline{y})}}{\sigma_y^2}\\
&=&R^2_{x, y}
\end{eqnarray*}
En définitive pour déterminer si un modèle linéaire simple est un bon modèle, on peut calculer au choix le coefficient de corrélation simple ou multiple et le comparer à \( 1\) . Plus ce coefficient est proche de \( 1\) , plus le modèle est bon.
Dans notre exemple, il vaut \( 78,23\%\) . Le modèle choisi est plutôt bon.
Théorème de Gauss-Markov
Plaçons-nous dans un cadre un peut plus théorique. L'objectif de ce chapitre est de construire les EMCO et de montrer qu'il s'agit d'estimateur convergent. On fixe dans la suite des données statistique \( x\) et \( y\) dont on suppose avoir une infinité de réalisation (c'est juste pour la théorie, dans la pratique, c'est inutile et irréalisable) ainsi qu'un modèle linéaire simple \( Y_i=ax_i+b+\varepsilon_i\) où les \( \varepsilon_i\sim\mathcal{N}(0, \sigma)\) sont i.i.d. .
Proposition
Les estimateurs suivants
\[A_n=\dfrac{\sigma_{x, Y}}{\sigma_x^2}=a+\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\]
et
\[B_n=\overline{Y}_n-A_n\overline{x}=b+\overline{\varepsilon}_n+(A_n-a)\overline{x}\]
sont des estimateurs convergents et dans biais de \( a\) et \( b\) .
De plus
\[\mathbb{V}\left(A_n\right)=\dfrac{\sigma^2}{n}\left(\dfrac{1}{\sigma_x^2}\right)\qquad \text{et}\qquad \mathbb{V}\left(B_n\right)=\dfrac{\sigma^2}{n}\left(1+\dfrac{\overline{x}^2}{\sigma_x^2}\right)\]
Démonstration
\begin{eqnarray*}
\mathbb{V}\left(A_n\right)
&=&\mathbb{V}\left(a+\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\right)\\
&=&\mathbb{V}\left(\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\right)\\
&=&\dfrac{1}{n^2}\mathbb{V}\left(\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\right)\\
&=&\dfrac{1}{n^2}\sum_{i=1}^n\mathbb{V}\left(\varepsilon_i\right)\dfrac{(x_i-\overline{x})^2}{\sigma_x^4}\\
&=&\dfrac{1}{n^2}\sum_{i=1}^n\sigma^2\dfrac{(x_i-\overline{x})^2}{\sigma_x^4}\\
&=&\dfrac{\sigma^2}{\sigma_x^4}\dfrac{1}{n^2}\sum_{i=1}^n\sigma^2{(x_i-\overline{x})^2}\\
&=&\dfrac{\sigma^2}{\sigma_x^4}\dfrac{1}{n}\sigma_x^2\\
&=&\dfrac{\sigma^2}{n}\dfrac{1}{\sigma_x^2}
\end{eqnarray*}
\begin{eqnarray*}
\Esp{A_n}
&=&a+\Esp{\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}}\\
&=&a+\dfrac{1}{n}\Esp{\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}}\\
&=&a+\dfrac{1}{n}\sum_{i=1}^n\Esp{\varepsilon_i}\dfrac{x_i-\overline{x}}{\sigma_x^2}\\
&=&a
\end{eqnarray*}
Ainsi \( A_n\) est un estimateur sans biais et de variance qui tend vers \( 0\) . D'après le cours, \( A_n\) est un estimateur convergent de \( a\) .
\begin{eqnarray*}
\Esp{B_n}
&=&\Esp{\overline{Y}_n-A_n\overline{x}}\\
&=&\Esp{\overline{Y}_n}-\Esp{A_n}\overline{x}\\
&=&a\overline{x}+b-a\overline{x}\\
&=&b
\end{eqnarray*}
\begin{eqnarray*}
\mathbb{V}\left(B_n\right)
&=&\mathbb{V}\left(\overline{Y_n}-A_n\overline{x}\right)\\
&=&\mathbb{V}\left(\overline{Y_n}\right)-2\overline{x}Cov\left(\overline{Y_n}, A_n\right)+\overline{x}^2\mathbb{V}\left(A_n\right)
\end{eqnarray*}
Or
- \( \bullet\)
-
\begin{eqnarray*}
\mathbb{V}\left(\overline{Y_n}\right)
&=& \mathbb{V}\left(a\overline{x}+b+\overline{\varepsilon_n}\right)\\
&=& \mathbb{V}\left(\overline{\varepsilon_n}\right)\\
&=&\mathbb{V}\left(\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\right)\\
&=&\dfrac{1}{n^2}\sum_{i=1}^n\mathbb{V}\left(\varepsilon_i\right)\\
&=&\dfrac{1}{n^2}\sum_{i=1}^n\sigma^2\\
&=&\dfrac{\sigma^2}{n}
\end{eqnarray*}
- \( \bullet\)
-
\begin{eqnarray*}
Cov\left(\overline{Y_n}, A_n\right)
&=&Cov\left(\overline{\varepsilon}_n,\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\right)\\
&=&\dfrac{1}{n}\sum_{i=1}^n\dfrac{x_i-\overline{x}}{\sigma_x^2}Cov\left(\overline{\varepsilon}_n,\varepsilon_i\right)\\
&=&\dfrac{1}{n}\sum_{i=1}^n\dfrac{x_i-\overline{x}}{\sigma_x^2}\dfrac{\sigma^2}{n}\\
&=&\dfrac{\sigma^2}{n\sigma_x^2}\dfrac{1}{n}\sum_{i=1}^nx_i-\overline{x}\\
&=&\dfrac{\sigma^2}{n\sigma_x^2}\times 0\\
&=&0
\end{eqnarray*}
Où on a remarqué que \( Cov\left(\overline{\varepsilon}_n, \varepsilon_i\right)=\dfrac{1}{n}\sum_{j=1}^nCov\left(\varepsilon_j, \varepsilon_i\right)\) . Si \( i\neq j\) alors par indépendance, \( Cov\left(\varepsilon_j, \varepsilon_i\right)=0\) et si \( i=j\) , \( Cov\left(\varepsilon_i, \varepsilon_i\right)=\mathbb{V}\left(\varepsilon_i\right)=\sigma^2\) . D'où \( Cov\left(\overline{\varepsilon}_n, \varepsilon_i\right)=\dfrac{\sigma^2}{n}\) .
Donc finalement
\begin{eqnarray*}
\mathbb{V}\left(B_n\right)
&=&\mathbb{V}\left(\overline{Y_n}-A_n\overline{x}\right)\\
&=&\mathbb{V}\left(\overline{Y_n}\right)+\overline{x}^2\mathbb{V}\left(A_n\right)\\
&=&\dfrac{\sigma^2}{n}+\overline{x}^2\dfrac{\sigma^2}{n}\dfrac{1}{\sigma_x^2}\\
&=&\dfrac{\sigma^2}{n}\left(1+\dfrac{\overline{x}^2}{\sigma_x^2}\right)
\end{eqnarray*}
Ainsi \( B_n\) est un estimateur sans biais et de variance qui tend vers \( 0\) . D'après le cours, \( B_n\) est un estimateur convergent de \( b\) .
On dis que ces estimateurs sont
BLUE :
Best Linear Unbiased Estimator. Ce sont les plus
efficace : il est impossible d'obtenir des estimateurs avec une variance plus faible
2.
Estimation de \( \sigma\)
Avec nos hypothèses, les estimateurs \( A_n\) et \( B_n\) sont des combinaisons linéaires de loi normale donc ils suivent des lois normales.
- L'estimateur \( A_n\)
- suit une loi normale de paramètre \( a\) et \( \sigma(A_n)=\sigma\dfrac{1}{\sqrt{n}\sigma_x}\) .
- L'estimateur \( B_n\)
- suit une loi normale de paramètre \( b\) et \( \sigma(B_n)=\sigma\dfrac{\sqrt{1+\dfrac{\overline{x}^2}{\sigma_x^2}{}}}{\sqrt{n}}\) .
Dans un cas comme dans l'autre si l'on cherche à estimer les variances (ou les écart-types), il est nécessaire d'estimer \( \sigma\) .
Théorème
Soit \( \hat{\superepsilon}_i=Y_i-\hat{y_i}=ax_i+b+\varepsilon_i-\hat{a}x_i-\hat{b}\) .
\[\Esp{\sum_{i=1}^n\hat{\superepsilon}_i^2}=(n-2)\sigma^2\]
Démonstration
Admise
Le \( 2\) du \( n-2\) viens du fait que deux paramètres ont été estimés : \( \hat{a}\) et \( \hat{b}\) ce qui diminue donc le degrés de liberté de cette égalité.
Corollaire
La variable aléatoire \[S_n=\dfrac{\dpl{\sum_{i=1}^n\hat{\superepsilon}_i^2}}{n-2}\] est un estimateur convergent et sans biais de \( \sigma^2\) . En particulier :
- \( S_n^a=S_n\dfrac{1}{n\sigma_x^2}\) est un estimateur convergent et sans biais de \( \mathbb{V}\left(A_n\right)\) .
- \( S_n^b=S_n\dfrac{\sigma_x^2+\overline{x}}{n\sigma_x^2}\) est un estimateur convergent sans biais de \( \mathbb{V}\left(B_n\right)\) .
De plus \( (n-2)\dfrac{S_n}{\sigma^2}\sim\chi^2(n-2)\) .
Démonstration
L'estimateur \( S_n\) est sans biais donc asymptotiquement sans biais et sa variance tend vers \( 0\) . Il est donc convergent. C'est le même raisonnement pour \( S_n^a\) et \( S_n^b\) .
Enfin \( \superepsilon_i\sim\mathcal{N}(0, \sigma)\) de sorte que \( \dfrac{\hat{\superepsilon}_i}{\sigma}\sim\mathcal{N}(0, 1)\) . Alors
\[(n-2)\dfrac{S_n}{\sigma^2}=\sum_{i=1}^n\dfrac{\hat{\superepsilon}_i^2}{\sigma^2}\] est donc la somme du carré de loi normale centrée réduite. C'est une distribution du \( \chi^2\) (par définition) à \( n-2\) degrés de libertés.
Corollaire
\[\dfrac{A_n-a}{\sqrt{S_n^a}}\sim\mathcal{T}(n-2)
\qquad et \qquad
\dfrac{B_n-b}{\sqrt{S_n^b}}\sim\mathcal{T}(n-2)
\]
Démonstration
On raisonne pour \( A_n\) , c'est un raisonnement identique pour \( B_n\) .
\begin{eqnarray*}
\dfrac{A_n-a}{\sqrt{S_n^a}}
&=&\dfrac{\dfrac{A_n-a}{\sigma(A_n)}}{\dfrac{\sqrt{S_n^a}}{\sigma(A_n)}}
=\dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{S_n^a}{\mathbb{V}\left(A_n\right)}}}
=\dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{S_n\dfrac{1}{n\sigma_x^2}}{\dfrac{\sigma^2}{n}\dfrac{1}{\sigma_x^2}}}} \\
&=&\dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{S_n}{\sigma^2}}}
= \dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{\sigma^2\dfrac{\chi^2(n-2)}{n-2}}{\sigma^2}}} = \dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{\chi^2(n-2)}{n-2}}}
\end{eqnarray*}
Corollaire
Soient \( 0{<}\beta{<}\alpha{<}1\) , \( t_1=Q_{\mathcal{T}(n-2)}(\beta)\) et \( t_2=Q_{\mathcal{T}(n-2)}(1-\alpha+\beta)\) alors
\[\left[A_n-t_2\sqrt{S_n^a} ; A_n-t_1\sqrt{S_n^a}\right]\] est un intervalle de confiance \( 1-\alpha\) de \( a\) et
\[\left[B_n-t_2\sqrt{S_n^b} ; B_n-t_1\sqrt{S_n^b}\right]\]
est un intervalle de confiance de niveau \( 1-\alpha\) de \( b\) .
1Pas tout à fait car le numérateur fait aussi intervenir les données \( x\) .
2Ce qui est assez difficile à mathématiquement démontrer.