\( %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Mes commandes %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \newcommand{\multirows}[3]{\multirow{#1}{#2}{$#3$}}%pour rester en mode math \renewcommand{\arraystretch}{1.3}%pour augmenter la taille des case \newcommand{\point}[1]{\marginnote{\small\vspace*{-1em} #1}}%pour indiquer les points ou le temps \newcommand{\dpl}[1]{\displaystyle{#1}}%megamode \newcommand{\A}{\mathscr{A}} \newcommand{\LN}{\mathscr{N}} \newcommand{\LL}{\mathscr{L}} \newcommand{\K}{\mathbb{K}} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\M}{\mathcal{M}} \newcommand{\D}{\mathbb{D}} \newcommand{\E}{\mathcal{E}} \renewcommand{\P}{\mathcal{P}} \newcommand{\G}{\mathcal{G}} \newcommand{\Kk}{\mathcal{K}} \newcommand{\Cc}{\mathcal{C}} \newcommand{\Zz}{\mathcal{Z}} \newcommand{\Ss}{\mathcal{S}} \newcommand{\B}{\mathbb{B}} \newcommand{\inde}{\bot\!\!\!\bot} \newcommand{\Proba}{\mathbb{P}} \newcommand{\Esp}[1]{\dpl{\mathbb{E}\left(#1\right)}} \newcommand{\Var}[1]{\dpl{\mathbb{V}\left(#1\right)}} \newcommand{\Cov}[1]{\dpl{Cov\left(#1\right)}} \newcommand{\base}{\mathcal{B}} \newcommand{\Som}{\textbf{Som}} \newcommand{\Chain}{\textbf{Chain}} \newcommand{\Ar}{\textbf{Ar}} \newcommand{\Arc}{\textbf{Arc}} \newcommand{\Min}{\text{Min}} \newcommand{\Max}{\text{Max}} \newcommand{\Ker}{\text{Ker}} \renewcommand{\Im}{\text{Im}} \newcommand{\Sup}{\text{Sup}} \newcommand{\Inf}{\text{Inf}} \renewcommand{\det}{\texttt{det}} \newcommand{\GL}{\text{GL}} \newcommand{\crossmark}{\text{\ding{55}}} \renewcommand{\checkmark}{\text{\ding{51}}} \newcommand{\Card}{\sharp} \newcommand{\Surligne}[2]{\text{\colorbox{#1}{ #2 }}} \newcommand{\SurligneMM}[2]{\text{\colorbox{#1}{ #2 }}} \newcommand{\norm}[1]{\left\lVert#1\right\rVert} \renewcommand{\lim}[1]{\underset{#1}{lim}\,} \newcommand{\nonor}[1]{\left|#1\right|} \newcommand{\Un}{1\!\!1} \newcommand{\sepon}{\setlength{\columnseprule}{0.5pt}} \newcommand{\sepoff}{\setlength{\columnseprule}{0pt}} \newcommand{\flux}{Flux} \newcommand{\Cpp}{\texttt{C++\ }} \newcommand{\Python}{\texttt{Python\ }} %\newcommand{\comb}[2]{\begin{pmatrix} #1\\ #2\end{pmatrix}} \newcommand{\comb}[2]{C_{#1}^{#2}} \newcommand{\arrang}[2]{A_{#1}^{#2}} \newcommand{\supp}[1]{Supp\left(#1\right)} \newcommand{\BB}{\mathcal{B}} \newcommand{\arc}[1]{\overset{\rotatebox{90}{)}}{#1}} \newcommand{\modpi}{\equiv_{2\pi}} \renewcommand{\Re}{Re} \renewcommand{\Im}{Im} \renewcommand{\bar}[1]{\overline{#1}} \newcommand{\mat}{\mathcal{M}} \newcommand{\und}[1]{{\mathbf{\color{red}\underline{#1}}}} \newcommand{\rdots}{\text{\reflectbox{$\ddots$}}} \newcommand{\Compa}{Compa} \newcommand{\dint}{\dpl{\int}} \newcommand{\intEFF}[2]{\left[\!\left[#1 ; #2\right]\!\right]} \newcommand{\intEFO}[2]{\left[\!\left[#1 ; #2\right[\!\right[} \newcommand{\intEOF}[2]{\left]\!\left]#1 ; #2\right]\!\right]} \newcommand{\intEOO}[2]{\left]\!\left]#1 ; #2\right[\!\right[} \newcommand{\ou}{\vee} \newcommand{\et}{\wedge} \newcommand{\non}{\neg} \newcommand{\implique}{\Rightarrow} \newcommand{\equivalent}{\Leftrightarrow} \newcommand{\Ab}{\overline{A}} \newcommand{\Bb}{\overline{B}} \newcommand{\Cb}{\overline{C}} \newcommand{\Cl}{\texttt{Cl}} \newcommand{\ab}{\overline{a}} \newcommand{\bb}{\overline{b}} \newcommand{\cb}{\overline{c}} \newcommand{\Rel}{\mathcal{R}} \newcommand{\superepsilon}{\varepsilon\!\!\varepsilon} \newcommand{\supere}{e\!\!e} \makeatletter \newenvironment{console}{\noindent\color{white}\begin{lrbox}{\@tempboxa}\begin{minipage}{\columnwidth} \ttfamily \bfseries\vspace*{0.5cm}} {\vspace*{0.5cm}\end{minipage}\end{lrbox}\colorbox{black}{\usebox{\@tempboxa}} } \makeatother \def\ie{\textit{i.e. }} \def\cf{\textit{c.f. }} \def\vide{ { $ {\text{ }} $ } } %Commande pour les vecteurs \newcommand{\grad}{\overrightarrow{Grad}} \newcommand{\Vv}{\overrightarrow{v}} \newcommand{\Vu}{\overrightarrow{u}} \newcommand{\Vw}{\overrightarrow{w}} \newcommand{\Vup}{\overrightarrow{u'}} \newcommand{\Zero}{\overrightarrow{0}} \newcommand{\Vx}{\overrightarrow{x}} \newcommand{\Vy}{\overrightarrow{y}} \newcommand{\Vz}{\overrightarrow{z}} \newcommand{\Vt}{\overrightarrow{t}} \newcommand{\Va}{\overrightarrow{a}} \newcommand{\Vb}{\overrightarrow{b}} \newcommand{\Vc}{\overrightarrow{c}} \newcommand{\Vd}{\overrightarrow{d}} \newcommand{\Ve}[1]{\overrightarrow{e_{#1}}} \newcommand{\Vf}[1]{\overrightarrow{f_{#1}}} \newcommand{\Vn}{\overrightarrow{0}} \newcommand{\Mat}{Mat} \newcommand{\Pass}{Pass} \newcommand{\mkF}{\mathfrak{F}} \renewcommand{\sp}{Sp} \newcommand{\Co}{Co} \newcommand{\vect}[1]{\texttt{Vect}\dpl{\left( #1\right)}} \newcommand{\prodscal}[2]{\dpl{\left\langle #1\left|\vphantom{#1 #2}\right. #2\right\rangle}} \newcommand{\trans}[1]{{\vphantom{#1}}^{t}{#1}} \newcommand{\ortho}[1]{{#1}^{\bot}} \newcommand{\oplusbot}{\overset{\bot}{\oplus}} \SelectTips{cm}{12}%Change le bout des flèches dans un xymatrix \newcommand{\pourDES}[8]{ \begin{itemize} \item Pour la ligne : le premier et dernier caractère forment $#1#2$ soit $#4$ en base 10. \item Pour la colonne : les autres caractères du bloc forment $#3$ soit $#5$ en base 10. \item A l'intersection de la ligne $#4+1$ et de la colonne $#5+1$ de $S_{#8}$ se trouve l'entier $#6$ qui, codé sur $4$ bits, est \textbf{\texttt{$#7$}}. \end{itemize} } \)

Modélisation linéaire simple

Exemple introductif

On considère dans une classe de 20 étudiants la note obtenues à l'examen de statistique (sur 20) et au temps de travail personnel par semaine (en minutes) dans cette matière. Les données sont synthétisées dans le tableau suivant : \[ \begin{array}{c|c|c} \text{Elève}&\text{Note}&\text{Temps}\\\hline 1&12 &30 \\\hline 2&10 &15 \\\hline 3&7 &15 \\\hline 4&8 &10 \\\hline 5&2 &0 \\\hline 6&4 &10 \\\hline 7&12 &30 \\\hline 8&14 &60 \\\hline 9&13 &30 \\\hline 10&4 &10 \\\hline 11&16 &80 \\\hline 12&18 &90 \\\hline 13&18 &120\\\hline 14&12 &50 \\\hline 15&11 &30 \\\hline 16&10 &30 \\\hline 17&9 &30 \\\hline 18&9 &40 \\\hline 19&12 &40 \\\hline 20&15 &70 \end{array} \]
On note \( x\) la donnée statistique correspondant à la note et \( y\) celle du temps de travail. Pour observer ces données on les a représenté dans un nuage de point ; les valeurs de \( x\) en abscisses et \( y\) en ordonnés. On observe que plus la note est bonne, plus le temps de travail est important et inversement (surtout inversement). Pour cela on considère le temps non pas comme une donnée statistique mais comme une variable aléatoire dont on cherche la loi. Nous nous plaçons dans le cadre d'un modèle linéaire simple.

Définition


Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques. La variable \( x\) est appelée variable exogène ou expliquée. La variable \( y\) est appelée variables endogène ou à expliquer. Une modélisation linéaire simple consiste à considérer les variables aléatoires \[ Y_i=ax_i+b+\varepsilon_i \] où es \( \varepsilon_i\) sont des variables aléatoires i.i.d. appelés termes d'erreurs et suivent une loi normale \( \mathcal{N}(0, \sigma)\) .
Dans la pratique, on note par des lettres majuscules les variables aléatoires et en minuscules les données statistiques.

Remarque

  1. L'écart-type \( \sigma\) ne dépend pas de \( i\) (c'est à dire des réalisations). On parle d'homoscédasticité.
  2. Le terme d'erreur est indépendant de la variable exogène.
  3. \( \forall i, \ Y_i\sim \mathcal{N}(ax_i+b, \sigma)\)
Nous avons trois valeurs à estimer (\( a\) , \( b\) et \( \sigma\) ) de tel sorte que les \( y_i\) s'écartent le moins possible de \( ax_i+b\)

La covariance

On rappel que si \( x=(x_1, \ldots, x_n)\) est une donné statistique, on note \( \overline{\alpha x+\beta}=\dpl{\dfrac{1}{n}\sum_{i=1}^n \alpha x_i+\beta}\) la moyenne. On montre très facilement que \( \overline{\alpha x+\beta}=\alpha\overline{x}+\beta\) . De la même manière, on rappel que l'espérance d'une variable aléatoire \( X\) est linéaire : \( \Esp{\alpha X+\beta}=\alpha \Esp{X}+\beta\) . Ceci étant, définissons la covariance.

Définition


Soient \( X\) et \( Y\) des variables aléatoires. On définit la covariance de \( X\) et \( Y\) comme : \[Cov\left(X, Y\right)=\Esp{(X-\Esp{X})(Y-\Esp{Y})}\] Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques. On définit la covariance de \( x\) et \( y\) comme : \[\sigma_{x, y}=\overline{(x-\overline{x})(y-\overline{y})}\]

Lemme


Soient \( X\) , \( Y\) et \( Z\) des variables aléatoires réelles et \( \alpha\) et \( \beta\) des nombres réels.
  1. \( Cov\left(X, Y\right)=\Esp{XY}-\Esp{X}\Esp{Y}\)
  2. \( X\inde Y\Rightarrow Cov\left(X, Y\right)=0\)
  3. \( Cov\left(X, X\right)=\mathbb{V}\left(X\right)\)
  4. \( Cov\left(X+\alpha, Y\right)=Cov\left(X, Y\right)\)
  5. \( Cov\left(X+Y, Z\right)=Cov\left(X, Z\right)+Cov\left(Y, Z\right)\)
  6. \( Cov\left(X, Y\right)=Cov\left(Y, X\right)\)
  7. \( \mathbb{V}\left(\alpha X+\beta Y\right)=\alpha^2 \mathbb{V}\left(X\right)+2 \alpha \beta Cov\left(X, Y\right)+\beta^2 \mathbb{V}\left(Y\right)\)
Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques et \( \alpha\) et \( \beta\) des nombres réels. Notons \( xy=(x_1y_1,\ldots x_ny_n)\) .
  1. \( \sigma_{x, y}=\overline{xy}-\overline{x}.\overline{y}\)
  2. \( \sigma_{x, x}=\sigma_x^2\)
  3. \( \sigma_{x+\alpha, y}=\sigma_{x, y}\)
  4. \( \sigma_{x+y, z}=\sigma_{x, z}+\sigma_{y, z}\)
  5. \( \sigma_{x, y}=\sigma_{y, x}\)
  6. \( \sigma_{\alpha x+\beta y}=\alpha^2 \sigma_{x}^2+2\alpha\beta\sigma_{x, y}+\beta^2\sigma_y^2\)

Démonstration

Nous ne réalisons les démonstration que dans le cas probabiliste. Le cas déterministe (de la statistique) étant, aux notations près, le même. La première formule se déduit de la linéarité de l'espérance : \begin{eqnarray*} Cov\left(X, Y\right) &=& \Esp{(X-\Esp{X})(Y-\Esp{Y})}\\ &=& \Esp{XY-X\Esp{Y}-Y\Esp{X}+\Esp{X}\Esp{Y}}\\ &=& \Esp{XY}-\Esp{X}\Esp{Y}-\Esp{Y}\Esp{X}+\Esp{X}\Esp{Y}\\ &=& \Esp{XY}-\Esp{X}\Esp{Y} \end{eqnarray*} Pour la seconde viens du fait que si \( X\) et \( Y\) sont indépendants alors \( \Esp{XY}=\Esp{X}\Esp{Y}\) La troisième et la quatrième découle trivialement des définitions, quand à la dernière elle vient de la linéarité de l'espérance : \begin{eqnarray*} \mathbb{V}\left(\alpha X+\beta Y\right) &=&\Esp{\left(\alpha X+\beta Y-\Esp{\alpha X+\beta Y}\right)^2}\\ &=&\Esp{\left(\alpha X+\beta Y-\alpha \Esp{X}-\beta \Esp{Y}\right)^2}\\ &=&\Esp{\left(\alpha (X-\Esp{X})+\beta (Y-\Esp{Y})\right)^2}\\ &=&\Esp{\alpha^2 (X-\Esp{X})^2+2\alpha\beta(X-\Esp{X})(Y-\Esp{Y})+\beta^2 (Y-\Esp{Y})^2}\\ &=&\alpha^2 \Esp{(X-\Esp{X})^2}+2\alpha\beta\Esp{(X-\Esp{X})(Y-\Esp{Y})}+\beta^2 \Esp{(Y-\Esp{Y})^2}\\ &=&\alpha^2 \mathbb{V}\left(X\right)+2\alpha\beta Cov\left(X, Y\right)+\beta^2 \mathbb{V}\left(Y\right) \end{eqnarray*}

Théorème [Inégalité de Cauchy-Schwartz]


Soient \( X\) et \( Y\) des variables aléatoires réelles. \[Cov\left(X, Y\right)^2\leqslant\mathbb{V}\left(X\right)\mathbb{V}\left(Y\right)\] Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques. \[\sigma_{x, y}^2\leqslant\sigma_x^2\sigma_y^2\]

Démonstration

C'est la même preuve dans le cas déterministe et dans le cas probabiliste. Nous n'en faisons qu'une. Pour tout nombre réel \( t\) , \( \sigma_{tx+y}^2\geqslant 0\) . Or d'après le précédent lemme, \( \sigma_{tx+y}^2=t^2\sigma_x^2+2t\sigma_{x, y}+\sigma_y^2\) . Ce polynôme de degré 2 est donc positif ou nul, donc son discriminant est négatif ou nul, c'est à dire \( 4\sigma_{x, y}^2-4\sigma_x^2\sigma_y^2\leqslant0\) ce qui prouve l'inégalité.

EMCO : l'estimateur des moindres carrés ordinaires

On rappel que l'on cherche à estimer \( a\) , \( b\) et \( \sigma\) tel que pur tout \( i\) , \( Y_i=ax_i+b+\varepsilon_i\) où \( \varepsilon_i\simeq\mathcal{N}(0, \sigma)\) . Bien sur pour que ce modèle soit le plus proche des valeurs observée, il faut que les réalisations \( y_i\) s'écartent le moins possible des \( ax_i+b\) . Un moyen est de passer par la mesure de l'erreur quadratique. On considère donc \[EQ((x,y),(a, b))=\sum_{i=1}^n\varepsilon_i^2=\sum_{i=1}^n(y_i-ax_i-b)^2\]

Théorème


Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques. Le minimum de \( \dpl{\sum_{i=1}^n(y_i-ax_i-b)^2}\) est atteint lorsque : \[a=\hat{a}=\dfrac{\sigma_{x, y}}{\sigma_x^2}\qquad b=\hat{b}=\overline{y}-\hat{a}\overline{x}\] La droite d'équation \( d(x)=\hat{a}x+\hat{b}\) est appelé la droite de régression linéaire.

Démonstration

On cherche à minimiser \( f(a, b)=\dpl{\sum_{i=1}^n(y_i-ax_i-b)^2}\) . Il faut pour cela déterminer les valeurs pour lesquelles les dérivées partielles en \( a\) et en \( b\) s'annulent simultanément. \begin{eqnarray*} \left\{ \begin{array}{rcl} \dfrac{\partial f}{\partial a}&=&0\\ \dfrac{\partial f}{\partial b}&=&0 \end{array} \right. &\Rightarrow& \left\{ \begin{array}{rcl} \dpl{\sum_{i=1}^n}-2x_i(y_i-ax_i-b)&=&0\\ \dpl{\sum_{i=1}^n}-2(y_i-ax_i-b)&=&0 \end{array} \right.\\ &\Rightarrow& \left\{ \begin{array}{rcl} \dpl{\sum_{i=1}^n}x_iy_i-ax_i^2-bx_i&=&0\\ \dpl{\sum_{i=1}^n}y_i-ax_i-b&=&0 \end{array} \right.\\ &\Rightarrow& \left\{ \begin{array}{rcl} \overline{xy}-a\overline{x^2}-b\overline{x}&=&0\\ \overline{y}-a\overline{x}-b&=&0 \end{array} \right.\\ \end{eqnarray*} La seconde équation montre qu'il suffit de trouver \( \hat{a}\) pour trouver \( \hat{b}\) .
Si \( \overline{x}\neq 0\) .
Dans ce cas, on peut multiplier la seconde ligne par \( \overline{x}\) pour arriver à \( \overline{x}.\overline{y}-a\overline{x}^2-b\overline{x}=0\) . En la soustrayant à la première ligne, on arrive à \[(\underbrace{\overline{xy}-\overline{x}.\overline{y}}_{\sigma_{x, y}})-a(\underbrace{\overline{x^2}-\overline{x}}_{\sigma_x^2})=0\] ce qui prouve le résultat.

Si \( \overline{x}=0\) .
Dans ce cas la première équation devient \( \sigma_{x, y}-a\sigma_x^2=0\) ce qui prouve aussi le résultat.
Dans notre exemple (des notes et du temps de travail), la droite de régression linéaire est \[d(x)=5,8744582882 x-23,9441495125\]
Il y a à peu près, autant de point au dessus qu'en dessous de la droite de régression linéaire. Si on observe, on constate que \( \hat{a}\) est inversement proportionnelle1 à la variance de \( x\) . De sorte que plus cette variance est petite plus le coefficient directeur de la droite de régression linéaire sera grande De même, par construction, plus \( \sigma\) sera petit, plus les point seront proche de la droite et inversement. On peut faire ses observations sur les simulations suivantes :
\( \sigma_x= 1 \) \( \sigma_x= 3 \)
\( \sigma= 1 \)
\( \sigma= 5 \)
\( \sigma= 10 \)
\( \sigma= 20 \)

Résidus et corrélation

Dans une modélisation linéaire simple \( Y_i=ax_i+b+\varepsilon_i\) les variables aléatoires \( \varepsilon_i\) sont appelés les termes d'erreurs (du modèle) à ne pas confondre avec les résidus.

Définition


Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques, \( Y_i=ax_i+b+\varepsilon_i\) une modélisation linéaire simple et \( \hat{a}=\dfrac{\sigma_{x, y}}{\sigma_x^2}\) et \( \hat{b}=\overline{y}-\hat{a}\overline{x}\) . Notons \( \hat{y}_i=\hat{a}x_i+\hat{b}\) . On appel résidus du modèle les valeurs \( \hat{\varepsilon}_i=y_i-\hat{y}_i\)

Proposition


Les résidus d'une modélisations linéaire simple ont une moyenne nulle.

Démonstration

\begin{eqnarray*} \dfrac{1}{n}\sum_{i=1}^n\hat{\varepsilon}_i &=&\dfrac{1}{n}\sum_{i=1}^ny_i-\hat{a}x_i-\hat{b}\\ &=&\dfrac{1}{n}\sum_{i=1}^ny_i-\hat{a}x_i-\overline{y}+\hat{a}\overline{x}\\ &=&\overline{y}-\hat{a}\overline{x}-\overline{y}+\hat{a}\overline{x}\\ &=&0 \end{eqnarray*}
Pour estimer les valeurs de \( a\) et de \( b\) (par \( \hat{a}\) et \( \hat{b}\) ) nous avons minimiser l'erreur quadratique du modèle. On peut chercher à mesurer la qualité de cette estimation en mesurant les résidus. Comme ils sont de moyenne nulle, on va regarder leur variance.

Définition


Avec les notations précédentes on définit le coefficient de détermination du modèle, noté \( R^2\) , par : \[R_{x, y}^2=\dfrac{\dpl{\sum_{i=1}^n}(\hat{y_i}-\overline{y})^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}\]

Proposition


Avec les notations précédentes \[R_{x, y}^2=\dfrac{\dpl{\sum_{i=1}^n}(\hat{y_i}-\overline{y})^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}=1-\dfrac{\dpl{\sum_{i=1}^n}(y_i-\hat{y}_i)^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}\] En particulier \( R_{x, y}^2\in[0, 1]\) .

Démonstration

Il suffit de montrer que \( \dpl{ \sum_{i=1}^n(y_i-\overline{y})^2= \sum_{i=1}^n(y_i-\hat{y}_i)^2+ \sum_{i=1}^n(\hat{y}_i-\overline{y})^2 } \) \begin{eqnarray*} \sum_{i=1}^n(y_i-\overline{y})^2 &=&\sum_{i=1}^n(y_i-\hat{y}_i+\hat{y}_i-\overline{y})^2\\ &=&\sum_{i=1}^n(y_i-\hat{y}_i)^2+2\sum_{i=1}^n\sum_{j=i+1}^n(y_i-\hat{y}_i)(\hat{y}_j-\overline{y})+\sum_{i=1}^n(\hat{y}_i-\overline{y})^2\\ &=&\sum_{i=1}^n(y_i-\hat{y}_i)^2+2\sum_{i=1}^n(y_i-\hat{y}_i)\sum_{j=i+1}^n(\hat{y}_j-\overline{y})+\sum_{i=1}^n(\hat{y}_i-\overline{y})^2\\ &=&\sum_{i=1}^n(y_i-\hat{y}_i)^2+2\underbrace{\sum_{i=1}^n\hat{\varepsilon}_i}_{=0}\sum_{j=i+1}^n(\hat{y}_j-\overline{y})+\sum_{i=1}^n(\hat{y}_i-\overline{y})^2\\ &=&\sum_{i=1}^n(y_i-\hat{y}_i)^2+\sum_{i=1}^n(\hat{y}_i-\overline{y})^2 \end{eqnarray*}

Remarque

Interprétation :
Si \( R_{x, y}^2\) est proche de \( 1\)
alors \( \dpl{\sum_{i=1}^n(y_i-\hat{y}_i)^2}\) est proche de \( 0\) ce qui signifie que le modèle est très proche des valeurs : c'est un bon modèle.

Si \( R_{x, y}^2\) est proche de \( 0\)
alors \( \dpl{\sum_{i=1}^n(\hat{y}_i-\overline{y})^2}\) est proche de \( 0\) et les \( \hat{y}_i\) approche la moyenne : ce modèle n'est pas bon.

Définition


Soient \( x=(x_1, \ldots, x_n)\) et \( y=(y_1, \ldots, y_n)\) des données statistiques.
Le coefficient de corrélation linéaire simple (ou de Pearson)
de \( x\) et \( y\) est noté \( r_{x, y}\) et est définit par \[r_{x, y}=\dfrac{\sigma_{x, y}}{\sigma_{x}\sigma_{y}}\]

Le coefficient de corrélation linéaire multiple
de \( x\) et \( y\) est noté \( R_{x, y}\) et est définit par \[R_{x, y}=\sqrt{R^2_{x, y}}\]

Proposition


Avec les notations précédentes \[r_{x, y}=sg(\hat{a})R_{x, y}\] où \( sg(\hat{a})\) désigne le signe de \( \hat{a}\) .

Démonstration

On observe que \( r_{x, y}=\dfrac{\sigma_{x ,y}}{\sigma_x\sigma_y}= \dfrac{\sigma_{x ,y}}{\sigma_x^2}\dfrac{\sigma_x}{\sigma_y}=\hat{a}\dfrac{\sigma_x}{\sigma_y}\) . D'où \begin{eqnarray*} r_{x, y}^2&=& \hat{a}^2\dfrac{\sigma_x^2}{\sigma_y^2}\\ &=&\hat{a}^2\dfrac{\dfrac{1}{n}\dpl{\sum_{i=1}^n(x_i-\overline{x})^2}}{\sigma_y^2}\\ &=&\dfrac{\dfrac{1}{n}\dpl{\sum_{i=1}^n(\hat{a}x_i-\hat{a}\overline{x})^2}}{\sigma_y^2}\\ &=&\dfrac{\dfrac{1}{n}\dpl{\sum_{i=1}^n(\hat{a}x_i+\hat{b}-\hat{a}\overline{x}-\hat{b})^2}}{\sigma_y^2}\\ &=&\dfrac{\dfrac{1}{n}\dpl{\sum_{i=1}^n(\hat{y}_i-\overline{y})}}{\sigma_y^2}\\ &=&R^2_{x, y} \end{eqnarray*}
En définitive pour déterminer si un modèle linéaire simple est un bon modèle, on peut calculer au choix le coefficient de corrélation simple ou multiple et le comparer à \( 1\) . Plus ce coefficient est proche de \( 1\) , plus le modèle est bon. Dans notre exemple, il vaut \( 78,23\%\) . Le modèle choisi est plutôt bon.

Théorème de Gauss-Markov

Plaçons-nous dans un cadre un peut plus théorique. L'objectif de ce chapitre est de construire les EMCO et de montrer qu'il s'agit d'estimateur convergent. On fixe dans la suite des données statistique \( x\) et \( y\) dont on suppose avoir une infinité de réalisation (c'est juste pour la théorie, dans la pratique, c'est inutile et irréalisable) ainsi qu'un modèle linéaire simple \( Y_i=ax_i+b+\varepsilon_i\) où les \( \varepsilon_i\sim\mathcal{N}(0, \sigma)\) sont i.i.d. .

Proposition


Les estimateurs suivants \[A_n=\dfrac{\sigma_{x, Y}}{\sigma_x^2}=a+\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\] et \[B_n=\overline{Y}_n-A_n\overline{x}=b+\overline{\varepsilon}_n+(A_n-a)\overline{x}\] sont des estimateurs convergents et dans biais de \( a\) et \( b\) . De plus \[\mathbb{V}\left(A_n\right)=\dfrac{\sigma^2}{n}\left(\dfrac{1}{\sigma_x^2}\right)\qquad \text{et}\qquad \mathbb{V}\left(B_n\right)=\dfrac{\sigma^2}{n}\left(1+\dfrac{\overline{x}^2}{\sigma_x^2}\right)\]

Démonstration

\begin{eqnarray*} \mathbb{V}\left(A_n\right) &=&\mathbb{V}\left(a+\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\right)\\ &=&\mathbb{V}\left(\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\right)\\ &=&\dfrac{1}{n^2}\mathbb{V}\left(\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\right)\\ &=&\dfrac{1}{n^2}\sum_{i=1}^n\mathbb{V}\left(\varepsilon_i\right)\dfrac{(x_i-\overline{x})^2}{\sigma_x^4}\\ &=&\dfrac{1}{n^2}\sum_{i=1}^n\sigma^2\dfrac{(x_i-\overline{x})^2}{\sigma_x^4}\\ &=&\dfrac{\sigma^2}{\sigma_x^4}\dfrac{1}{n^2}\sum_{i=1}^n\sigma^2{(x_i-\overline{x})^2}\\ &=&\dfrac{\sigma^2}{\sigma_x^4}\dfrac{1}{n}\sigma_x^2\\ &=&\dfrac{\sigma^2}{n}\dfrac{1}{\sigma_x^2} \end{eqnarray*} \begin{eqnarray*} \Esp{A_n} &=&a+\Esp{\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}}\\ &=&a+\dfrac{1}{n}\Esp{\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}}\\ &=&a+\dfrac{1}{n}\sum_{i=1}^n\Esp{\varepsilon_i}\dfrac{x_i-\overline{x}}{\sigma_x^2}\\ &=&a \end{eqnarray*} Ainsi \( A_n\) est un estimateur sans biais et de variance qui tend vers \( 0\) . D'après le cours, \( A_n\) est un estimateur convergent de \( a\) . \begin{eqnarray*} \Esp{B_n} &=&\Esp{\overline{Y}_n-A_n\overline{x}}\\ &=&\Esp{\overline{Y}_n}-\Esp{A_n}\overline{x}\\ &=&a\overline{x}+b-a\overline{x}\\ &=&b \end{eqnarray*} \begin{eqnarray*} \mathbb{V}\left(B_n\right) &=&\mathbb{V}\left(\overline{Y_n}-A_n\overline{x}\right)\\ &=&\mathbb{V}\left(\overline{Y_n}\right)-2\overline{x}Cov\left(\overline{Y_n}, A_n\right)+\overline{x}^2\mathbb{V}\left(A_n\right) \end{eqnarray*} Or
\( \bullet\)
\begin{eqnarray*} \mathbb{V}\left(\overline{Y_n}\right) &=& \mathbb{V}\left(a\overline{x}+b+\overline{\varepsilon_n}\right)\\ &=& \mathbb{V}\left(\overline{\varepsilon_n}\right)\\ &=&\mathbb{V}\left(\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\right)\\ &=&\dfrac{1}{n^2}\sum_{i=1}^n\mathbb{V}\left(\varepsilon_i\right)\\ &=&\dfrac{1}{n^2}\sum_{i=1}^n\sigma^2\\ &=&\dfrac{\sigma^2}{n} \end{eqnarray*}

\( \bullet\)
\begin{eqnarray*} Cov\left(\overline{Y_n}, A_n\right) &=&Cov\left(\overline{\varepsilon}_n,\dfrac{1}{n}\sum_{i=1}^n\varepsilon_i\dfrac{x_i-\overline{x}}{\sigma_x^2}\right)\\ &=&\dfrac{1}{n}\sum_{i=1}^n\dfrac{x_i-\overline{x}}{\sigma_x^2}Cov\left(\overline{\varepsilon}_n,\varepsilon_i\right)\\ &=&\dfrac{1}{n}\sum_{i=1}^n\dfrac{x_i-\overline{x}}{\sigma_x^2}\dfrac{\sigma^2}{n}\\ &=&\dfrac{\sigma^2}{n\sigma_x^2}\dfrac{1}{n}\sum_{i=1}^nx_i-\overline{x}\\ &=&\dfrac{\sigma^2}{n\sigma_x^2}\times 0\\ &=&0 \end{eqnarray*} Où on a remarqué que \( Cov\left(\overline{\varepsilon}_n, \varepsilon_i\right)=\dfrac{1}{n}\sum_{j=1}^nCov\left(\varepsilon_j, \varepsilon_i\right)\) . Si \( i\neq j\) alors par indépendance, \( Cov\left(\varepsilon_j, \varepsilon_i\right)=0\) et si \( i=j\) , \( Cov\left(\varepsilon_i, \varepsilon_i\right)=\mathbb{V}\left(\varepsilon_i\right)=\sigma^2\) . D'où \( Cov\left(\overline{\varepsilon}_n, \varepsilon_i\right)=\dfrac{\sigma^2}{n}\) .
Donc finalement \begin{eqnarray*} \mathbb{V}\left(B_n\right) &=&\mathbb{V}\left(\overline{Y_n}-A_n\overline{x}\right)\\ &=&\mathbb{V}\left(\overline{Y_n}\right)+\overline{x}^2\mathbb{V}\left(A_n\right)\\ &=&\dfrac{\sigma^2}{n}+\overline{x}^2\dfrac{\sigma^2}{n}\dfrac{1}{\sigma_x^2}\\ &=&\dfrac{\sigma^2}{n}\left(1+\dfrac{\overline{x}^2}{\sigma_x^2}\right) \end{eqnarray*} Ainsi \( B_n\) est un estimateur sans biais et de variance qui tend vers \( 0\) . D'après le cours, \( B_n\) est un estimateur convergent de \( b\) .
On dis que ces estimateurs sont BLUE : Best Linear Unbiased Estimator. Ce sont les plus efficace : il est impossible d'obtenir des estimateurs avec une variance plus faible2.

Estimation de \( \sigma\)

Avec nos hypothèses, les estimateurs \( A_n\) et \( B_n\) sont des combinaisons linéaires de loi normale donc ils suivent des lois normales.
L'estimateur \( A_n\)
suit une loi normale de paramètre \( a\) et \( \sigma(A_n)=\sigma\dfrac{1}{\sqrt{n}\sigma_x}\) .

L'estimateur \( B_n\)
suit une loi normale de paramètre \( b\) et \( \sigma(B_n)=\sigma\dfrac{\sqrt{1+\dfrac{\overline{x}^2}{\sigma_x^2}{}}}{\sqrt{n}}\) .
Dans un cas comme dans l'autre si l'on cherche à estimer les variances (ou les écart-types), il est nécessaire d'estimer \( \sigma\) .

Théorème


Soit \( \hat{\superepsilon}_i=Y_i-\hat{y_i}=ax_i+b+\varepsilon_i-\hat{a}x_i-\hat{b}\) . \[\Esp{\sum_{i=1}^n\hat{\superepsilon}_i^2}=(n-2)\sigma^2\]

Démonstration

Admise
Le \( 2\) du \( n-2\) viens du fait que deux paramètres ont été estimés : \( \hat{a}\) et \( \hat{b}\) ce qui diminue donc le degrés de liberté de cette égalité.

Corollaire


La variable aléatoire \[S_n=\dfrac{\dpl{\sum_{i=1}^n\hat{\superepsilon}_i^2}}{n-2}\] est un estimateur convergent et sans biais de \( \sigma^2\) . En particulier :
  1. \( S_n^a=S_n\dfrac{1}{n\sigma_x^2}\) est un estimateur convergent et sans biais de \( \mathbb{V}\left(A_n\right)\) .
  2. \( S_n^b=S_n\dfrac{\sigma_x^2+\overline{x}}{n\sigma_x^2}\) est un estimateur convergent sans biais de \( \mathbb{V}\left(B_n\right)\) .
De plus \( (n-2)\dfrac{S_n}{\sigma^2}\sim\chi^2(n-2)\) .

Démonstration

L'estimateur \( S_n\) est sans biais donc asymptotiquement sans biais et sa variance tend vers \( 0\) . Il est donc convergent. C'est le même raisonnement pour \( S_n^a\) et \( S_n^b\) . Enfin \( \superepsilon_i\sim\mathcal{N}(0, \sigma)\) de sorte que \( \dfrac{\hat{\superepsilon}_i}{\sigma}\sim\mathcal{N}(0, 1)\) . Alors \[(n-2)\dfrac{S_n}{\sigma^2}=\sum_{i=1}^n\dfrac{\hat{\superepsilon}_i^2}{\sigma^2}\] est donc la somme du carré de loi normale centrée réduite. C'est une distribution du \( \chi^2\) (par définition) à \( n-2\) degrés de libertés.

Corollaire


\[\dfrac{A_n-a}{\sqrt{S_n^a}}\sim\mathcal{T}(n-2) \qquad et \qquad \dfrac{B_n-b}{\sqrt{S_n^b}}\sim\mathcal{T}(n-2) \]

Démonstration

On raisonne pour \( A_n\) , c'est un raisonnement identique pour \( B_n\) . \begin{eqnarray*} \dfrac{A_n-a}{\sqrt{S_n^a}} &=&\dfrac{\dfrac{A_n-a}{\sigma(A_n)}}{\dfrac{\sqrt{S_n^a}}{\sigma(A_n)}} =\dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{S_n^a}{\mathbb{V}\left(A_n\right)}}} =\dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{S_n\dfrac{1}{n\sigma_x^2}}{\dfrac{\sigma^2}{n}\dfrac{1}{\sigma_x^2}}}} \\ &=&\dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{S_n}{\sigma^2}}} = \dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{\sigma^2\dfrac{\chi^2(n-2)}{n-2}}{\sigma^2}}} = \dfrac{\mathcal{N}(0, 1)}{\sqrt{\dfrac{\chi^2(n-2)}{n-2}}} \end{eqnarray*}

Corollaire


Soient \( 0{<}\beta{<}\alpha{<}1\) , \( t_1=Q_{\mathcal{T}(n-2)}(\beta)\) et \( t_2=Q_{\mathcal{T}(n-2)}(1-\alpha+\beta)\) alors \[\left[A_n-t_2\sqrt{S_n^a} ; A_n-t_1\sqrt{S_n^a}\right]\] est un intervalle de confiance \( 1-\alpha\) de \( a\) et \[\left[B_n-t_2\sqrt{S_n^b} ; B_n-t_1\sqrt{S_n^b}\right]\] est un intervalle de confiance de niveau \( 1-\alpha\) de \( b\) .




1Pas tout à fait car le numérateur fait aussi intervenir les données \( x\) .
2Ce qui est assez difficile à mathématiquement démontrer.