UKOnline

Ajustement linéaire

On considère l'observation de deux caractères numériques $x$ et $y$ dans une population. Le résultat d'une observation est représenté par le point $A_i(x_i, y_i)$ auquel est associé sa masse $e_i$ indiquant le nombre de fois que l'observation a été faite.

L'ensemble des points $A_i$ est un nuage de points. Le point $G(\overline{x}, \overline{y})$ est le point moyen, également appelé barycentre, du nuage de points.

Un ajustement statistique consiste à déterminer une fonction $f$ dont le graphe approche au maximum le nuage de points. Dans un ajustement linéaire, la fonction $f$ recherchée est une droite :

  • La méthode des moindres carrés cherche une droite $y = ax + b$ de manière à minimiser la somme des carrés des différences entre les points du nuage et ceux de la droite : $$\sum_i \left( y_i - (ax_i + b) \right)^2.$$ La droite est appelée droite de régression de $y$ par rapport à $x$.
  • Le coefficient de corrélation $r$ permet de mesurer la qualité de l'ajustement : $$r = a \frac{\sigma_x}{\sigma_y}.$$ On a $-1 \leq r \leq 1$. Une valeur proche de $1$ ou $-1$ indique une forte corrélation et il n'y a aucune corrélation lorsque la valeur est proche de $0$.

Voici deux propriétés relatives à l'ajustement linéaire :

  1. La droite de régression de $y$ par rapport à $x$ passe par le barycentre du nuage. Elle a pour équation $y - \overline{y} = a(x - \overline{x})$, ou encore $y = ax + (\overline{y} - a\overline{x})$.
  2. Le coefficient angulaire de la droite de régression de $y$ par rapport à $x$ vaut : $$a = \frac{\sum_i e_i(x_i - \overline{x}) (y_i - \overline{y})}{\sum_i e_i (x_i - \overline{x})^2}.$$