Ajustement linéaire
On considère l'observation de deux caractères numériques $x$ et $y$ dans une population. Le résultat d'une observation est représenté par le point $A_i(x_i, y_i)$ auquel est associé sa masse $e_i$ indiquant le nombre de fois que l'observation a été faite.
L'ensemble des points $A_i$ est un nuage de points. Le point $G(\overline{x}, \overline{y})$ est le point moyen, également appelé barycentre, du nuage de points.
Un ajustement statistique consiste à déterminer une fonction $f$ dont le graphe approche au maximum le nuage de points. Dans un ajustement linéaire, la fonction $f$ recherchée est une droite :
- La méthode des moindres carrés cherche une droite $y = ax + b$ de manière à minimiser la somme des carrés des différences entre les points du nuage et ceux de la droite : $$\sum_i \left( y_i - (ax_i + b) \right)^2.$$ La droite est appelée droite de régression de $y$ par rapport à $x$.
- Le coefficient de corrélation $r$ permet de mesurer la qualité de l'ajustement : $$r = a \frac{\sigma_x}{\sigma_y}.$$ On a $-1 \leq r \leq 1$. Une valeur proche de $1$ ou $-1$ indique une forte corrélation et il n'y a aucune corrélation lorsque la valeur est proche de $0$.
Voici deux propriétés relatives à l'ajustement linéaire :
- La droite de régression de $y$ par rapport à $x$ passe par le barycentre du nuage. Elle a pour équation $y - \overline{y} = a(x - \overline{x})$, ou encore $y = ax + (\overline{y} - a\overline{x})$.
- Le coefficient angulaire de la droite de régression de $y$ par rapport à $x$ vaut : $$a = \frac{\sum_i e_i(x_i - \overline{x}) (y_i - \overline{y})}{\sum_i e_i (x_i - \overline{x})^2}.$$